– Idéen om at det er mulig å garantere eller "løse" AI-sikkerhet utelukkende gjennom teknologiske fremskritt er urealistisk.
Det skriver 26 av Microsofts egne eksperter i en fersk forskningsrapport med tittelen "Lessons From Red Teaming 100 Generative AI Products". Det er The Register som melder dette.
Forfatterne av rapporten har tatt for seg 100 av Microsofts egne generative AI-produkter, og blant annet oppsummert funn fra Microsofts AI Red Team (AIRT) – en gruppe som jobber med å finne feil og svakheter i AI-modeller.
Blant det de har sett på er hvorvidt det er mulig å manipulere AI-systemet til å gi feil svar eller generere skadelig innhold.
Konklusjonen er at AI-modeller ofte kan forsterke eksisterende sikkerhetsrisikoer eller skape nye.
– Integrasjon av generative AI-modeller i mange forskjellige applikasjoner har introdusert nye angrepsvektorer og endret sikkerhetslandskapet, skriver de.
– Er AI til programmering det vi trenger?
Blir aldri ferdig
Forfatterne mener man aldri blir ferdig med å sikre AI-systemer.
Men ifølge The Register sier CTO for Azure, Mark Russinovich, at man vil kunne gjøre det vanskeligere og dyrere å angripe AI-løsningene.
I rapporten har forskerne blant annet testet ulike LLM-er (store språkmodeller) for å finne ut hvor gode de er på å følge instruksjonene fra brukerne.
– Under testing av Phi-3-serien med språkmodeller fant vi at større modeller generelt var bedre til å følge brukernens instruksjoner. Dette er en viktig egenskap som gjør modellene mer hjelpsomme, skriver de.
Problemet er at dette også gjør at det kan være enklere å lure modellene til å gi uønsket respons tilbake.
Apple stopper AI-funksjon som lagde falske nyheter
Vil trenge mennesker
Microsoft utviklet sitt eget rammeverk for å automatisere en del av testingen av sikkerheten i AI-løsninger, PyRIT (Python Risk Identification Toolkit for generative AI).
Rapporten er ganske teknisk og beskriver ulike metoder som kan brukes for å manipulere AI-modeller. Du kan lese detaljene i selve rapporten (PDF), og i The Registers artikkel.
En av hovedkonklusjonene i rapporten er at man ikke trenger avansert teknologi for å manipulere AI-systemer. Enkle metoder som utnytter svakheter i brukergrensesnitt eller visuelle modeller kan være vel så effektive.
De som har skrevet rapporten er ikke redde for å selv bli erstattet av AI:
– Det menneskelige elementet i AI red teaming er avgjørende, skriver forskerne.