Umulig å gjøre AI 100% sikker, mener Microsoft

Microsofts sikkerhetseksperter har analysert over 100 av selskapets egne AI-produkter og konkluderer med at de både forsterker eksisterende sikkerhetsrisikoer – og introduserer nye.

Det er vanskelig å hindre at AI-modeller gir uønsket respons tilbake, mener Microsoft. 📸: <a href="https://unsplash.com/@emilianovittoriosi?utm_content=creditCopyText&amp;utm_medium=referral&amp;utm_source=unsplash">Emiliano Vittoriosi</a>, <a href="https://unsplash.com/photos/a-close-up-of-a-computer-screen-with-a-menu-on-it-fvxNerA8uk0?utm_content=creditCopyText&amp;utm_medium=referral&amp;utm_source=unsplash">Unsplash</a>
Det er vanskelig å hindre at AI-modeller gir uønsket respons tilbake, mener Microsoft. 📸: Emiliano Vittoriosi, Unsplash Vis mer

– Idéen om at det er mulig å garantere eller "løse" AI-sikkerhet utelukkende gjennom teknologiske fremskritt er urealistisk.

Det skriver 26 av Microsofts egne eksperter i en fersk forskningsrapport med tittelen "Lessons From Red Teaming 100 Generative AI Products". Det er The Register som melder dette.

Forfatterne av rapporten har tatt for seg 100 av Microsofts egne generative AI-produkter, og blant annet oppsummert funn fra Microsofts AI Red Team (AIRT) – en gruppe som jobber med å finne feil og svakheter i AI-modeller.

Blant det de har sett på er hvorvidt det er mulig å manipulere AI-systemet til å gi feil svar eller generere skadelig innhold.

Konklusjonen er at AI-modeller ofte kan forsterke eksisterende sikkerhetsrisikoer eller skape nye.

– Integrasjon av generative AI-modeller i mange forskjellige applikasjoner har introdusert nye angrepsvektorer og endret sikkerhetslandskapet, skriver de.

Blir aldri ferdig

Forfatterne mener man aldri blir ferdig med å sikre AI-systemer.

Men ifølge The Register sier CTO for Azure, Mark Russinovich, at man vil kunne gjøre det vanskeligere og dyrere å angripe AI-løsningene.

I rapporten har forskerne blant annet testet ulike LLM-er (store språkmodeller) for å finne ut hvor gode de er på å følge instruksjonene fra brukerne.

– Under testing av Phi-3-serien med språkmodeller fant vi at større modeller generelt var bedre til å følge brukernens instruksjoner. Dette er en viktig egenskap som gjør modellene mer hjelpsomme, skriver de.

Problemet er at dette også gjør at det kan være enklere å lure modellene til å gi uønsket respons tilbake.

Vil trenge mennesker

Microsoft utviklet sitt eget rammeverk for å automatisere en del av testingen av sikkerheten i AI-løsninger, PyRIT (Python Risk Identification Toolkit for generative AI).

Rapporten er ganske teknisk og beskriver ulike metoder som kan brukes for å manipulere AI-modeller. Du kan lese detaljene i selve rapporten (PDF), og i The Registers artikkel.

En av hovedkonklusjonene i rapporten er at man ikke trenger avansert teknologi for å manipulere AI-systemer. Enkle metoder som utnytter svakheter i brukergrensesnitt eller visuelle modeller kan være vel så effektive.

De som har skrevet rapporten er ikke redde for å selv bli erstattet av AI:

– Det menneskelige elementet i AI red teaming er avgjørende, skriver forskerne.