Såkalt typosquatting har lenge blitt utnyttet av angripere som har spekulert i at utviklere av og til feilstaver navn på pakker fra for eksempel npm.
Nå har de som lager skadevare (malware) fått en ny alliert: kodeassistentene, skriver The Register.
- AI-assistenter basert på store språkmodeller (LLM-er) har en tendens til å av og til hallusinere når de kommer med kodeeksempler.
- Og noen ganger inneholder kodeeksemplene navn på for eksempel npm- eller PyPI-pakker som ikke eksisterer.
- Normalt vil du få en feilmelding hvis du prøver å kjøre AI-generert kode som prøver å importere ikke-eksisterende pakker.
- Men nå har ondsinnede aktører funnet ut at de kan utnytte dette, ved å lage disse pakkene, med skadevare.
Seth Michael Larson i Python Software Foundation har gitt fenomenet navnet "slopsquatting". "Slop" betyr "søl", "kliss", eller lignende – og brukes gjerne om AI-generert innhold av dårlig kvalitet.
5,2 prosent finnes ikke
The Register viser til en undersøkelse fra Socket.ai der det går frem at rundt 5,2 prosent av pakkenavnene kommersielle AI-modeller foreslår ikke eksisterer. For AI-modeller som er åpen kildekode eller åpent tilgjengelig er så mye som 21,7 prosent av pakkene ikke-eksisterende.
Dette utnyttes nå av aktører som lager pakker med navn de ser AI-en hallusinerer, og laster dem opp til npm eller PyPI.
Når AI-en senere hallusinerer det samme pakkenavnet på nytt for noen andre utviklere, vil prosessen med å installere den nye avhengigheten og kjøre koden også kjøre skadevaren.
Dukker opp igjen og igjen
Sikkerhetsekspertene fra Socket fant ut at når du kjørte en prompt som ga hallusinerende svar ti ganger, så ville 43 prosent av de hallusinerte pakkene bli gjentatt hver gang. 39 prosent av pakkene dukket aldri opp igjen.
Seth Michael Larson fra Python Software Foundation sier til The Register at det er viktig at utviklere dobbeltsjekker det de får fra LLM-er mot virkeligheten.
– Det er vanskelig, og sannsynligvis umulig, å tallfeste hvor mange installasjonsforsøk som skjer på grunn av hallusinasjoner fra store språkmodeller, uten mer åpenhet fra LLM-leverandørene, sier Larson.
