Det er ingen nyhet at AI-er har en lei tendens til å avstå fra å svare eller gjette helt feil, dersom den sliter med spørsmålet du stiller.
Nå har en gruppe forskere undersøkt hvorfor AI hallusinerer, og rapporten er publisert i Nature.
Ars Technica har også omtalt studien, og oppsummerer den på følgende måte:
Jo mer sofistikert en AI er, desto større er sjansen for at den vil prøve å lyve.
Pakker løgner inn i fint språk
– Det å snakke med selvsikkerhet om ting vi ikke vet, er på mange måter et problem menneskeheten har. Og store språkmodeller er jo etterligninger av mennesker, sier Wout Scellaert til Ars Technica.
Han er AI-forsker ved Universitetet i Valencia, og en av forfatterne bak studien.
I studien har de utfordret ulike AI-er på forskjellige spørsmål. Der tidlige modeller kunne finne på å svare «jeg vet ikke», er dette blitt langt mindre vanlig, ifølge forskerne.
– Vi ser at de mer komplekse modellene oftere gir mer fornuftige, men gale, svar, enn de tidlige modellene, skrivere forskerne om studien.
I stedet tar AI-ene i bruk store og grandiose fraser for å dekke over at de ikke kan svaret. På den måten kan de gi manglende eller feilaktige svar, på en måte som gjør det vanskelig å avsløre at det er det de gjør.
Prøver å forstå o1-modellen, mottar trusler fra OpenAI
Handler om trening
Noe av årsaken til at dette problemet også har økt i takt med hvor sofistikerte modellene er blitt, handler om måten modellene trenes.
AI-ene har blitt trent opp med forsterket læring til at de ikke skal svare at de ikke vet. De blir også trent opp til ikke å svare feil.
– Det er et notorisk problem med forsterket læring at en AI vil prøve å optimalisere for å få best mulig resultat, uten at det nødvendigvis skjer på en god måte, forklarer Schellaert.
For når AI-en verken skal svare at den ikke vet, eller svare feil på en måte som blir avdekket av mennesker i opplæringen, så har den to valg:
- De kan bli bedre på å svare rett.
- Eller de kan bli bedre til å lyve og dekke over at de ikke vet svaret.
Dårlig AI-generert kode skaper stadig mer trøbbel
Fjernet verktøy som viste tvil
Ars Technica skriver at det viste seg at menneskene som skal trene AI-ene, ikke klarte å fange opp de uriktige svarene, dersom disse framstår som gode og fornuftige.
ChatGPT viste seg som den mest effektive løgneren av AI-ene i testen. Den klarte å få mer enn 19 prosent av deltakerne til å tro på løgner innen naturvitenskap. Den klarte det samme med 32 prosent når det kom til geografi.
På plassene bak kom Metas LLaMA og BLOOM.
– Tidligere viste GPT hvilke deler av svarene som AI-en var i tvil om. Men for å kommersialisere teknologien, droppet de denne funksjonen, sier Schellaert.