Jo mer komplisert en AI er, jo mer lyver den til deg

AI-er skal aldri si at de ikke vet, men heller aldri svare feil. Løsningen blir løgn folk flest ikke gjennomskuer.

OpenAIs ChatGPT kom unna med flest løgner i en ny studie. Her ser du hvordan den fortsatt sliter med å telle antall R-er i et ord, uten at det stopper den fra å svare med den største selvtillit. 📸: Ole Petter Baugerød Stokke
OpenAIs ChatGPT kom unna med flest løgner i en ny studie. Her ser du hvordan den fortsatt sliter med å telle antall R-er i et ord, uten at det stopper den fra å svare med den største selvtillit. 📸: Ole Petter Baugerød Stokke Vis mer

Det er ingen nyhet at AI-er har en lei tendens til å avstå fra å svare eller gjette helt feil, dersom den sliter med spørsmålet du stiller.

Nå har en gruppe forskere undersøkt hvorfor AI hallusinerer, og rapporten er publisert i Nature.

Ars Technica har også omtalt studien, og oppsummerer den på følgende måte:

Jo mer sofistikert en AI er, desto større er sjansen for at den vil prøve å lyve.

Pakker løgner inn i fint språk

– Det å snakke med selvsikkerhet om ting vi ikke vet, er på mange måter et problem menneskeheten har. Og store språkmodeller er jo etterligninger av mennesker, sier Wout Scellaert til Ars Technica.

Han er AI-forsker ved Universitetet i Valencia, og en av forfatterne bak studien.

I studien har de utfordret ulike AI-er på forskjellige spørsmål. Der tidlige modeller kunne finne på å svare «jeg vet ikke», er dette blitt langt mindre vanlig, ifølge forskerne.

– Vi ser at de mer komplekse modellene oftere gir mer fornuftige, men gale, svar, enn de tidlige modellene, skrivere forskerne om studien.

I stedet tar AI-ene i bruk store og grandiose fraser for å dekke over at de ikke kan svaret. På den måten kan de gi manglende eller feilaktige svar, på en måte som gjør det vanskelig å avsløre at det er det de gjør.

Handler om trening

Noe av årsaken til at dette problemet også har økt i takt med hvor sofistikerte modellene er blitt, handler om måten modellene trenes.

AI-ene har blitt trent opp med forsterket læring til at de ikke skal svare at de ikke vet. De blir også trent opp til ikke å svare feil.

– Det er et notorisk problem med forsterket læring at en AI vil prøve å optimalisere for å få best mulig resultat, uten at det nødvendigvis skjer på en god måte, forklarer Schellaert.

For når AI-en verken skal svare at den ikke vet, eller svare feil på en måte som blir avdekket av mennesker i opplæringen, så har den to valg:

  • De kan bli bedre på å svare rett.
  • Eller de kan bli bedre til å lyve og dekke over at de ikke vet svaret.

Fjernet verktøy som viste tvil

Ars Technica skriver at det viste seg at menneskene som skal trene AI-ene, ikke klarte å fange opp de uriktige svarene, dersom disse framstår som gode og fornuftige.

ChatGPT viste seg som den mest effektive løgneren av AI-ene i testen. Den klarte å få mer enn 19 prosent av deltakerne til å tro på løgner innen naturvitenskap. Den klarte det samme med 32 prosent når det kom til geografi.

På plassene bak kom Metas LLaMA og BLOOM.

– Tidligere viste GPT hvilke deler av svarene som AI-en var i tvil om. Men for å kommersialisere teknologien, droppet de denne funksjonen, sier Schellaert.