ChatGPT har "ødelagt" Turing-testen: - Et problem

- Vi vet ikke hvor langt vi kan pushe grensene til AI eller om vi kan stole på den, sier Morten Goodwin, AI-professor.

Ifølge Morten Goodwin er det et problem at vi ikke lenger har gode måter å teste AI på. 📸: Universitetet i Agder
Ifølge Morten Goodwin er det et problem at vi ikke lenger har gode måter å teste AI på. 📸: Universitetet i Agder Vis mer

ChatGPT og andre store språkmodeller (LLM) har "ødelagt" Turing-testen - forskere sliter rett og slett med å forstå hvordan de skal vurdere disse systemene, forteller tidsskriftet Nature i en fersk artikkel.

I et eksperiment utført av israelske forskere i mai, som involverte mer enn 1,5 millioner personer, identifiserte deltakerne bare praterobotene 60 prosent av tiden.

Noe som ikke er særlig bedre enn et terningkast, ifølge tidsskriftet.

- På mange måter er det å bestå Turing-testen, sier Morten Goodwin, professor i kunstig intelligens, ved Universitetet i Agder, til kode24.

Spørsmålet er om hele Turing-testen har blitt meningsløs.

Turing-testen har blitt ubrukelig

Ifølge Goodwin kan forskningen på kunstig intelligens grovt sett deles opp i dem som følger Alan Turing, og forskerne som deler et lignende syn som filosofen John Roger Searle.

Turing-testen ble definert av Alan Turing på 1950-tallet. Ifølge Goodwin var ideen til Turing at dersom vi får en algoritme til å få en person til å tro at den snakker med et menneske, er algoritmen "intelligent".

Professoren forteller at Turing-testen lenge har vært sett på som en veldig god test.

- Og den var kanskje det, hvert fall helt fram til GPT og de andre store språkmodellene kom. Men med disse er det enkelt å lure mennesker til å tro at de snakker med et menneske, sier Goodwin.

«Vi vet ikke hvor langt vi kan pushe grensene til AI eller om vi kan stole på den.»

Men ikke alle er enige

Det er verdt å merke seg at ikke alle forskere er enig i premissene som ligger til grunn for Turing-testen. Disse hører til i det Goodwin kaller for "den andre skolen", og deler gjerne et lignende syn som filosofen John Roger Searle.

Han er særlig kjent for tankeeksperimentet "Det kinesiske rommet".

- Se for deg at du er en kineser som snakker med et rom. Inne i rommet sitter en engelskmann, som ikke kan kinesisk. Men han har alt av kinesiske ordbøker og språkregler.

Følgelig vet ikke kineseren på utsiden at han faktisk snakker med engelskmann, som egentlig ikke kan kinesisk.

- Searle mente at på samme måte som engelskmannen bare simulerer kinesisk, så simulerer også maskinen intelligens. Den er ikke intelligent på samme måte som mennesker.

- Definitivt et problem

Ifølge Goodwin selv er han "definitivt i Turing-leiren".

- Så lenge vi klarer å simulere hele mennesket, så klarer vi å skape intelligens. Oppfører det seg intelligent, så er det intelligent, sier Goodwin.

- Er det et problem at vi ikke har gode måter å teste AI på?

- Det er definitivt et problem. Vi vet ikke hvor langt vi kan pushe grensene til AI, eller om vi kan stole på den.

Dagens AI gjør det også vanskeligere å teste kunstig intelligens enn tidligere.

- Tidligere var det om du klarer å kategorisere spam eller ikke. Det er litt vanskeligere med språkmodeller som prøver å etterligne eksisterende samtaler - som de er veldig gode til, sier Goodwin.

«Det er allerede i utgangspunktet vanskelig å få til en test som treffer alt vi mennesker gjør med matematisk presisjon.»

AI-hallisunering

Goodwin sier at selv om AI-modeller som GPT for eksempel kan generere korrekt kode basert på treningsdataen, er de også gjenstand for potensielle problemer knyttet til det som kalles for "AI-hallusinasjon".

- Dette innebærer at AI kan skape kode som, selv om den syntaktisk er korrekt og kan virke troverdig, faktisk er feilaktig, malplassert eller upassende i kontekst av det spesifikke programmet det arbeides med.

Han legger til at dette skjer fordi AI-systemer som GPT ikke "forstår" koden de genererer på samme måte som menneskelige utviklere gjør.

- GPT kan også feilaktig generere kode basert på mønstre i treningsdataene og ende opp med å lime inn kode direkte fra de samme dataene. Dette kan føre til en rekke problemer, fra ineffektivitet og redundans til mer alvorlige feil og sikkerhetsproblemer, sier Goodwin.

Tror på "overførbar læring"

"Løgnene" til GPT-modellene mener Goodwin til dels skyldes at det ikke var en del av testene OpenAI brukte da de lagde modellen.

- Siden vi ikke hva som gjør det, ender modellene fort opp med å lyve eller diskriminere. For eksempel handler ofte historier om sykepleiere om kvinner. Det er et problem.

Målet for mange utviklere av kunstig intelligens er en mer generell intelligens som kan løse alle mulige typer oppgaver, litt som vi mennesker kan. Ifølge Goodwin er en konsekvens at det samtidig blir enda vanskeligere å teste AI.

- Det er allerede i utgangspunktet vanskelig å få til en test som treffer alt vi mennesker gjør med matematisk presisjon. Det er mange ting som ikke fanges opp med en IQ-test, sier Goodwin.

Selv har professoren stor tro på det han kaller for "overførbar læring".

- Man trener kunstig intelligens på en oppgave, så ber man den om å gjøre en annen oppgave. Vi mennesker er veldig gode på det. Denne måten å trene på er lovende, sier Goodwin.