GPT-4 lurte flertall: Hvor nær er AI å bestå Turing-testen?

Er det nok at mer enn 50 prosent av oss tar feil på om vi snakker med en AI? Eller vurderer vi AI'er på feil måte når vi skal avgjøre hvor godt de kan maskere seg som mennesker?

Fysiske roboter som Captcha fra Hidoba Research har et godt stykke igjen før de ser ut som mennesker, men de første chatbotene er nå i stand til å lure oss, ifølge en ny studie. Bildet er fra konferansen AI for Good tidligere i vår, 📸: Denis Balibouse / Reuters / NTB
Fysiske roboter som Captcha fra Hidoba Research har et godt stykke igjen før de ser ut som mennesker, men de første chatbotene er nå i stand til å lure oss, ifølge en ny studie. Bildet er fra konferansen AI for Good tidligere i vår, 📸: Denis Balibouse / Reuters / NTB Vis mer

Mange kulturinnslag fra de siste hundre årene har lovet oss robot-tjenere, som i stor grad skulle klare å gjøre jobbene sine uten for mye instrukser fra oss mennesker.

Selv om vi fortsatt virker å være langt unna noe mer rafinerte roboter enn en støvsuger, så er det ingen tvil om at den kunstig intelligensen (AI) har tatt store steg de siste få årene.

Men hvor store?

Hvor langt unna er for eksempel ChatGPT 4.0 fra å «bestå Turing-testen»?

Det kommer an på hvordan du vurderer resultatene, ifølge en ny studie og reaksjonene på denne.

Overbeviste

For å trekke opp premisset for en Turing-test på ny, i kortform.

En robot består testen dersom:

  • Mennesker mislykkes med å identifisere at de snakker med en robot, i stedet for et menneske.
  • Noen ganger legges det også til et premiss om at testpersonen må peke ut både en AI og et menneske.

Selv om det ikke er noen klar grense for hvor god margin menneskene må mislykkes med, så vil en rimelig første grense være at minst 51 prosent tolker resultatet feil.

– Menneskene som deltok hadde en fem minutter lang samtale, uten å vite om de snakket med en AI eller et annet menneske. Deltakerne fikk i oppdrag å vurdere om de snakket med et menneske. I 54 prosent av tilfellene ble GPT-4 vurdert å være et menneske, skriver Benjamin Bergen og Cameron Jones i en fersk studie.

– Resultatene har betydninger for debattene om maskinlæring, og enda viktigere, antyder at dagens AI-løsninger i teorien kan lure oss uten at vi vet det, skriver de videre.

Bergen er professor i kognitiv vitenskap ved University of California - San Diego, og Jones er doktorgradsstipendiat ved samme avdeling.

En annen mulig grense for når Turing-tester er bestått, er at en AI eller robot i større grad enn mennesker framstår som at de er ekte, levende vesener. I denne studien ble 67 prosent av menneskene identifisert som dette. Tilsvarende tester har ofte vist tall mellom 65 prosent og 75 prosent.

Styrket funn fra forrige forsøk

Bergen og Jones gjorde en lignende studie høsten 2023. Da var grensen fortsatt et lite stykke unna, men 49,7 prosent av de mennesklige brukerne klarte ikke å identifisere utgaven av GPT-4 som leverte best. I tillegg overrasket ELIZA fra 60-tallet med å overgå GPT-3 i testen.

I en langt større, men lignende studie, fra tidligere i 2023 kjente de mennesklige brukerne igjen AI 60 prosent av tiden.

– Til tross for kjente begrensninger som en test på intelligens, vil vi påstå at Turing-testen fortsatt er en viktig test for å vurdere naturlig kommunikasjon og evne til å villede, skrev Bergen og Jones de i sin oppsummering av studien.

De viser til at AI-modeller som klarer å framstå som mennesker vil kunne ha enorme følger for samfunnet. Derfor er det riktig å analysere hvor effektive ulike strategier for å maskere en AI er, og hvilke kriterier mennesker bruker når de avslører en AI som prøver å framstå som et menneske.

Detaljene som avslører

Når det gjelder hva som avslørte den beste GPT-4-utgaven i testen, så går disse igjen i studiene fra Bergen og Jones.

  • I den nyeste oppga de at språkformen (43 prosent) og «sosioemosjonelle trekk», altså personlighet, verdier og sosiale ferdigheter (24 prosent) var det som avslørte AI'en.
  • I den forrige svarte 35 prosent av det var språklige forhold som gjorde at fasaden brast, og 27 prosent svarte at det handlet opp sosioemosjonelle trekk som fikk dem til å forstå at de ikke snakket med et menneske.

Det gjorde at Bergen og Jones i fjor høst spekulerte i om at en mer riktig utformet GPT-4 eller lignende modell ville kunne passere testen, med å overbevise mer enn 50 prosent av deltakerne i studien.

De to går langt i å antyde at språk og sosioemosjonelle forhold spiller en viktigere rolle enn tidligere antatt for å passere en Turing-test.

Er resultatet vurdert rett?

Arvind Narayanan stilte i høst spørsmål ved om det beste er å lage varianter av GPT og andre modeller, eller å mate en basismodell med rikelige mengder med chattelogger der mennesker kommuniserer organisk. Narayanan er professor i datavitenskap ved Princeton University.

Et annet problem som Narayanan påpeker, er at tester som dette ofte baserer seg på resultatet, og at potensialet ikke blir vurdert.

Dermed kan andelen som potensielt lar seg lure av AI være langt høyere enn det tallene kan tyde på.

Alltid et ekstra «men»

Det er verdt å merke seg at studiene fra Bergen og Jones ikke er fagfellevurdert. Dermed er det ingen som har gjort forsøkene på nytt for å vitenskaplig prøve om funnene holder vann.

I tillegg er det flere forskere og eksperter som nå stiller spørsmål ved om det er noe poeng å teste ChatGPT og andre modeller mot nettopp Turingtesten.

Et annet aspekt er «Det kinesiske rommet», teoretisert av filosofen John Roger Searle:

  • Det bygger på et eksempel hvor for eksempel en nordmann uten kompetanse på kinesisk språk sitter i et rom. Vedkommende har tilgang på kinesiske ordbøker og oppslagsverk, og kompetansen til å bruke slike verktøy.
  • Om nordmannen kommuniserer via lapper med en kineser på utsiden, vil det kunne framstå for kineseren som at det sitter en annen kineser i rommet, og ikke en nordmann som simulerer.

I overført betydning mener flere at store språkmodeller som ChatGPT simulerer intelligens, på samme måte som nordmannen simulerer kineser.