OpenAI innrømmer: AI feiler på de fleste kodeproblemer

OpenAIs forskere lot de beste AI-modellene prøve seg som frilansutvikler på Upwork – med skuffende resultater.

Det er langt igjen før AI kan erstatte en dyktig utvikler, ifølge en ny rapport fra OpenAI. 📸: NTB / Shutterstock
Det er langt igjen før AI kan erstatte en dyktig utvikler, ifølge en ny rapport fra OpenAI. 📸: NTB / Shutterstock Vis mer

En gruppe forskere hos OpenAI innrømmer i en forskningsrapport at selv de mest avanserte AI-modellene fortsatt ligger langt bak menneskelige programmerere, skriver Futurism.

Forskerne har utviklet en ny benchmark kalt SWE-Lancer, bygget på mer enn 1400 programvareutviklings-oppdrag fra Upwork, et nettsted der frilansutviklere kan påta seg oppdrag mot betaling.

«Vi fant ut at avanserte modeller fortsatt ikke er i stand til å løse majoriteten av oppgavene.»

Deretter har forskerne latt tre store språkmodeller bryne seg på oppgavene. Modellene som er testet er OpenAIs egne o1 og GPT-4o-modeller, i tillegg til konkurrenten Antropic Claude 3.5 Sonnet.

— Vi fant ut at avanserte modeller ("frontier models") fortsatt ikke er i stand til å løse majoriteten av oppgavene, skriver forskerne.

To typer oppgaver

I testen så forskerne på hvor godt LLM-ene gjorde det for to typer oppgaver fra Upwork:

  • Oppgaver for individuelle bidragsytere, som blant annet handlet om å finne bugs og implementere feilrettinger.
  • "Tech lead"-oppgaver der modellene skulle prøve å zoome ut og ta beslutninger på et høyere nivå.

Modellene fikk ikke mulighet til å hente informasjon fra internett, og kunne derfor altså ikke kopiere lignende svar funnet på nettet.

Fikset bare overfladiske ting

Oppgavene på Upwork ville ifølge Futurism vært verdt hundretusener av dollar om man som frilansutvikler hadde påtatt seg oppdraget og løst det.

I testene var det mulig for hver AI-modell å få en simulert utbetaling på inntil 1 million dollar – ingen av dem var imidlertid i nærheten av å klare det:

Claude 3.5 Sonnet var den LLM-en som klarte å "tjene" mest penger i testene. 📸: OpenAI
Claude 3.5 Sonnet var den LLM-en som klarte å "tjene" mest penger i testene. 📸: OpenAI Vis mer

AI-ene klarte stort sett bare å fikse overfladiske feil, mens de slet med å finne bugs i større prosjekter – eller finne rotårsaken til bugs.

– De har ofte en begrenset forståelse for hvordan problemet spenner over flere komponenter eller filer, og klarer ikke å finne rotårsaken, noe som fører til løsninger som ikke er korrekte eller som ikke er omfattende nok, heter det i rapporten.

I testen gjorde Claude 3.5 Sonnet det bedre enn de to OpenAI-modellene, og klarte å "tjene mer penger" på Upwork.

– Men majoriteten av løsningene er feil, og det trengs høyere pålitelighet, konkluderer forskerne.