Ryktene har svirra den siste tida om at OpenAI skulle lansere en ny språkmodell med kodenavn Strawberry. Torsdag gjorde de nettopp det, under et helt annet navn: o1.
Eller o1-preview og o1-mini, for å være eksakt.
– Vi har utvikla en ny serie AI-modeller, designa for å bruke mer tid på å tenke før de svarer, melder OpenAI.
Og det er også hele poenget denne gangen; de nye o1-modellene skal være flinkere til å resonnere, og dermed også programmere.
Løser steg for steg
Så, hva er greia?
- Når du gir o1-modellene en oppgave, vil den brytes ned og løses steg for steg, slik mennesker resonnerer. Det vil med andre ord se ut som modellen tenker seg fram til løsningen. Dette kan du selvfølgelig gjøre med tidligere modeller også, om du ber dem om det, men o1-modellen er designa for dette.
- OpenAIs o1-preview er den kraftigste modellen, mens o1-mini er en mer effektiv utgave, og dermed også den som egner seg best til å for eksempel programmere med.
- Som vanlig er det nedsider med disse modellene, også. o1-modellene kan ikke søke opp ting for deg på nettet, håndtere filer eller tolke bilder. OpenAI understreker derfor at deres GPT-4o fortsatt er det beste valget for mange oppgaver.
Tilgjengelig nå
De to nye o1-modellene er tilgjengelige nå, for brukere av ChatGPT Plus og Team. ChatGPT Enterprise- og Edu-brukere skal også få tilgang snart, og planen er å tilby o1-mini til gratisbrukerne senere.
For de som lager ting med OpenAIs modeller, er o1-modellene også tilgjengelige gjennom tier 5-API-ene deres.
Men før du begynner å chatte i vei, bør du være klar over strenge bruksbegrensninger:
- 30 meldinger i uka for o1-preview
- 50 meldinger i uka for 01-mini.
- 20 forespørsler i minuttet gjennom API-et.
"Som en doktograd-student"
– I testene våre yter denne neste modelloppdateringen som PhD-studenter på utfordrende benchmark-oppgaver innen fysikk, kjemi og biologi. Vi fant også ut at den utmerker seg i matematikk og koding, skriver OpenAI.
– I en kvalifiserende eksamen for International Mathematics Olympiad (IMO) løste GPT-4o bare 13 prosent av problemene riktig, mens resonneringsmodellen løste 83 prosent. Deres kodeevner ble evaluert i konkurranser, og nådde 89.-persentilen i Codeforces-konkurranser.
Nettopp utviklere nevnes som en av gruppene denne modellen egner seg aller best for. Og mange av demoene OpenAI har kommet med handler om nettopp programmering.
"Kaste dritt på veggen"
På Reddit er mange skeptiske til at det virker som om de nye modellene bare kverner over det samme problemet mange ganger, inntil modellen får ut en "tankerekke" som virker fornuftig.
– Det virker som en "kast dritt på veggen og se hva som fester seg"-strategi. Det fundamentale problemet er bare hvordan språkmodeller fungerer; det er ordprediksjon. Det er det. Kanskje det er hvordan hjernene våre også fungerer noen ganger, men fundamentalt er det ikke tenking, oppsummerer thetreat.
De som faktisk har prøvd modellen, humrer dessuten over at den ikke klarer å telle antall R-er i ordet "strawberry", men flere lar seg imponere over hvor flink den er til å programmere.
Dette er såpass ferskt at det ikke ligger så mye ute ennå, men Youtube-eren og eks-Apple-utvikler Ray Fernando har en lang stream ute, hvor han får o1-preview til å bygge en Next.js-app for seg: