Thordur Arnason, Vice President og genAI-ekspert hos Capgemini, tester AI-modeller med sin "duck test". 📸: Otto Backer Solberg / kode24

Thordur tester hvor gode AI-modellene egentlig er – her er de beste

AI-ekspert Thordur Arnason tok Googles Gemini-lansering i løgn. Men nå har resultatene gått fra skuffende til imponerende – og han har funnet sine favoritter.

Kurt Lekanger journalist, kode24

Publisert 09.12.2024 - 05:00

Ledige stillinger

Se alle

Folio AS

Liker du best å jobbe under panseret?

Sopra Steria AS

Bygg kode som bygger Norge

Highsoft AS

Bygg vår neste generasjons plattform! Hjå Highsoft får du friheit, kule verktøy og ein gjeng techentusiastar med glimt i auga som kollegaer.

Capgemini Norge AS

Sub Practice Lead- Cloud & Custom Application (C&CA)

Optio Incentives AS

Are you our next Tech Team Lead?

Invo AS

Vil du være med å skape teknologi som gir arbeidsglede? Bli front-end utvikler hos INVO!

Labrador

Onboarding/import-utvikler til Norges ledende medieplatform

Invo AS

Vil du være med å skape teknologi som gir arbeidsglede? Bli back-end utvikler hos INVO!

Møller Digital AS

Vil være med å forme vår digitale fremtid? Møller Digital søker en senior plattformutvikler!

twoday

Vil du bli med å bygge fremtidens samfunn gjennom teknologi?

Bypost AS

Vil du være med og videreutvikle en moderne plattform i et selskap i sterk vekst?

Capgemini Norge AS

Er du klar for å ta skyen til nye høyder? Vi leter etter Senior Cloud Platform Engineers!

Capgemini Norge AS

Klar for å ta utviklerkarrieren til neste nivå? Bli med å bygge det råeste teknologihuset i landet!

Labrador

Hvilepuls på 1000 requests/sek? Backend/infrastruktur-utvikler hos landets ledende medieplatform

Repass

Repass is looking for senior developers to help shape the future of impactful supply chain transparency. Ready to make a real difference?

Møller Digital AS

Vil du jobbe med moderne teknologi og komplekse systemer i et sterkt fagmiljø?

Boitano

Med deg på laget kan vi levere endra flere innovative og bærekraftige løsninger for våre kunder.

SuperOffice AS

Work on everything from idea to launch. Shape the product, influence the roadmap, and build mobile experiences that matter. Ready to make an impact?

Labrador

Vil du være med å forme fremtidens mediebransje? Labrador CMS søker frontendutvikler

Er virkelig de generative AI-modellene fra selskaper som OpenAI, Google, Meta og andre så gode som leverandørene skal ha det til?

Det lurte også Thordur Arnason på da Google lanserte sin Gemini-modell for rundt ett år siden, med en imponerende demo som i ettertid viste seg å være delvis fake. I demoen skrøt Google veldig av hvor god modellen var på multimodalitet – det å kunne takle både for eksempel tekst, bilde og lyd.

– De hadde en video som så helt fantastisk ut. Men da vi og andre begynte å teste det, så var ikke modellen i nærheten av hva de viste i videoen, sier Arnason til kode24.

Arnason er Vice President og generativ AI-ekspert i konsulentselskapet Capgemini, og fikk idéen om å jevnlig teste de ledende AI-modellene for å se om de er så gode som produsentene vil ha det til – en duck-test av modellene.

Annonsørinnhold

Få oversikt over våre goder

Har blitt veldig mye bedre

Arnason lagde et rammeverk for å teste hvor kapable generative AI-modeller er i virkeligheten, og gjennom det siste året har han publisert en rekke innlegg på LinkedIn der han på en litt leken måte har utfordret modellene og testet hva de egentlig er gode for.

Her er det første innlegget, der Arnason sjekker om Googles Gemini-modell virkelig var så bra som de skulle ha det til:

I løpet av de neste månedene gjorde han en rekke lignende tester, også av andre modeller. Og utviklingen bare i løpet av det siste året har vært enorm, sier Arnason.

Her er en test av Gemini Ultra for ni måneder siden:

Og så ble det bare bedre etter hvert som nye modeller og nye versjoner av modellene kom ut.

– Nå ett år senere så sliter jeg med å utfordre modellene. De har gått fra å være skuffende, til å nå være veldig gode!

Annonsørinnhold

More Than Just Tech: A Culture of Innovation, Inclusion, and knowledge sharing

Tester det teknisk på laben

Arnason forteller at LinkedIn-innleggene er et forsøk på en populærvitenskapelig måte å illustrere hvor gode eller dårlige AI-modellene er. På "laben" gjør han imidlertid også mer tekniske tester av modellene.

– Vi begynte med testen i desember i fjor der vi tok for oss Gemini fra Google og OpenAIs GPT-4, som var det de hadde da. Og så testet vi synsmodaliteten, hvordan tolker du dette bildet jeg har lastet opp?

I starten handlet det om å etterprøve påstandene fra Google. I Googles video tegnet de opp en kontur av en and på en PostIt-lapp og spurte hva det var, før de tegnet litt til. Hvor raskt kunne modellen kjenne igjen et dyr du tegner på en PostIt-lapp?

I fjor var verken Gemini eller OpenAIS GPT-4 spesielt imponerende. Men så går månedene.

– I fjor var verken Gemini eller OpenAIS GPT-4 spesielt imponerende. Men så går månedene, og modellene blir bedre og det kommer nye modeller. Dette er en historie om hvordan multimodalitet har utviklet seg innenfor generativ kunstig intelligens.

I den siste testen hadde Arnason gitt opp å utfordre modellene, fordi de var blitt så bra. I stedet har han prøvd å utfordre OpenAIs o1-modell på modellens evne til å løse logiske oppgaver.

– Vi bruker dette når vi snakker med kunder for å vise hva modellene kan gjøre.

Annonsørinnhold

Guide til konsulentrollen i Netcompany

Disse modellene er best

– Hvilke modeller er best nå – og er det særlig forskjell mellom dem?

– På "general purpose"-modeller som er anvendelige for folk flest, koker det ned til tre modeller som er ledende:

OpenAIs modeller (blant annet GPT-4o)
Googles Gemini-modeller
Antropics Claude-modeller

– Dette er de ledende frontiermodellene av foundationmodellene, men så er det mange modeller som er rett bak – som Mistral Large 2 og Llama fra Meta, sier Arnason.

Mistral er den eneste europeiske modellen som kan konkurrere med de amerikanske, ifølge Arnason.

Årsaken er de enorme ressursene som trengs og kostnadene ved å trene de store modellene. Bare treningen av neste generasjon store språkmodeller er estimert til å koste 1 – 4 milliarder dollar (11 – 44 milliarder kroner).

Alle modellene innenfor koding har ulike styrker og svakheter, også avhengig av hvilket språk du jobber med.

– Er det noen som egner seg bedre enn andre til koding?

– Alle modellene innenfor koding har ulike styrker og svakheter, også avhengig av hvilket språk du jobber med. Det vi har testet mest på koding i det siste er CodeStral fra Mistral, som er en spesialisert versjon av deres store modell for koding. Den er interessant!

– Og så er GPTo1 Mini ekstremt god til å bruke til koding.

I tillegg har Claude 3.5 vist seg å være veldig god på spesielt Python- og C++-koding, selv om den ikke er tunet spesielt for koding.

Annonsørinnhold

Sub Practice Lead- Cloud & Custom Application (C&CA)

Annonsørinnhold

Onboarding/import-utvikler til Norges ledende medieplatform

Annonsørinnhold

Med deg på laget kan vi levere endra flere innovative og bærekraftige løsninger for våre kunder.

La utviklere prøve seg frem

Arnason sier at han trodde utviklingen innenfor generativ AI ville stagnere i 2024, men at utviklingen snarere tvert imot har gått raskere enn han hadde forestilt seg.

Den raske utviklingen innenfor de ulike modellene gjør også at utviklermiljøer bør være forsiktig med å låse seg til å bruke én bestemt modell når de bruker AI-baserte kodeassistenter og lignende.

Likevel ser han behovet i større utviklermiljøer for å ha kontroll på "toolingen", og at det er lettere for mindre miljøer å eksperimentere.

– Men utviklingen skjer så fort at det er smart å gi utviklere mulighet til å teste og velge forskjellige modeller avhengig av hva de jobber med, sier Arnason.

Vi testa editoren alle snakker om: «Den beste grunnen til å kutte VS Code»

Etter at "alle" tilsynelatende snakker om Cursor om dagen, måtte jeg finne ut hva all hypen handlet om.

Ledige stillinger

Se alle

Møller Digital AS

Vil være med å forme vår digitale fremtid? Møller Digital søker en senior plattformutvikler!

Bypost AS

Vil du være med og videreutvikle en moderne plattform i et selskap i sterk vekst?

twoday

Vil du bli med å bygge fremtidens samfunn gjennom teknologi?

Labrador

Vil du være med å forme fremtidens mediebransje? Labrador CMS søker frontendutvikler

Invo AS

Vil du være med å skape teknologi som gir arbeidsglede? Bli back-end utvikler hos INVO!

Boitano

Med deg på laget kan vi levere endra flere innovative og bærekraftige løsninger for våre kunder.

Invo AS

Vil du være med å skape teknologi som gir arbeidsglede? Bli front-end utvikler hos INVO!

Labrador

Hvilepuls på 1000 requests/sek? Backend/infrastruktur-utvikler hos landets ledende medieplatform

Capgemini Norge AS

Sub Practice Lead- Cloud & Custom Application (C&CA)

Labrador

Onboarding/import-utvikler til Norges ledende medieplatform

SuperOffice AS

Work on everything from idea to launch. Shape the product, influence the roadmap, and build mobile experiences that matter. Ready to make an impact?

Sopra Steria AS

Bygg kode som bygger Norge

Folio AS

Liker du best å jobbe under panseret?

Highsoft AS

Bygg vår neste generasjons plattform! Hjå Highsoft får du friheit, kule verktøy og ein gjeng techentusiastar med glimt i auga som kollegaer.

Capgemini Norge AS

Klar for å ta utviklerkarrieren til neste nivå? Bli med å bygge det råeste teknologihuset i landet!

Møller Digital AS

Vil du jobbe med moderne teknologi og komplekse systemer i et sterkt fagmiljø?

Capgemini Norge AS

Er du klar for å ta skyen til nye høyder? Vi leter etter Senior Cloud Platform Engineers!

Repass

Repass is looking for senior developers to help shape the future of impactful supply chain transparency. Ready to make a real difference?

Optio Incentives AS

Are you our next Tech Team Lead?

Thordur tester hvor gode AI-modellene egentlig er – her er de beste

AI-ekspert Thordur Arnason tok Googles Gemini-lansering i løgn. Men nå har resultatene gått fra skuffende til imponerende – og han har funnet sine favoritter.

Ledige stillinger

Liker du best å jobbe under panseret?

Bygg kode som bygger Norge

Bygg vår neste generasjons plattform! Hjå Highsoft får du friheit, kule verktøy og ein gjeng techentusiastar med glimt i auga som kollegaer.

Sub Practice Lead- Cloud & Custom Application (C&CA)

Are you our next Tech Team Lead?

Vil du være med å skape teknologi som gir arbeidsglede? Bli front-end utvikler hos INVO!

Onboarding/import-utvikler til Norges ledende medieplatform

Vil du være med å skape teknologi som gir arbeidsglede? Bli back-end utvikler hos INVO!

Vil være med å forme vår digitale fremtid? Møller Digital søker en senior plattformutvikler!

Vil du bli med å bygge fremtidens samfunn gjennom teknologi?

Vil du være med og videreutvikle en moderne plattform i et selskap i sterk vekst?

Er du klar for å ta skyen til nye høyder? Vi leter etter Senior Cloud Platform Engineers!

Klar for å ta utviklerkarrieren til neste nivå? Bli med å bygge det råeste teknologihuset i landet!

Hvilepuls på 1000 requests/sek? Backend/infrastruktur-utvikler hos landets ledende medieplatform

Repass is looking for senior developers to help shape the future of impactful supply chain transparency. Ready to make a real difference?

Vil du jobbe med moderne teknologi og komplekse systemer i et sterkt fagmiljø?

Med deg på laget kan vi levere endra flere innovative og bærekraftige løsninger for våre kunder.

Work on everything from idea to launch. Shape the product, influence the roadmap, and build mobile experiences that matter. Ready to make an impact?

Vil du være med å forme fremtidens mediebransje? Labrador CMS søker frontendutvikler

Få oversikt over våre goder

Har blitt veldig mye bedre

More Than Just Tech: A Culture of Innovation, Inclusion, and knowledge sharing

Tester det teknisk på laben

I fjor var verken Gemini eller OpenAIS GPT-4 spesielt imponerende. Men så går månedene.

Guide til konsulentrollen i Netcompany

Disse modellene er best

Alle modellene innenfor koding har ulike styrker og svakheter, også avhengig av hvilket språk du jobber med.

Sub Practice Lead- Cloud & Custom Application (C&CA)

Onboarding/import-utvikler til Norges ledende medieplatform

Med deg på laget kan vi levere endra flere innovative og bærekraftige løsninger for våre kunder.

La utviklere prøve seg frem

Vi testa editoren alle snakker om: «Den beste grunnen til å kutte VS Code»

Ledige stillinger

Vil være med å forme vår digitale fremtid? Møller Digital søker en senior plattformutvikler!

Vil du være med og videreutvikle en moderne plattform i et selskap i sterk vekst?

Vil du bli med å bygge fremtidens samfunn gjennom teknologi?

Vil du være med å forme fremtidens mediebransje? Labrador CMS søker frontendutvikler

Vil du være med å skape teknologi som gir arbeidsglede? Bli back-end utvikler hos INVO!

Med deg på laget kan vi levere endra flere innovative og bærekraftige løsninger for våre kunder.

Vil du være med å skape teknologi som gir arbeidsglede? Bli front-end utvikler hos INVO!

Hvilepuls på 1000 requests/sek? Backend/infrastruktur-utvikler hos landets ledende medieplatform

Sub Practice Lead- Cloud & Custom Application (C&CA)

Onboarding/import-utvikler til Norges ledende medieplatform

Work on everything from idea to launch. Shape the product, influence the roadmap, and build mobile experiences that matter. Ready to make an impact?

Bygg kode som bygger Norge

Liker du best å jobbe under panseret?

Bygg vår neste generasjons plattform! Hjå Highsoft får du friheit, kule verktøy og ein gjeng techentusiastar med glimt i auga som kollegaer.

Klar for å ta utviklerkarrieren til neste nivå? Bli med å bygge det råeste teknologihuset i landet!

Vil du jobbe med moderne teknologi og komplekse systemer i et sterkt fagmiljø?

Er du klar for å ta skyen til nye høyder? Vi leter etter Senior Cloud Platform Engineers!

Repass is looking for senior developers to help shape the future of impactful supply chain transparency. Ready to make a real difference?

Are you our next Tech Team Lead?

«Verdens første AI-OS»: – Lukter brutte løfter

Fant tusenvis av «sletta» hemmeligheter

Axel (23) bytta ut Stack Overflow og W3Schools

Dagens papirlapp blir endelig digital

More Than Just Tech: A Culture of Innovation, Inclusion, and knowledge sharing

💬 Nyeste kommentarer

Denne kulturen hos oss er unik

Ledige stillinger

Hvilepuls på 1000 requests/sek? Backend/infrastruktur-utvikler hos landets ledende medieplatform

Liker du best å jobbe under panseret?

Vil du jobbe med moderne teknologi og komplekse systemer i et sterkt fagmiljø?

Backendutvikler

Senior Cloud Platform Engineer

Utviklere

Senior Plattformutvikler

Har du lyst til å bli medeier* i Boitano?

NDC Copenhagen 2025

NDC TechTown 2025

TDC 2025

NDC Porto 2025

Energibransjens IT-konferanse

Backend/infrastruktur-utvikler

Backendutvikler

Fullstack-utvikler

Har du lyst til å bli medeier* i Boitano?