Norsk leksikon ut mot OpenAI: «Helt umoralsk!»

Roboter fra OpenAI skal stå bak 30 millioner nedlastninger fra leksikonet i fjor, melder TV 2.

Store norske leksikon har et rikholdig arkiv av kvalitetssikret innhold. Tall fra SNL tilsier at også OpenAI er svært interessert i innholdet. 📸: Heidi Dokter / NTB
Store norske leksikon har et rikholdig arkiv av kvalitetssikret innhold. Tall fra SNL tilsier at også OpenAI er svært interessert i innholdet. 📸: Heidi Dokter / NTB Vis mer

Store norske leksikon (SNL) reagerer kraftig på hvordan AI-selskapene turer fram i jakten på treningsdata.

Totalt skal OpenAI ha lastet ned artikler fra nettsiden 30 millioner ganger i løpet av fjoråret, melder TV 2.

OpenAI avviser at deres roboter har tatt seg til rette.

Oppdatering 26.03 14.05: TV 2 skrev i sin opprinnelige artikkel at OpenAI skal ha lastet ned hele SNL 30 millioner ganger, noe som også ble gjengitt hos oss i kode24. Dette var feil. Det reelle tallet er 30 millioner nedlastninger totalt, sier SNL-redaktør Erik Bolstad til Digi. Dette tilsvarer å laste leksikonet ned 150 ganger.

Ble verre etter innstramming

– Vi sjekket serverloggene våre i fjor sommer. De viste at roboter fra OpenAI hadde lastet ned artiklene våre mange ganger, sier Erik Bolstad, redaktør i SNL, til TV 2.

Da innholdet på SNL er beskytta av opphavsrett, la de inn en blokkering og forbud mot at roboter kunne laste ned innhold fra siden, noe flere andre selskaper har gjort tidligere.

Det ga en midlertid stans i nedlastingene, med trykk på midlertidig.

– Vi sjekket på nytt utpå høsten. Nedlastingene fortsatte, og da var det blitt mye verre, forteller Bolstad.

SNL er kvalitetssikret av over 5.000 fagfolk, som har lagt ned mye arbeid og energi for å lage et leksikon til nytte for allmennheten, poengterer han.

– Hvis disse artiklene bare blir tatt av en tjeneste som er vår kanskje største konkurrent, og brukes videre uten kildehenvisninger, er det helt umoralsk, sier Bolstad.

Hevder det bare var søkeroboten

Selskapet har flere ganger poengterert at de følger reglene som er satt i robots.txt-filer. Det gjentar de også til TV 2.

– I dette tilfellet har SNL valgt å blokkere GPTBot for trening av generative AI-modeller, men tillate søkeroboten vår, som lenker til nettsteder fra ChatGPTs søkefunksjon. Det respekterer vi, sier en ikke navngitt talsperson til kanalen.

På sin egne nettsider, forklarer de nærmere hva de ulike robotene deres gjør inne på nettsider.

Men Bolstad sier til TV 2 at nedlastingene som er registrert, ikke er gjort av roboter som bare søker.

– Vi har bare sett på roboten som laster ned innhold for å trene språkmodellen. De er denne roboten som har lastet ned artiklene våre 30 millioner ganger i fjor, hevder han.

Har vært åpne for samarbeid

Det er verdt å merke seg at SNL tidligere har vært villige til å dele data for å trene AI-er.

– Flere AI-modeller har fått lov til å bruke innhold fra oss. Vi har sagt ja til flere fordi vi ser at det er bra om disse modellene også bruker faglig, kvalitetssikret kunnskap, sa Bolstad til kode24 høsten 2023.

Siden den gang er det stadig flere nettsider som avviser robotene fra AI-selskapene, uten at alle respekterer stengslene. I fjor sommer kom en rapport hvor en gruppe forskere beskrev det som «en kommende krise».

Det hele er nådd et punkt hvor de store selskapene ber president Donald Trump om fri tilgang på treningsdata. På den andre siden har aktører som Cloudflare, laget nye verktøy for å «straffe» roboter som ikke følger reglene.