VG blokkerer ChatGPT: - Vi vil ha kontroll over innholdet vårt

- Det er ikke tatt en avgjørelse for alle mediene i Schibsted i dag, sier Johannes Gorset, teknologidirektør i VG.

Johannes Gorset kan ikke si med sikkerhet om VGs data allerede har blitt brukt i treningen av store språkmodeller. 📸: VG
Johannes Gorset kan ikke si med sikkerhet om VGs data allerede har blitt brukt i treningen av store språkmodeller. 📸: VG Vis mer

Onsdag gjorde VG.no en endring som skal hindre AI-aktører fra å bruke VGs data til trening av store språkmodeller.

Dette gjorde utviklerne i avisen ved å endre VG.nos robots.txt, som styrer hvilke webcrawlere som får lov til å skrape nettsida deres for informasjon.

Endringen skal stanse OpenAIs GPTBot, Anthropics Anthropic AI og Common Crawls CCBot fra å lese av VG.no sin data. OpenAI står bak blant annet ChatGPT, mens CCBot brukes av mange språkmodeller for treningsdata.

VG følger dermed i fotsporene til mediegiganter som New York Times, som tidligere i august også blokkerte webcrawleren til OpenAI. kode24 har tidligere skrevet om at du nå kan unngå at innholdet ditt blir brukt til trening av store språkmodeller, gjennom disse robots.txt-filene.

Dersom du nå går robots.txt til VG.no ser du dette:

User-agent: CCBot
Disallow: /

User-agent: GPTBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

Finnes ingen oppsider

Johannes Gorset, teknologidirektør i VG, forteller at endringene gjør at fremtidige språkmodeller, som følger robots.txt-instrukser, ikke blir trent på innhold fra VG.

- Dette gjør vi fordi vi er opptatt av å ha kontroll over journalistikken vår, og fordi vi er avhengige av annonse- eller abonnementsinntekter for å finansiere den. Slik forretningsmodellene til de store kommersielle aktørene som trener språkmodeller er nå, finnes det dessverre ingen oppsider ved å være med på moroa, bare nedsider, sier han til kode24.

- Gjelder dette VG spesifikt, eller er det en avgjørelse tatt for alle mediene i Schibsted?

- Det er ikke tatt en avgjørelse for alle mediene i Schibsted i dag, svarer Gorset.

Kritisk til manglende åpenhet

- Vet dere om data fra VG eller andre Schibsted-aviser allerede har blitt brukt i treningen av store språkmodeller som ChatGPT?

- Det kan vi dessverre ikke si med sikkerhet. Eksempelvis er ikke OpenAI åpne nok om hvilke data GPT er trent på, sier Gorset.

Han mener at dette er problematisk:

- Fordi det kunne hjulpet brukerne å forstå hva en språkmodell er god på og ikke god på, og hvilke bias den kan ha, og fordi det gjør en nødvendig diskusjon om opphavsrett vanskeligere, sier Gorset.

Gorset legger til at VG ikke bruker andre metoder i dag for å beskytte innholdet mot trening av LLM-er.

- Det ville nok også vært komplisert og gått utover vanlige brukere, og det vil vi nødig at det skal.