Sånn unngår du at OpenAI "stjeler" innholdet ditt

GPTBot tråler nettet etter nytt innhold til å trene språkmodellene, men du kan enkelt blokkere den.

OpenAIs søkerobot GPTBot tråler nettet etter nytt innhold for å trene store språkmodeller, som den ChatGPT bruker. 📸: Ole Petter Baugerød Stokke
OpenAIs søkerobot GPTBot tråler nettet etter nytt innhold for å trene store språkmodeller, som den ChatGPT bruker. 📸: Ole Petter Baugerød Stokke Vis mer

Store språkmodeller som OpenAIs ChatGPT er avhengig av å bli trent på enorme tekstmengder for å kunne gi bedre svar.

Nå har OpenAI lansert GPTBot, skriver Mashable. Dette er en søkerobot ("crawler") som tråler web-en etter innhold som kan brukes til å trene fremtidige språkmodeller.

Men selv om mange ønsker søkeroboter fra for eksempel Google velkommen for å kunne rangere høyt på søkeresultater, er det ikke sikkert alle vil at alt innholdet på bedriftens nettsider skal brukes til trening av språkmodellene.

Det kan for eksempel være opphavsrettslig beskyttet materiale du ikke vil plutselig skal dukke opp i tekst produsert av ChatGPT, for så å bli brukt av andre andre steder.

Sjekk om GPTBot har vært innom

OpenAI skriver at de filtrerer nettsidene de gjennomsøker ved å blant annet fjerne sider som ligger bak betalingsmur, er kjent for å samle informasjon som kan brukes til å identifisere personer, eller har tekst som bryter med selskapets retningslinjer.

– Det å tillate at GPTBot får tilgang til nettsiden din kan bidra til at AI-modeller blir mer nøyaktige, og forbedre mulighetene og sikkerheten i modellene, skriver OpenAI.

Du kan se om GPTBot har vært innom nettsiden din ved å sjekke etter følgende user agent og user agent-streng i serverlogger eller analyseverktøy:

User agent token: GPTBot
Full user-agent string: Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

Slik begrenser du tilgang

Selv om det kan hevdes at det kan være positivt å bidra til at store språkmodeller blir bedre, er det ikke til å komme bort ifra at OpenAI har fått en del kritikk:

OpenAI har blitt saksøkt for brudd på opphavsrett og for å eksponere personopplysninger. Nylig saksøkte et amerikansk advokatfirma ChatGPT og Dall-E for å angivelig ha "stjålet" personopplysninger ved å skrape informasjon fra internett.

Hvis du tenker at OpenAI ikke skal få lov til å bruke informasjon fra nettsidene dine, er det enkelt å få til det ved å legge til følgende i robots.txt:


User-agent: GPTBot
Disallow: /

Du kan også begrense tilgangen til deler av nettstedet på denne måten:


User-agent: GPTBot
Allow: /directory-1/
Disallow: /directory-2/

ChatGPT 3.5 og 4 ble trent på data samlet inn frem til september i 2021, og det er ifølge Mashable ingen måter å fjerne innhold fra det datasettet om du skulle mene at de har brukt innhold de ikke har rett til å bruke.