Forskere advarer: Stadig mer av internett ber AI-selskapene holde fingra av fatet

På ett år har antallet nettsider som nekter AI-selskapene tilgang til deres data eksplodert. – En kommende krise, mener en gruppe forskere.

AI har tidligere fått forsyne seg med rikelig treningsmateriale. I framtiden vil det være mindre tilgjengelig, advarer en gruppe AI-forskere. 📸: Ying Tang / NurPhoto / Shutterstock
AI har tidligere fått forsyne seg med rikelig treningsmateriale. I framtiden vil det være mindre tilgjengelig, advarer en gruppe AI-forskere. 📸: Ying Tang / NurPhoto / Shutterstock Vis mer

Enorme mengder data er de siste årene brukt til å trene kunstig intelligens (AI). Mye av dette har vært samlet inn fra det åpne internett med robotcrawlere.

I kode24 har vi tidligere omtalt hvordan du med en en enkel snutt i robots.txt-fila kan si nei til slike roboter, som for eksempel GPTBot fra OpenAI:

User-agent: GPTBotDisallow: /

Andre tyr til mer kraftigere virkemidler. Cloudflare har blant annet utviklet en løsning for å «straffe» roboter som ikke respekterer grensene.

Dette er en mulig forklaring på funnene i en ny rapport. For andelen som blokkerer for slike løsninger, er mangedoblet på kort tid.

Advarer om kommende krise

– Vi håper dette vil belyse en kommende krise – nemlig hva som skjer når mye av det åpne internett blir stengt for både kommersiell AI, ikke-kommersiell AI eller vitenskapelige formål, skriver forfatterne av rapporten «Consent in Crisis».

Den er laget av en gruppe frivillige som går under navnet The Data Provenance Initiative, og består av AI-forskere fra hele verden. Rapporten er også omtalt hos The New York Times og The Register.

De har i sin rapport sett på tre datasett; C4, Dolma, og RefinedWeb, fra 14.000 domener, og har listet opp fire hovedfunn.

1. Antallet nettsider som begrenser roboter som kobles til AI-utvikling øker i dramatisk tempo. Denne trenden vil trolig øke med tiden.

2. Praksisen er ulik og inkonsekvent. OpenAIs roboter blir i større grad enn andre pålagt begrensninger. Det er også svakheter i instrukser for robots.txt og bruksvilkår.

3. Det er stor kvalitetsforskjell på innhold. Det beste innholdet består gjerne av nyheter, oppslagsverk og sosiale medier. Disse er oppdaterte og har innhold av ulike former. Disse sidene skal skape verdi via annonser og betalingsmurer, og har oftere begrensninger for roboter. Dette kan føre til at roboter som respekterer grensene, også blir mindre oppdaterte, ifølge rapporten.

4. Det er et misforhold mellom informasjonen som samles inn fra internett, og hvordan denne brukes i samtale-AIer. For eksempel kan du be en AI skrive et dikt, men det utgjør lite av treningsgrunnlaget. Dermed kan bruken i dag påvirke hvordan data samles inn i framtiden, med alt det innebærer.

Stor endring fra 2016

I 2016 manglet rundt 80 prosentpoeng av alle nettsider brukervilkår (terms of service) som begrenset roboter. Rundt 20 prosentpoeng manglet en robots.txt-fil som gjorde det samme. I 2024 er det knapt noen sider uten slike begrensninger, ifølge rapporten.

De mest inngripende endringene i robots.txt har særlig kommet siden midten av 2023. Det skjedde kort tid etter at GPTBot og Google-roboter ble satt i verk.

Mens det totale andelen av sider med begrensninger er relativt stabil, er andelen som blankt avviser robotene mangedoblet, til rundt 30 prosentpoeng.

Den samme tendensen gjelder for brukervilkår. Mens svært få sider avviste robotene helt gjennom vilkårene for ett år siden, er andelen økt til nær 10 prosentpoeng.

Blant de viktigste sidene for AI-trening anslår forskerne at sidene med begrensninger har økt med rundt 1000 prosent. I det totale treningsgrunnlaget har begrensningene økt med rundt 500 prosent.

Rammer også andre

Så må vi huske robotene er ingen ny aktør på internett. Sider som Common Crawl har i mange år samlet innhold på internett med roboter. Utgangspunktet har vært at det skal gjøre verden bedre, og siden skal være sitert i mer enn 10.000 vitenskaplige studier.

I kampen mot AI-robotene skal flere sider ha blokkert alle roboter, for å være sikre. Det berører blant annet sider som Common Crawler. Andre sider har også valgt å sperre Common Crawler og Internet Archive, som begge er ikke-kommersielle aktører. Formålet er da å hindre at kommersielle aktører skal hente ut innholdet gjennom de ikke-kommersielle.

– Akademikere og ikke-kommersielle interesser blir på denne måten ofre for konflikten mellom dem som skaper innhold og AI-utviklerne, advarer forskerne bak rapporten.

Bør ha fokus på hva, ikke hvem

Forskerne trekker også fram en mulig løsning. De mener mye kunne vært løst, med å tilnærme seg problemstillingen på en ny måte.

Årsaken er at de mener tiltakene mot robotene, ofte ikke stemmer overens med hva som var intensjonen. Derfor vil det være bedre om roboter fikk beskjed om hva som var lov på nettsider, heller enn hvem som får bruke disse.

– Da kan eierne av en nettside si at roboter fra søkemotorer eller ikke-kommersielle aktører får bruke innholdet på en bestemt måte, foreslår forskerne.

De nevner også muligheten for å sperre innhold for roboter i en definert tidsperiode, slik at for eksempel medier kan beskytte innholdet sitt i en periode, samtidig AI kan være relativt oppdatert.