Enorme mengder data er de siste årene brukt til å trene kunstig intelligens (AI). Mye av dette har vært samlet inn fra det åpne internett med robotcrawlere.
I kode24 har vi tidligere omtalt hvordan du med en en enkel snutt i robots.txt-fila kan si nei til slike roboter, som for eksempel GPTBot fra OpenAI:
User-agent: GPTBotDisallow: /
Andre tyr til mer kraftigere virkemidler. Cloudflare har blant annet utviklet en løsning for å «straffe» roboter som ikke respekterer grensene.
Dette er en mulig forklaring på funnene i en ny rapport. For andelen som blokkerer for slike løsninger, er mangedoblet på kort tid.
Så enkelt stopper du OpenAI
Advarer om kommende krise
– Vi håper dette vil belyse en kommende krise – nemlig hva som skjer når mye av det åpne internett blir stengt for både kommersiell AI, ikke-kommersiell AI eller vitenskapelige formål, skriver forfatterne av rapporten «Consent in Crisis».
Den er laget av en gruppe frivillige som går under navnet The Data Provenance Initiative, og består av AI-forskere fra hele verden. Rapporten er også omtalt hos The New York Times og The Register.
De har i sin rapport sett på tre datasett; C4, Dolma, og RefinedWeb, fra 14.000 domener, og har listet opp fire hovedfunn.
1. Antallet nettsider som begrenser roboter som kobles til AI-utvikling øker i dramatisk tempo. Denne trenden vil trolig øke med tiden.
2. Praksisen er ulik og inkonsekvent. OpenAIs roboter blir i større grad enn andre pålagt begrensninger. Det er også svakheter i instrukser for robots.txt og bruksvilkår.
3. Det er stor kvalitetsforskjell på innhold. Det beste innholdet består gjerne av nyheter, oppslagsverk og sosiale medier. Disse er oppdaterte og har innhold av ulike former. Disse sidene skal skape verdi via annonser og betalingsmurer, og har oftere begrensninger for roboter. Dette kan føre til at roboter som respekterer grensene, også blir mindre oppdaterte, ifølge rapporten.
4. Det er et misforhold mellom informasjonen som samles inn fra internett, og hvordan denne brukes i samtale-AIer. For eksempel kan du be en AI skrive et dikt, men det utgjør lite av treningsgrunnlaget. Dermed kan bruken i dag påvirke hvordan data samles inn i framtiden, med alt det innebærer.
AI-botter stjeler innhold: Cloudflare lanserer nytt våpen
Stor endring fra 2016
I 2016 manglet rundt 80 prosentpoeng av alle nettsider brukervilkår (terms of service) som begrenset roboter. Rundt 20 prosentpoeng manglet en robots.txt-fil som gjorde det samme. I 2024 er det knapt noen sider uten slike begrensninger, ifølge rapporten.
De mest inngripende endringene i robots.txt har særlig kommet siden midten av 2023. Det skjedde kort tid etter at GPTBot og Google-roboter ble satt i verk.
Mens det totale andelen av sider med begrensninger er relativt stabil, er andelen som blankt avviser robotene mangedoblet, til rundt 30 prosentpoeng.
Den samme tendensen gjelder for brukervilkår. Mens svært få sider avviste robotene helt gjennom vilkårene for ett år siden, er andelen økt til nær 10 prosentpoeng.
Blant de viktigste sidene for AI-trening anslår forskerne at sidene med begrensninger har økt med rundt 1000 prosent. I det totale treningsgrunnlaget har begrensningene økt med rundt 500 prosent.
Nasjonal-biblioteket nekter å trene AI
Rammer også andre
Så må vi huske robotene er ingen ny aktør på internett. Sider som Common Crawl har i mange år samlet innhold på internett med roboter. Utgangspunktet har vært at det skal gjøre verden bedre, og siden skal være sitert i mer enn 10.000 vitenskaplige studier.
I kampen mot AI-robotene skal flere sider ha blokkert alle roboter, for å være sikre. Det berører blant annet sider som Common Crawler. Andre sider har også valgt å sperre Common Crawler og Internet Archive, som begge er ikke-kommersielle aktører. Formålet er da å hindre at kommersielle aktører skal hente ut innholdet gjennom de ikke-kommersielle.
– Akademikere og ikke-kommersielle interesser blir på denne måten ofre for konflikten mellom dem som skaper innhold og AI-utviklerne, advarer forskerne bak rapporten.
Bør ha fokus på hva, ikke hvem
Forskerne trekker også fram en mulig løsning. De mener mye kunne vært løst, med å tilnærme seg problemstillingen på en ny måte.
Årsaken er at de mener tiltakene mot robotene, ofte ikke stemmer overens med hva som var intensjonen. Derfor vil det være bedre om roboter fikk beskjed om hva som var lov på nettsider, heller enn hvem som får bruke disse.
– Da kan eierne av en nettside si at roboter fra søkemotorer eller ikke-kommersielle aktører får bruke innholdet på en bestemt måte, foreslår forskerne.
De nevner også muligheten for å sperre innhold for roboter i en definert tidsperiode, slik at for eksempel medier kan beskytte innholdet sitt i en periode, samtidig AI kan være relativt oppdatert.