Raser mot AI-botter: Skrapes millioner av ganger, koster tusenvis av dollar

Bottene bytter navn så ofte at robots.txt-fila di er utdatert før den er rulla ut.

Blant annet iFixit har i sommer bedt AI-selskapene roe ned skrapinga av nettsidene deres. Det blir potensielt dyrt. 📸: iFixit / Creative Commons BY-NC-SA 3.0
Blant annet iFixit har i sommer bedt AI-selskapene roe ned skrapinga av nettsidene deres. Det blir potensielt dyrt. 📸: iFixit / Creative Commons BY-NC-SA 3.0 Vis mer

Tidligere i sommer meldte kode24 om Cloudflares nye verktøy for blokkering av AI-botter. Altså botter, eller såkalte crawlere, som automatisk besøker nettsider for å skrape til seg informasjon for å trene opp store språkmodeller.

Problemet, ifølge Cloudflare, var at robots.txt-filene som skal stoppe bottene ikke blir oppdatert riktig, og at noen botter uansett overser dem.

I løpet av sommeren har det kommet flere eksempler på at dette er et reelt problem. Og for noen blir det dyrt.

– Hei, Anthropic: Jeg skjønner at du er sulten på data. Claude er veldig smart! Men trenger du virkelig å treffe serverne våre én million ganger på 24 timer? skrev nylig iFixit-direktør Kyle Wiens på X.

– Ikke bare tar du innholdet vårt uten å betale, men du binder opp devops-ressursene våre. Ikke kult.

Kosta dem 5.000 dollar

Forrige uke gikk også Read the Docs, en tjeneste for å skrive dokumentasjon, ut og klagde på AI-botter. De har opplevd en eksplosjon av trafikk fra dem, som visstnok koster dem dyrt.

– En crawler lasta ned 73 TB med zippa HTML-filer i mai, og nesten 10 TB på bare én dag. Dette kosta oss over 5.000 dollar i båndbredde, forteller de i et blogginnlegg.

Fra Read the Docs sitt blogginnlegg om skraping fra AI-botter.
Fra Read the Docs sitt blogginnlegg om skraping fra AI-botter. Vis mer

Dette er bare ett eksempel på hvordan AI-selskapenes datahunger skaper trøbbel for Read the Docs. Nå håper de at bransjen skjerper seg.

– Vi ber alle AI-selskaper om å være mer respektfulle overfor sidene de kravler. De risikerer at mange sider blokkerer dem for misbruk, manglende respekt av kopibeskyttelser og moralske spørsmål som preger bransjen.

"Praktisk talt umulig"

Mye av dette omtales i en lang artikkel fra nettavisa 404 Media. De har også snakka med mannen bak tjenesten Dark Visitor, som av en eller annen grunn er anonym.

Dark Visitor har ett mål: Å hjelpe deg med å blokkere AI-skraperne. Og hjelp kan du saktens trenge, for bottene skal visstnok bytte navn så ofte at det å ha en oppdatert robots.txt-fil er en utfordring.

– Økosystemet for disse agentene endrer seg så raskt, at det er praktisk talt umulig for nettside-eiere å følge med manuelt, sier han til 404 Media.

For eksempel skal mange prøve å blokkere Anthropic ved å inkludere "ANTHROPIC-AI" and "CLAUDE-WEB" i robots.txt-fila si, men problemet er bare at deres botter ikke lenger heter dette. Nå er det "CLAUDEBOT" du må skrive. 404 har spurt dem hvorfor, uten å få noen klare svar.

Kopipasta

Dette selskapet skal være langt fra alene om å bytte navn på denne måten. Og dermed nytter det altså ikke lenger å bare lage seg en robots.txt og kalle det en dag.

– Det foregår absolutt mye kopiering og innliming av robots.txt-lister nå, sier Cory Dransfeldt, som vedlikeholder en slik liste på Github, til 404 Media.

– Folk jeg snakker med er frustrerte av teknologibransjens omfavnelse av webskraping, og ser nå etter måter å kjempe i mot.