Raser mot AI-botter: Skrapes millioner av ganger, koster tusenvis av dollar

Bottene bytter navn så ofte at robots.txt-fila di er utdatert før den er rulla ut.

Blant annet iFixit har i sommer bedt AI-selskapene roe ned skrapinga av nettsidene deres. Det blir potensielt dyrt. 📸: iFixit / Creative Commons BY-NC-SA 3.0 Vis mer

30. juli 2024 kl. 9.41

Ole Petter Baugerød Stokke

redaktør, kode24

Tidligere i sommer meldte kode24 om Cloudflares nye verktøy for blokkering av AI-botter. Altså botter, eller såkalte crawlere, som automatisk besøker nettsider for å skrape til seg informasjon for å trene opp store språkmodeller.

Problemet, ifølge Cloudflare, var at robots.txt-filene som skal stoppe bottene ikke blir oppdatert riktig, og at noen botter uansett overser dem.

I løpet av sommeren har det kommet flere eksempler på at dette er et reelt problem. Og for noen blir det dyrt.

– Hei, Anthropic: Jeg skjønner at du er sulten på data. Claude er veldig smart! Men trenger du virkelig å treffe serverne våre én million ganger på 24 timer? skrev nylig iFixit-direktør Kyle Wiens på X.

– Ikke bare tar du innholdet vårt uten å betale, men du binder opp devops-ressursene våre. Ikke kult.

Hey @AnthropicAI: I get you're hungry for data. Claude is really smart! But do you really need to hit our servers a million times in 24 hours?

You're not only taking our content without paying, you're tying up our devops resources. Not cool.
— Kyle Wiens (@kwiens) July 24, 2024

Annonsørinnhold

Hos oss skal du kunne være deg selv

Kosta dem 5.000 dollar

Forrige uke gikk også Read the Docs, en tjeneste for å skrive dokumentasjon, ut og klagde på AI-botter. De har opplevd en eksplosjon av trafikk fra dem, som visstnok koster dem dyrt.

– En crawler lasta ned 73 TB med zippa HTML-filer i mai, og nesten 10 TB på bare én dag. Dette kosta oss over 5.000 dollar i båndbredde, forteller de i et blogginnlegg.

Fra Read the Docs sitt blogginnlegg om skraping fra AI-botter. Vis mer

Dette er bare ett eksempel på hvordan AI-selskapenes datahunger skaper trøbbel for Read the Docs. Nå håper de at bransjen skjerper seg.

– Vi ber alle AI-selskaper om å være mer respektfulle overfor sidene de kravler. De risikerer at mange sider blokkerer dem for misbruk, manglende respekt av kopibeskyttelser og moralske spørsmål som preger bransjen.

Annonsørinnhold

Teknologi handler om å skape verdi for mennesker

"Praktisk talt umulig"

Mye av dette omtales i en lang artikkel fra nettavisa 404 Media. De har også snakka med mannen bak tjenesten Dark Visitor, som av en eller annen grunn er anonym.

Dark Visitor har ett mål: Å hjelpe deg med å blokkere AI-skraperne. Og hjelp kan du saktens trenge, for bottene skal visstnok bytte navn så ofte at det å ha en oppdatert robots.txt-fil er en utfordring.

– Økosystemet for disse agentene endrer seg så raskt, at det er praktisk talt umulig for nettside-eiere å følge med manuelt, sier han til 404 Media.

For eksempel skal mange prøve å blokkere Anthropic ved å inkludere "ANTHROPIC-AI" and "CLAUDE-WEB" i robots.txt-fila si, men problemet er bare at deres botter ikke lenger heter dette. Nå er det "CLAUDEBOT" du må skrive. 404 har spurt dem hvorfor, uten å få noen klare svar.

Sjekk om du også trener Grok, uten å vite det

mandag 29. juli 2024

Annonsørinnhold

– Dette har blitt systemutviklernes egen festival

Kopipasta

Dette selskapet skal være langt fra alene om å bytte navn på denne måten. Og dermed nytter det altså ikke lenger å bare lage seg en robots.txt og kalle det en dag.

– Det foregår absolutt mye kopiering og innliming av robots.txt-lister nå, sier Cory Dransfeldt, som vedlikeholder en slik liste på Github, til 404 Media.

– Folk jeg snakker med er frustrerte av teknologibransjens omfavnelse av webskraping, og ser nå etter måter å kjempe i mot.