Hvis du ikke vil at AI-gigantene skal stjele innhold fra nettsida di til AI-trening, kan du for eksempel legge til en slik snutt i robots.txt-fila:
User-agent: GPTBot
Disallow: /
Men det finnes langt flere botter enn GPTBot. Og selv om du lager slike regler, må ikke AI-selskapene følge dem.
Og det gjør de visst ikke alltid, heller. Nylig ble Perplexity AI aklaga av Amazon for å skrape data til AI-trening uansett hva kildene måtte mene om saken.
Nå lanserer giganten Cloudflare sitt siste våpen i kampen mot uærlige AI-botter: "Bot Fight Mode".
Gratis for alle
– Vi hører tydelig at kundene våre ikke vil at AI-botter skal besøke nettsidene deres, spesielt ikke de som gjør det uærlig, skriver Cloudflare i et blogginnlegg.
– For å hjelpe, har vi lagt til en helt ny ett-klikk-funksjon for å blokkere alle AI-botter.
Den nye funksjonen skal være tilgjengelig for alle Cloudflare-kunder, inkludert de som bruker gratisversjonen.
Og du skal finne klikket under "security" og "bots" i Cloudflare-dashboardet.
Glemmer kineseren
Nøyaktig hvorfor kundene deres vil holde AI-bottene unna, skriver ikke Cloudflare så mye om.
Utover at AI-selskapene har fått mye kritikk for å ikke betale for innholdet de tjener milliarder på, og at kjendiser som Scarlett Johansson ble rimelig snurt da OpenAI stjal stemmen hennes til GPT 4o-demoene sine.
Cloudflare legger også vekt på at mange blokkerer de største aktørene i robots.txt-filer, som OpenAI sin GPTBot, men glemmer de mer ukjente, men minst like store.
Her er lista deres over de bottene som kravler rundt hos flest Cloudflare-kunder, med prosentandelen nettsider de kravler på:
- Bytespider: 40%
- GPTBot: 35%
- ClaudeBot: 11%
Bytespider er altså mest grådig, men er blant bottene mange glemmer å blokkere. Dette er botten til det kinesiske selskapet ByteDance, som blant annet eier TikTok og språkmodellen Doubao.
Nasjonal-biblioteket nekter å trene AI
En ny krig
– Trist nok, observerer vi bot-operatører som prøver å se ut som ekte nettlesere, ved å forfalske user agents, skriver Cloudflare.
Dermed er det duket for en aldri så liten teknologikrig, mellom aktører som Cloudflare og AI-selskapene, hvor uærlige aktører stadig prøver nye triks for å stjele innhold uten å bli blokkert.
Ifølge Cloudflare bruker aktørene verktøy og rammeverk som kan oppdages gjennom "fingerprinting", men de er også åpne om at dette er en pågående konflikt som neppe er over med det første.
– Vi er redde for at noen AI-selskaper, de som prøver å komme seg rundt reglene for å skaffe innhold, vil tilpasse seg for å slippe unna bot-oppdagelser, skriver Cloudflare.
– Men vi vil fortsette å følge med, legge til mer blokkering og utvikle våre maskinlæringsmodeller, for å bidra til at internett er et sted hvor innholdsskapere kan blomstre, og beholde full kontroll over hvilke modeller som får trene på deres innhold.