AI forsøpler Wikipedia – nå starter ryddejobben

Bygg som ikke finnes, falske malerier og henvisninger uten mening – WikiProject AI Cleanup vil kvitte seg med AI-søpla.

Stadig mer AI forsøpler Wikipedia, advarer en gruppe som nå tar kampen mot dårlig innhold. Bildet viser Wikipedia-grunnlegger Jimmy Wales i forbindelse med en fotoseanse i 2021. 📸: Daniel Leal-Olivas / AFP / NTB
Stadig mer AI forsøpler Wikipedia, advarer en gruppe som nå tar kampen mot dårlig innhold. Bildet viser Wikipedia-grunnlegger Jimmy Wales i forbindelse med en fotoseanse i 2021. 📸: Daniel Leal-Olivas / AFP / NTB Vis mer

De fleste som har vært gjennom et utdanningsløp etter årtusenskiftet, har nok hørt en lærer si at de ikke kan bruke Wikipedia som kilde.

Mye av årsaken har vært koblet til at «hvem som helst» kan legge inn endringer på nettbiblioteket.

Den siste tiden har det vist seg at det også er en økning i dårlig skrevet innhold uten kildehenvisninger, og det er ingen premie for å gjette hva som blir utpekt som synderen:

AI.

Starter prosjekt mot AI-søppel

Nå har det har vokst fram et prosjekt for å løse problemet med dårlig AI-innhold på Wikipedia, skriver 404 Media. Det har fått navnet WikiProject AI Cleanup.

404 har også snakket med Ilyas Lebleu, som har vært med på å starte prosjektet.

– Flere av oss merket oss at det ble mer tekster med unaturlig preg. De viste klare tegn på at de var generert med AI, og vi klarte å gjenskape lignende "skrivestiler" med ChatGPT, sier han.

– Da vi oppdaget gjentagende formuleringer fra AI, så ble det mulig for oss å avsløre de verste eksemplene på kort tid. Dette ville vi samle i et organisert prosjekt, slik at vi kunne samle og dele funnene og teknikkene vi brukte, sier Lebleu videre.

Avslører rene fantasier

Andre ting er vanskeligere å avsløre. Det kan kreve detaljkunnskap om enkeltemner, kjennskap til andre språk eller et intenst og fokusert blikk.

  • Det som kan se ut som relevante malerier fra en bestemt tidsperiode, kan etter en nærmere kikk vise seg å være laget med AI.
  • Kildehenvisninger er også komplisert. Lebleu trekker frem et eksempel med en artikkel som omtaler en bille, og viser til en forskningsartikkel på et annet språk. Problemet er at artikkelen ikke omtaler den aktuelle billen. Dette er fordi det er vanskelig for AI'er å formattere dette riktig, forklarer Lebleu.
  • Et annet eksempel er den ottomanske festningen ved Amberlisihar. En fyldig artikkel forteller om festningens historie fra den ble bygget i 1466, til den ble ødelagt under første verdenskrig. Men festningen er bare fantasi.

Mennesker må gjøre jobben

Per 10. oktober er det 118 sider på engelsk Wikipedia som er "flagget" som mistenkt for å inneholde AI-generert innhold. 51 av disse er fra september og oktober.

Sidene blir avdekket av frivillig innsats fra fysiske mennesker. Lebleu sier de har vurdert å bruke AI-verktøy som GPTZero for å oppdage AI-bruk, men at det så langt har vært med varierende suksess.

– Det finnes ingen maskiner eller løsninger som sikkert kan skille tekster som er skrevet AI fra resten. Verktøyene for å oppdage AI er ofte upresise, og virker egentlig kun på eldre modeller som GPT-2, sier Lebleu.

Han legger til at mennesker i prosjektet er mer stødige i formatet til Wikipedia enn det språkmodellene er. Derfor er det også lettere for dem å avsløre avvikene, og dermed også hvilke artikler som bør undersøkes nærmere.