Thomas avslørte høyreradikale med Python og maskinlæring: - Vi kan spille en viktig rolle

- Utviklere har alle en "gjeld" å betale tilbake til samfunnet, mener Thomas Alejandro Fernandez Ramirez.

Digitaliseringen har bidratt med å skape ekkokammere og økt sjansene for at sårbare brukere blir radikalisert, mener Thomas Alejandro Fernandez Ramirez. 📸: Privat
Digitaliseringen har bidratt med å skape ekkokammere og økt sjansene for at sårbare brukere blir radikalisert, mener Thomas Alejandro Fernandez Ramirez. 📸: Privat Vis mer

- Som utviklere og pådrivere av digitalisering så har vi alle en "gjeld" å betale tilbake til samfunnet, sier Thomas Alejandro Fernandez Ramirez, fersk utvikler i konsulentselskapet Blank og tidligere masterstudent i kunstig intelligens ved NTNU, til kode24.

De siste årene har samfunnet blitt stadig mer polarisert. Politiets sikkerhetstjeneste (PST) vurderte i rapporten Nasjonal trusselvurdering 2022 det som mulig at høyreekstremister "vil forsøke å gjennomføre terrorhandlinger i Norge".

Dette er bakteppet til at Ramirez i masteroppgaven "How to catch a far-right radical" undersøkte om det finnes en måte å oppdage ytre-høyre-radikalisering på nett.

Han viste at det er mulig å oppdage radikaliseringsprosessen hos enkeltpersoner. Noe som kan gjøre det mulig i fremtiden å predikere hvem som er sårbare for å bli radikalisert, før det er for sent.

Og ja - han mener nå at utviklere kan spille en viktig rolle i dette arbeidet.

Psykolingvistikk

Ramirez sier at som alt annet i samfunnet, har også radikaliseringen flyttet seg fra den fysiske verdenen til den digitale.

- Det er der også kampen mot radikalisering må flyttes til, mener han.

Ramirez forteller at mye av forskningen det siste året har dreid seg om religiøs radikalisering. Derfor ønsket han å se om det fantes metoder som med små justering passet til å oppdage høyreradikale.

Ifølge Ramirez er det ikke en bred enighet om en definisjon av radikalisering i akademia. Men i hans oppgave ble det definert som: "prosessen hvor en person begynner å akseptere høyre-politiske ideologier som ser på vold som et nødvendig middel for å oppnå sine mål".

- Når det gjelder oppdagingsaspektet var søkelyset på å bruke verdier som sa "hvor radikale" postene til en bruker var, sammen med psykolingvistiske trekk i teksten, slik som gjennomsnittlig lengde på innlegg og bruken av banneord, sier han.

«Brukerne i det radikaliserte datasettet ble hentet fra plattformen kalt Gab.»

Pandas, Numpy, Scikit Learn

Ramirez forteller at koden ble skrevet i Python med biblioteker som Pandas, Numpy og Scikit Learn.

- I tillegg ble andre biblioteker brukt for å lage web-skrapere, som var viktig under datainnsamlingen, sier han.

Men teknologien som spilte den viktigst rolle for masteren var KeyBERT.

- Det var et system som returnerte de beste nøkkelordene for å representere en tekstfil. Den brukte i tillegg basert på Googles språkmodell BERT for å vekte ord, som er årsaken til at den heter KeyBERT. Kodebasen ble også døpt Mothman basert på en amerikansk myte, sier Ramirez.

Samlet inn to datasett

Ifølge Ramirez startet han med å samle to datasett som besto av ikke-radikaliserte og radikaliserte brukere.

- Det ikke-radikaliserte datasettet besto av vanlige Twitter-brukere, og ble hentet med Twitters API-tjenester. Brukerne i det radikaliserte datasettet ble hentet fra plattformen kalt Gab, som er en populær tjeneste for ytre-høyre ekstremister.

Ved å bruke ett innlegg fra Gab av en alt-right-"kjendis", hvor brukerne i tråden selv rapporterte at de hadde blitt kastet ut fra Twitter, hentet Ramirez brukernavnene og verifiserte dem mot Twitters API. Dette ga til slutt rundt 300 brukere.

- Inspirert av sosiologi implementerte jeg radikaliseringsteorien "The Roots of Radicalisation" for å evaluere hvor radikal brukernes innlegg var. Teorien har tidligere blitt brukt for å oppdage jihadisme på Twitter.

Valgte nøkkelord

Ramirez forteller at for å benytte seg av metoden var det nødvendig med et sett av radikale ord for å måle likheten mellom ordene og brukernes innlegg. Han endte opp med å bruke ord fra manifester skrevet av terrorister fra ytre høyre.

- KeyBERT valgte nøkkelord fra manifestene for å finne de beste ordene som representerte teksten. Med tanke på manifestenes ekstreme innhold, og de allerede radikaliserte forfatterne, var det trygt å anta at ordene var en god nok representasjon av høyreradikale ideer, sier han.

- I tillegg virket denne metoden som en slags “bruk deres egen styrke mot dem selv”-teknikk som er litt kul da, legger Ramirez til.

«Jeg fant også ut at gjennomsnittslengden på innleggene til radikale brukere pleier å være lengre enn det man ser hos "vanlige" brukere.»

Modellen fungerte

Med både teoriene og datasettene på plass, ble hver bruker evaluert for hvor radikalt innholdet deres var. I tillegg til gjennomsnittlig lengde på innleggene og antallet banneord.

- Hvorfor disse to verdiene også? Radikaliserte personer har som fellestrekk at de pleier å være introverte. De kommuniserer med korte utsagn som man vil kunne se igjen i gjennomsnittslengden på innleggene. Et annet fellestrekk er frustrasjon mot samfunnet. Det manifesteres med en høyere forekomst av negative ord som banneord, sier Ramirez.

Han forteller at disse verdiene ble brukt for å trene og evaluere en maskinlæringsmodell for å evaluere om det fungerte. Han ble overrasket over resultatet.

I noen tilfeller fikk han en statistisk F1 score på 0,95, hvor 1 er høyeste verdi. Dette betyr at modellen kan klare å finne innlegg som viser tegn på radikalisering.

- Jeg fant også ut at gjennomsnittslengden på innleggene til radikale brukere pleier å være lengre enn det man ser hos "vanlige" brukere, sier Ramirez.

Utviklere har et ansvar

- Hvilken rolle tror du utviklere kan spille med å oppdage ekstremisme?

- Utviklere kan spille en viktig rolle i å hjelpe til med å oppdage ekstremisme ved å utvikle programmer og teknologi som kan analysere store mengder data, for eksempel nettsteder og sosiale medier, sier Ramirez.

Han legger til at digitaliseringer har vært en av mange faktorer som har vært med på å skape den sterke polariseringen vi ser i dag. Ramirez trekker fram at avanserte anbefalingssystemer ikke bare har bidratt med å gi brukere anbefalte filmer eller produkter, men også mer av liknende og lite nyansert informasjon som støtter det man allerede tror.

- Dette har bidratt med å skape ekkokammere og økt sjansene for at sårbare brukere blir radikalisert, sier han.