Det er lett å tenke at når noe først er på internett, så er det der for all tid.
Men dette er en myte, sier Jon Carlstedt Tønnessen til kode24. Han er webarkeolog i Nasjonalbibliotekets nettarkiv og internetthistoriker.
– Internett har gullfisk-hukommelse. En ganske fersk undersøkelse fra USA viser at 32 prosent av URL-ene som ga en 200-respons for fem år siden, ikke lengre er tilgjengelige, sier Tønnessen.
Går vi enda lenger tilbake i tid, er andelen «tapt internetthistorie» langt høyere.
Det er noe av jobben Tønnessen og kollegaene jobber med. Og ett av de konkrete eksemplene er Multitorg, Norges første nettsted.
Archive.org erstatter Googles cache, men ikke som vi håpa
Viktig fagmiljø
– Multitorg har på en måte vært en underfortalt del av norsk historie, sier Tønnesen.
Han peker på nettverket tilknyttet nettstedet, som en indikasjon på hva slags miljø som vokste fram rundt nettsiden.
– Per Einar Dybvig, Håkon Wium Lie, Jon von Tetzchner, Geir Ivarsøy, Dag Solvoll, Bård Håfjell og Jan Rygh. Alle jobbet med dette, sier Tønnesen.
13. mai var det 31 år siden nettsiden så dagens lys, og den siste kopien av nettsiden er fra september samme år.
– Vi i Nasjonalbiblioteket ble kjent med at Wium Lie hadde tatt en backup i 1993. Det er denne serverkopien vi har mottatt for bevaring, og som vi bruker for å gjenskape nettsiden, forklarer Tønnesen.
Tidligere i høst holdt han og kollegaen Thomas Langvann en lyntale om arbeidet på Javazone.
Tiden før sider ble lagret
Mange er nok vant til å vende nesa mot Wayback Machine og lignende løsninger for å finne gamle, arkiverte utgaver av nettsider. Men sider som Multitorg er fra tiden før Internet Archive var i gang med sin innsamling.
– Det tok noen år før biblioteker og arkiver forstod hvordan de skulle ta vare på nettmedier. Sånn sett er materialet fra Multitorg-nettstedet unikt i verdenssammenheng, sier Tønnesen.
For internetthistorikere er sider som dette viktige for å forklare fortida, og hvordan teknologien utvikler seg. Derfor har Nasjonalbiblioteket jobbet siden år 2000 med å samle innhold fra web, et arbeid som er blitt systematisk siden 2005.
– Vi har vel rundt 2 petabyte, 2 millioner gigabyte, med materiale. Bilder, lyd, video og masse script. Jeg vil tro vi har en av de større samlingene med Javascript her til lands. Vi forsøker å vare på alt som skal til for å få sidene til å kjøre slik de gjorde den gangen de var «live», forklarer han.
Tande P viste internett til Norge i 1994
Kan forklare utviklingen
Så hvorfor er det viktig at noen samler sammen og gjenskaper dette innholdet?
– Det handler om å forstå vår nære historie. Dette arbeidet er viktig for å forstå utvikling av teknologi, men det er også det viktigste stedet å finne spor av hva som har skjedd innen samfunn og kultur de siste 30 årene, sier Tønnessen.
Han minner også om at mange har det med å «skylde på internett».
– Når de gjør det, så må vi også huske på at internett er skapt av mennesker. Da må vi også forstå hvordan vi er kommet dit vi er i dag, sier Tønnesen.
Han eksemplifiserer med at det var en enorm optimisme i tiden da Multitorg og Oslonett oppsto: Muren og Sovjetunionens fall bidro til en tro på frihet, og preget mange av de sentrale skikkelsene i internetts barndom. Denne friheten ga seg også utslag i bruken av «åpne valg».
– Mye av dette er gjort med åpen kildekode, og med åpne formater. Det gjør at imponerende mye av koden fortsatt er valid, og eller at vi kan få den til å virke i dag. Lukka og rødlista formater som Flash vil derimot by på problemer.
QXL legger ned etter 23 år: - Dette er trist
Legacy-formater er utfordring
Nettopp eksempler som Flash er en av utfordringene som Tønnessen og kollegaene står ovenfor.
– Hva gjør vi når proprietære formater blir legacy-formater? spør Tønnessen retorisk.
– I vårt tilfelle har vi høstet inn masse Flash, men denne kan ikke lenger spilles i vanlige nettlesere. Det er en utfordring med bevaringen hos oss. Vi må kunne konvertere til nye og valide formater, sier han.
De enorme datamengdene, samt infrastrukturen for å håndtere denne, er en annen utfordring.
Som er omtalt i kode24 tidligere, velger stadig flere nettsider å sette opp hindringer for robotskrapere, som følge av fremferden til AI-selskapene. Disse kan også være til hinder for Nasjonalbiblioteket, på samme måte som det også er et problem for Internet Archive.
– Vi høster med hjemmel i Pliktavleveringsloven, og forholder i utgangspunktet til instruksjonene som nettstedseier setter i robots.txt. Men for at innholdet kan bevares er vi avhengige av at nettstedseierne tillater vår robotiserte nettleser, sier Tønnesen.
Legges ned, etter å ha prega Norge siden 1996
Jobber med å tilgjengeliggjøre
Per i dag er det ingen lettvint måte å få sett nettsidene Nasjonalbiblioteket har samlet inn.
– Det er noe vi jobber med nå, og det finnes en fulltekstpilot med historisk webmateriale for forskere, sier Tønnesen.
Det finnes også en offentlig pilot, som foreløpig inneholder Nasjonalbibliotekets egne sider. Den finner du her. Alternativt kan du se over de arkiverte utgaven av sida i listeform her.
Når løsningen etterhvert kommer på plass, skal du kunne søke på en URL, og få gjengitt hvordan en nettside så ut da den ble høstet. Med andre ord, ganske likt framgangsmåten hos Wayback Machine.
– Det er viktig å få ut disse dataene til en sulteforet forskningsgruppe, som ønsker å studere utviklingen av internett i Norge. Vi har store mengder data, som vi mener vil kunne gi gode svar på mange av spørsmålene forskerne måtte ha, sier Tønnesen.
Selv mener han fagfeltet som digitale arkeologer er i utvikling, og at det i framtida vil være behov for flere med sammensatte bakgrunner, også teknologer.
– Vi trenger folk med tverrfaglig kompetanse og interesse i framtida. Jeg har et utgangspunkt fra humaniora, men jobber gjerne litt med python, forklarer han, og understreker nok en gang behovet for å finne gode måter å ta vare på teknologi og teknologisk historie.