Lagrer 2 petabyte med norsk netthistorie: «Flash er en utfordring»

Nasjonalbiblioteket samler norske nettsider fra tida før Wayback Machine. – Vi må forstå hvordan vi er kommet dit vi er i dag, mener Jon Carlstedt Tønnessen.

Jon Carlstedt Tønnessen jobber som webarkeolog. En av oppgavene er å bevare norsk internetthistorie. 📸: Nasjonalbiblioteket / Jon Tønnessen Vis mer

3. oktober 2024 kl. 5.00

Arnfinn Storsveen

journalist, kode24

Det er lett å tenke at når noe først er på internett, så er det der for all tid.

Men dette er en myte, sier Jon Carlstedt Tønnessen til kode24. Han er webarkeolog i Nasjonalbibliotekets nettarkiv og internetthistoriker.

– Internett har gullfisk-hukommelse. En ganske fersk undersøkelse fra USA viser at 32 prosent av URL-ene som ga en 200-respons for fem år siden, ikke lengre er tilgjengelige, sier Tønnessen.

Går vi enda lenger tilbake i tid, er andelen «tapt internetthistorie» langt høyere.

Det er noe av jobben Tønnessen og kollegaene jobber med. Og ett av de konkrete eksemplene er Multitorg, Norges første nettsted.

Archive.org erstatter Googles cache, men ikke som vi håpa

torsdag 12. september 2024

Annonsørinnhold

Vi bygger et lite konsulenthus i det store konsulenthuset, nysgjerrig?

Viktig fagmiljø

– Multitorg har på en måte vært en underfortalt del av norsk historie, sier Tønnesen.

Han peker på nettverket tilknyttet nettstedet, som en indikasjon på hva slags miljø som vokste fram rundt nettsiden.

– Per Einar Dybvig, Håkon Wium Lie, Jon von Tetzchner, Geir Ivarsøy, Dag Solvoll, Bård Håfjell og Jan Rygh. Alle jobbet med dette, sier Tønnesen.

Dette var synet som møtte de som fant veien inn til MultiTorgs forside 23. mai 1993. 📸: Jon Carlstedt Tønnessen / Nasjonalbiblioteket Vis mer

13. mai var det 31 år siden nettsiden så dagens lys, og den siste kopien av nettsiden er fra september samme år.

– Vi i Nasjonalbiblioteket ble kjent med at Wium Lie hadde tatt en backup i 1993. Det er denne serverkopien vi har mottatt for bevaring, og som vi bruker for å gjenskape nettsiden, forklarer Tønnesen.

Tidligere i høst holdt han og kollegaen Thomas Langvann en lyntale om arbeidet på Javazone.

Annonsørinnhold

- Jeg turte ikke begynne på IT-studiene. Hvordan få flere kvinner til å trives i teknologi-bransjen?

Tiden før sider ble lagret

Mange er nok vant til å vende nesa mot Wayback Machine og lignende løsninger for å finne gamle, arkiverte utgaver av nettsider. Men sider som Multitorg er fra tiden før Internet Archive var i gang med sin innsamling.

– Det tok noen år før biblioteker og arkiver forstod hvordan de skulle ta vare på nettmedier. Sånn sett er materialet fra Multitorg-nettstedet unikt i verdenssammenheng, sier Tønnesen.

For internetthistorikere er sider som dette viktige for å forklare fortida, og hvordan teknologien utvikler seg. Derfor har Nasjonalbiblioteket jobbet siden år 2000 med å samle innhold fra web, et arbeid som er blitt systematisk siden 2005.

– Vi har vel rundt 2 petabyte, 2 millioner gigabyte, med materiale. Bilder, lyd, video og masse script. Jeg vil tro vi har en av de større samlingene med Javascript her til lands. Vi forsøker å vare på alt som skal til for å få sidene til å kjøre slik de gjorde den gangen de var «live», forklarer han.

Tande P viste internett til Norge i 1994

fredag 9. november 2018

Annonsørinnhold

– Young Professionals programmet hjalp oss videre i karrieren!

Kan forklare utviklingen

Så hvorfor er det viktig at noen samler sammen og gjenskaper dette innholdet?

– Det handler om å forstå vår nære historie. Dette arbeidet er viktig for å forstå utvikling av teknologi, men det er også det viktigste stedet å finne spor av hva som har skjedd innen samfunn og kultur de siste 30 årene, sier Tønnessen.

En sentral tjeneste på MultiTorg var direktenyheter til nett. MultiTorg tok nyhetsstrømmen som NTB sendte til alle landets redaksjoner, oversatte denne automatisk til HTML og publiserte til nett i løpet av minutter. Dermed kunne man lese nyhetene på nett, flere dager før de kom på trykk i lokalavisa. 📸: Jon Carlstedt Tønnessen / Nasjonalbiblioteket Vis mer

Han minner også om at mange har det med å «skylde på internett».

– Når de gjør det, så må vi også huske på at internett er skapt av mennesker. Da må vi også forstå hvordan vi er kommet dit vi er i dag, sier Tønnesen.

Han eksemplifiserer med at det var en enorm optimisme i tiden da Multitorg og Oslonett oppsto: Muren og Sovjetunionens fall bidro til en tro på frihet, og preget mange av de sentrale skikkelsene i internetts barndom. Denne friheten ga seg også utslag i bruken av «åpne valg».

– Mye av dette er gjort med åpen kildekode, og med åpne formater. Det gjør at imponerende mye av koden fortsatt er valid, og eller at vi kan få den til å virke i dag. Lukka og rødlista formater som Flash vil derimot by på problemer.

QXL legger ned etter 23 år: - Dette er trist

mandag 6. desember 2021

Annonsørinnhold

Vil du bli med å bygge fremtidens samfunn gjennom teknologi?

Annonsørinnhold

Er du en backendutvikler som vil løse virkelige problemer?

Legacy-formater er utfordring

Nettopp eksempler som Flash er en av utfordringene som Tønnessen og kollegaene står ovenfor.

– Hva gjør vi når proprietære formater blir legacy-formater? spør Tønnessen retorisk.

– I vårt tilfelle har vi høstet inn masse Flash, men denne kan ikke lenger spilles i vanlige nettlesere. Det er en utfordring med bevaringen hos oss. Vi må kunne konvertere til nye og valide formater, sier han.

Reisebrev der Håkon Wium Lie beskriver opplevelsen av å ha nettbaserte tjenester ombord i et fly over USA i januar 1993. Idéen om at elektroniske nyheter kunne gjøres tilgjengelig på kontorer og hjemme hos folk var noe av det som ble testet ut på MultiTorg-sidene. 📸: Jon Carlstedt Tønnessen / Nasjonalbiblioteket Vis mer

De enorme datamengdene, samt infrastrukturen for å håndtere denne, er en annen utfordring.

Som er omtalt i kode24 tidligere, velger stadig flere nettsider å sette opp hindringer for robotskrapere, som følge av fremferden til AI-selskapene. Disse kan også være til hinder for Nasjonalbiblioteket, på samme måte som det også er et problem for Internet Archive.

– Vi høster med hjemmel i Pliktavleveringsloven, og forholder i utgangspunktet til instruksjonene som nettstedseier setter i robots.txt. Men for at innholdet kan bevares er vi avhengige av at nettstedseierne tillater vår robotiserte nettleser, sier Tønnesen.

Legges ned, etter å ha prega Norge siden 1996

tirsdag 28. mai 2024

Annonsørinnhold

Bli vår nye juniorutvikler – i Oslo eller Skien

Annonsørinnhold

Bygg noe helt nytt i Skatteetaten

Jobber med å tilgjengeliggjøre

Per i dag er det ingen lettvint måte å få sett nettsidene Nasjonalbiblioteket har samlet inn.

– Det er noe vi jobber med nå, og det finnes en fulltekstpilot med historisk webmateriale for forskere, sier Tønnesen.

Det finnes også en offentlig pilot, som foreløpig inneholder Nasjonalbibliotekets egne sider. Den finner du her. Alternativt kan du se over de arkiverte utgaven av sida i listeform her.

MultiTorg promoterte de siste nyhetene innen Nintendo-spill. I rekonstruksjonen har Nasjonalbiblioteket også funnet spor av korte videoklipp fra Nintendo-spillene, men som datidens nettlesere ikke kunne spille av. 📸: Rekonstruksjon: Jon Carlstedt Tønnessen, Nasjonalbiblioteket. Vis mer

Når løsningen etterhvert kommer på plass, skal du kunne søke på en URL, og få gjengitt hvordan en nettside så ut da den ble høstet. Med andre ord, ganske likt framgangsmåten hos Wayback Machine.

– Det er viktig å få ut disse dataene til en sulteforet forskningsgruppe, som ønsker å studere utviklingen av internett i Norge. Vi har store mengder data, som vi mener vil kunne gi gode svar på mange av spørsmålene forskerne måtte ha, sier Tønnesen.

Selv mener han fagfeltet som digitale arkeologer er i utvikling, og at det i framtida vil være behov for flere med sammensatte bakgrunner, også teknologer.

– Vi trenger folk med tverrfaglig kompetanse og interesse i framtida. Jeg har et utgangspunkt fra humaniora, men jobber gjerne litt med python, forklarer han, og understreker nok en gang behovet for å finne gode måter å ta vare på teknologi og teknologisk historie.