– Test, test, test – og når du tror alt virker, test gjerne igjen

– Hvordan kan ett strømbrudd i én Telenor-sentral få så store konsekvenser som det fikk denne uken? spør Kurt i ukens nyhetsbrev.

Kurt Lekanger er journalist i kode24.no. 📸: Ole Petter Baugerød Stokke
Kurt Lekanger er journalist i kode24.no. 📸: Ole Petter Baugerød Stokke Vis mer

Er det én ting utviklere og teknologer er opptatt av – og mange gode på – så er det å bygge robuste systemer som aldri skal gå ned.

Bare se på et moderne datasenter – det er redundans overalt. Går én nettverksforbindelse ned, tar en annen over. Ryker strømmen, tar UPS-er over – og aggregater over for disse igjen. Og skulle hele datasenteret ta fyr, så tar et annet datasenter over.

Likevel førte et strømbrudd hos Telenor denne uken til at nødnummere over hele Norge gikk ned, flere sykehus måtte gå i "rød beredskap" og tog stoppet opp.

Alt på grunn av et strømbrudd i én sentral.

Det er rett og slett for dårlig.

Ifølge Nkom, som kaller hendelsen "helt uakseptabel", er det fjerde gangen bare siden august at nødnummere ikke har fungert.

Vi lever i en urolig verden, og derfor er det viktigere enn noensinne at systemer og infrastruktur vi er avhengig av er så godt beskyttet som det lar seg gjøre.

Antagelig var det som skjedde på onsdag bare maks uflaks. Men hva om det hadde vært fremmede makter som prøvde å sabotere, kanskje for å teste infrastrukturen og beredskapen vår?

«Hva om det hadde vært fremmede makter som prøvde å sabotere for å teste infrastrukturen og beredskapen vår?»

I kode24-klubben spør flere av våre lesere om man ikke burde kunne forvente at slike samfunnskritiske systemer har litt bedre backupsystemer.

Én leser spekulerer i at det antagelig har vært redundans på det meste, men at det ofte skal bare en liten konfigurasjonsfeil til før omruting av trafikk ikke fungerer etter et strømbrudd.

– Da er alle millioner og tusenvis av timer som er lagt i redundante løsninger ikke verdt en dritt, skriver leseren – og viser til hvordan en BGP-konfigurasjonsfeil hos Facebook tok ned mye hos dem for et par år siden.

– Shit happens, og jo mer kompleks og automatisert man lager løsningen og redundansen, jo mer kan gå galt når man trenger auto-failover, fortsetter han.

Jeg vet ikke hva årsaken til nedetiden var, annet enn det Telenor sier – at det var et strømbrudd på en av sentralene til Telenor – og at en batteribackup (UPS) feilet.

Kanskje det er umulig å gardere seg 100 prosent mot alt, slik vår leser antyder.

Men det som er helt klart, er at man er nødt til å prøve litt hardere. Nødnummere skal ikke gå ned og vi kan ikke risikere at liv går tapt fordi sykehus ikke får gjort jobben sin.

Vi togpendlere hadde også satt pris på om toget hadde gått.

Ukas beste saker på kode24:

🐯 Bane NOR avlyser konkurranse i frykt for å bryte innleie­regler: «Skuffa og frustrert»

– Det viser hvor vanskelig dette er, sier Henrik Holum, etter at Bane NOR avlyser konkurransen.

🩱 Domeneshop-kunder takka nei, men fikk regning på 5.000 kroner

Domeneshop beklager på det sterkeste, og advarer nå mot eks-partneren til sine nye svenske eiere.

💎 Computas om hjemme­kontor: – Trenger ikke styre dette fra toppen

– Vi har tillit til at den enkelte og teamene gjør gode vurderinger, sier HR-direktør Christine Langbråthen i Computas.

🦚 Silja (25) måtte bevise at hun kunne levere, tross ung alder: – Utfordrende

– Ubehagelig å ha bidratt mye, men ikke få mulighet til å formidle resultatene, sier Ukas Koder Silja Stubhaug Torkildesen om starten på karrieren.

🧁 .NET 9 er ute – her er fem nyheter du må få med deg

Apper laget med Microsoft .NET 9 er raskere, bruker mindre minne, og både C# og F# kommer i nye og bedre versjoner.

🥕 KLP inhouser og ansetter 30 utviklere: «Lettere å følge opp»

Konsulenter starta arbeidet, men veien framover skal gjøres av egne utviklere. – Ålreit at vi kan gå mot strømmen, sier Rune Hørnes.

🐺 Forskning: Ingen vits å stå og jobbe hele dagen

Verken å sitte eller stå for mye er bra for deg, viser en stor undersøkelse.

God helg

Jeg regner med at de som har ansvaret for systemene som førte til kollapsen denne uken jobber på spreng med å gjøre dem enda mer robuste enn de tilsynelatende er nå. Og tester alt sammen skikkelig for å redusere risikoen for at lignende ikke skjer igjen.

Uansett om nedetiden denne gangen har fysiske årsaker eller om det skyldes programvarefeil, er det mye lærdom å hente også for de av oss som jobber med programvareutvikling:

Test, test, test – og når du tror alt virker, test gjerne igjen.

Ting har en tendens til å feile på de mest spektakulære måter når du minst venter det.

God helg!

– Kurt 🤓