Digitaliseringsdirektoratet (Digdir) annonserer i dag deres nye søk på data.norge.no, hvor bruk av kunstig intelligens skal gjøre det enklere å finne datasettene du leter etter.
«Dette initiativet er en del av vår pågående innsats for å gjøre offentlige data mer tilgjengelige og brukervennlige å ta i bruk» melder Digdiri en pressemelding til kode24.
data.norge.no inneholder data fra 125 virksomheter og over 8.000 datasett, ifølge dem selv.
– Løsningene er nok dessverre ikke så godt kjent blant utviklere, sa produkteier Kjersti Steien da kode24 snakka med henne om tjenesten før sommeren.
Ikke en assistent
– Digitaliseringsdirektoratet følger utviklingen av kunstig intelligens, og det er viktig og nyttig for oss å prøve ut de mulighetene som AI gir. Når det gir bedre tjenester til brukerne er det en vinn-vinn-situasjon, sier Tor Arild Sunnevåg, seksjonssjef for Strategi og forretningsutvikling og produktgruppeleder for datadelingsområdet i Digdir.
Det nye søket skal takle dine spørsmål, i naturlig språk, og gi deg forslag til datasett hvor du kan finne det du leter etter.
Når kode24 tester funksjonen gir den oss hverken mer eller mindre enn søkeresultater, så det er ikke snakk om noen chatbot eller assistent som hjelper deg noe videre i arbeidet.
– Utforskingen startet som et samarbeid med Datasamarbeidet i samferdselssektoren. De utviklet en prototype basert på et uttrekk av data fra data.norge.no. Resultatene var så gode at vi bestemte oss for å ta løsningen videre, sier produkteier Kjersti Steien i pressemeldinga.
Samler 237 API-er og 8.500 datasett: – Dessverre ikke så godt kjent
Teknologien og koden bak
I pressemeldinga forklarer Digdir teknologien bak:
- «Denne tjenesten benytter Google Vertex AI for språkmodellering uten behov for finjustering (tuning), noe som sparer tid og kostnader. Siden Digitaliseringsdirektoratet ikke har trent opp modellen videre, skaper dette en frihet til å bytte ut med en annen språkmodell etter hvert som det kommer bedre modeller på markedet. Google kommer hyppig med nye versjoner som potensielt kan forbedre både kvaliteten og ytelsen.»
- «Backendtjenesten er skrevet i Kotlin og bruker LangChain som rammeverk for å opprette prompt-templates og interagere med Vertex.»
- «Tjenesten bruker to forskjellige modeller: text-multilingual-embedding-002 til å generere tekst-embeddinger, og text-bison@002 (PaLM 2 for Text) til å filtrere funnene og forklare hvorfor de er relevant.»
- «Datagrunnlaget, som er basert på datasettbeskrivelser, ligger i en PostgreSQL-instans på Cloud SQL i GCP, med pgvector-utvidelsen for vektorbaserte likhetssøk.»
Kildekoden til tjenesten finner du forøvrig på GitHub.