– Musikkindustrien er fortsatt gammeldags på mange fronter, og det er flere systemer som trenger å automatiseres. Dette gjelder både tekniske prosesser, som mastering av musikk, og mer operasjonelle prosesser, for eksempel oppdagelse av nye talenter, sier Simon Hestermann, sjefsteknolog i Masterchannel, til Kode24.
– I dag foregår disse prosessene i all hovedsak manuelt, men vi i Masterchannel jobber med å optimalisere disse prosessene ved hjelp av maskinlæring og stordata. Slik håper vi å kunne endre industrien til fordel for artistene.
Masterchannel er en Oslo-basert oppstartsbedrift som ønsker å modernisere musikkindustrien ved hjelp av moderne teknologi.
Per nå leverer selskapet en fungerende løsning som bruker forsterkende læring til å automatisk mastere musikk, men de har også planer om å benytte kompetanse innen kunstig intelligens og lydbehandling til å gjøre ytterligere deler av bransjen mer sømløs.
«Mastering»?
Musikkmastering er prosessen som tar en ferdig innspilt og mikset låt, strammer og justerer på lydbildet, og spytter ut et distribusjonsklart produkt i andre enden.
Dette innbefatter gjerne “sammenpressing” av lydbildet, endre vektleggingen av forskjellige frekvensområder, bruk av effekter til å legge til metning og “varme”, og så videre. I dag utføres dette arbeidet stort sett av studioteknikere, men i følge kritikere er det ikke lenger nødvendig med menneskelig innblanding.
Simon har selv arbeidet som mastering engineer, og bruker lærdom herfra når bedriften skal konstruere en algoritme som skal gjøre den samme jobben.
– Når man mastrer musikk har man gjerne en form for referanse, en konkret idé om hvordan en låt skal høres ut, og justerer diverse parametere slik at man kommer nærmere og nærmere denne visjonen. Det var slik jeg arbeidet selv, og det er slik produktet vårt fungerer.
Petter lagde Norges 4. største musikkapp på én uke: - Viktig å naile den ene funksjonen
Fra hobbyprosjekt til virksomhet
Historien til det som i dag er Masterchannel begynte i Tyskland, Simons hjemland, hvor han først ble introdusert til musikk på videregående. På den tiden drev han med piano, men interessen for produksjon og innspilling av låter tok raskt overhånd.
Da han gikk videre til å studere datateknologi, var lydbehandling derfor et naturlig felt å spesialisere seg innen.
På samme tid jobbet også CTO-en med mastering, og en brå økning i etterspørsler skulle vise seg å resultere i det som nå er første versjon av masteringtjenesten. Etter at en av artistene han arbeidet med slo gjennom, begynte det nemlig å komme inn flere oppdrag enn det Simon kunne si ja til.
Samtidig hadde han lekt med idéen om å kombinere hobby, jobb og studier til en programvare automatisk kunne stramme opp og polere musikk. En slik løsning hadde vært perfekt for å hjelpe artistene han måtte si nei til.
Derfor bygget han en prototype som skulle oppfylle dette behovet, og den havnet raskt i hendene til flere musikere. En av disse var Christian Ringstad Schultz, som i dag er CEO og medgründer av Masterchannel.
«Jeg hadde egentlig ingen planer om å utvikle prototypen min til å bli et kommersielt produkt.»
Seks ansatte og Matoma
– Jeg hadde egentlig ingen planer om å utvikle prototypen min til å bli et kommersielt produkt, men dette endret seg etter at jeg kom i kontakt med Christian. Han testet programvaren med sin egen musikk, og kom med mange nyttige tilbakemeldinger. Vi opprettholdt dialogen, og etter hvert ble Masterchannel som et selskap født, sier Hestermann.
Derfra kan man vel si at det har gått slag i slag:
Gründerne fikk raskt inn den populære EDM-artisten Matoma som medeier og medgründer, og har siden den gang skaffet seg flere investorer og ansatte. Industriveteran Viktoria Eriksen, med en fortid hos blant annet Sony Music og Universal Music, har også blitt med på laget i rollen som Chief Commercial Officer.
Nå teller selskapet seks ansatte, som alle sitter samlet i kontorlokalet på ved StartupLab på Blindern i Oslo.
Mikrotjenester og AI på AWS
Når kode24 besøker firmaets lokaler får vi også snakket med et annet nytt tilskudd, nemlig plattformsjef David Buverud. Av han får vi høre mer om hvordan tjenesten faktisk fungerer bak kulissene.
– Å bygge en solid teknologiplattform er vanskelig. Det er så mange skruer man må stramme for at alt skal fungere, og det blir ikke enklere når vi må leve opp til høye forventninger med begrensede ressurser. Musikkindustrien er ikke spesielt tilgivende, så det er lite rom for nedetid, sier David.
Masterchannels plattform er i dag delt inn i en rekke mikrotjenester, men det er worker engine-en som er showets stjerne. I likhet med resten av applikasjonen kjører denne på AWS, og det er her lydbehandlingen, analysen og det meste av innovasjonen foregår.
Som nevnt tidligere bruker selskapet forsterkende læring til å finpusse musikken de blir tilsendt. Kort fortalt dreier forsterkende læring seg om hvordan agenter kan bevege seg rundt i et miljø slik at total belønning maksimeres.
I dette tilfellet består miljøet av tusenvis av ulike mulige lydjusteringer, og total belønning regnes ut av en kostnadsfunksjon som gir en poengsum etter hvor god en master er. Algoritmen vil repetere denne prosessen flere ganger, og gi seg når den ikke klarer å forbedre poengsummen.
Disser NFT i musikkvideo han selger som NFT: - Tror ikke dette er løsningen
Hjelp fra Python-biblioteker
David og Simon mener at en slik fremgangsmåte har flere fordeler, men det er spesielt transparens som trekkes fram. Teknologene utdyper:
– Ved å bruke forsterkende læring kan vi se hvilke avgjørelser algoritmen tok, og ikke minst: hvorfor. Om vi skulle få negativ tilbakemelding på en leveranse kan vi dermed se hvor feilen oppstod, og hvordan vi kan endre kostnadsfunksjonen for å unngå at feilen skjer igjen. Kjernen av arbeidet vårt med mastering handler altså om å gjøre kostnadsfunksjonen mer og mer beslutningsdyktig.
For å utføre dette arbeidet i praksis benytter teamet en rekke Python-biblioteker innen kategoriene tallknusing og lydprosessering. Ved hjelp av slike verktøy kan de automatisere equalizing og compression uten å finne opp hjulet på nytt.
«Å vedlikeholde et representativt datasett viste seg å være svært vanskelig, og vi endte alltid opp med noen merkelige resultater som var vanskelige å rettferdiggjøre.»
Dyp læring fungerte ikke
Dette er imidlertid ikke den første metodikken som gründerne prøvde ut.
I starten eksperimenterte de med dyp læring, en strategi som i stor grad baserer seg på å mønstergjenkjenning, men det viste seg raskt at dette ikke var en strategi som ville fungere for dem.
– Hvis man ønsker å finpusse låter ved hjelp av dyp læring og nevrale nettverk trenger man et enormt datasett for å trene opp nettverket. Å vedlikeholde et representativt datasett viste seg å være svært vanskelig, og vi endte alltid opp med noen merkelige resultater som var vanskelige å rettferdiggjøre.
På andre fronter enn det rent lydmessige har teamet valgt å prioritere enkelhet og ergonomi. De uttrykker et sterkt ønske om å ikke finne opp flere nye hjul enn nødvendig, og har derfor valgt å bygge opp infrastrukturen ved hjelp av tjenerløs Amazon Aurora SQL. SQL er kanskje ikke det hippeste valget i 2022, men det har ikke hindret de gode erfaringene fra å utebli. David utdyper:
– En av hovedgrunnene til at vi gikk for akkurat denne løsningen er at ulike komponenter parallelt kan legge til data på en trygg måte, og i dag lagrer vi det meste av ikke-sensitiv data i denne databasen, inkludert analytics. Den relasjonelle strukturen tvinger oss til å følge ett strengt format, men det er i gjengjeld veldig enkelt å ha med å gjøre.
Ellers går det stort sett i velprøvde og velkjente løsninger. Integrasjon og deployment automatiseres med GitLabs innebygde pipelines, webapplikasjonen er bygget i Nuxt.js, og alt sammen kjører i Docker. Enkelt og effektivt.
- Jeg ble interessert i koding gjennom musikk
En fremtid med Atmos og stordata
Fremtiden for Masterchannel er lys, om vi skal tro dem selv, og de har øynet seg flere vekstområder de ønsker å utforske i løpet av den neste tiden. Ett av disse områdene er musikk i surroundlyd, eller for å være helt presis: Dolby Atmos.
Apple Music har begynt å kreve at musikken er tilgjengelig i dette formatet, og de store plateselskapene har forpliktet seg til å levere. Men å produsere musikk i surroundlyd med dagens manuelle metode er både mer komplekst og dyrere enn ordinær produksjon. Derfor har flere av de samme aktørene uttrykt eksplisitt interesse for en løsning som automagisk fjerner akkurat denne “hodepinen”.
Underveis i arbeidet med denne teknologien har de også oppdaget at maskinlæring og større mengder lyddata kan anvendes til mer enn bare finjustering av lydfiler. Fremover ønsker gründerlaget å sentrere virksomheten mer og mer rundt stordata, og hvordan det kan anvendes til å koble sammen bransje og artist. Simon forklarer:
– Målet er å kunne analysere musikk, og basert på en slik analyse kunne bedømme om det er god musikk, og om det trolig vil slå. Vi samarbeider med flere større aktører i industrien, deriblant Indigoboom, MQA og Amuse, og ser for oss at slik innsikt vil være verdifull for dem.