uubloggen

Er automatisk teksting av video mogleg?

Portrett av Malin Rygg

Malin Rygg

Avdelingsdirektør
Digitaliseringsdirektoratet
Malin Rygg er direktør i Tilsynet for universell utforming av ikt i Digitaliseringsdirektoratet. Malin er jurist med erfaring frå blant anna Konkurransetilsynet og har tidlegare jobba som advokat og dommar.
Telefon
+47 971 97 317

Alle opptak av video skal ha teksting. Dette er eit krav i Noreg etter reglane om universell utforming. Men teksting kan vere ressurskrevjande og vi har derfor undersøkt tre verktøy for automatisk teksting og korleis dei fungerer på norsk.

03. des 2020

Når du legg ut innhald på nett, må du sørge for at innhaldet er universelt utforma. Det handlar blant anna om videoar du publiserer på nettsida, Facebook eller andre kanalar på nett. Dersom videoen er førehandsinnspelt, skal den etter reglane om universell utforming ha teksting eller eit tekstalternativ. Manuell teksting kan vere tid- og ressurskrevjande, men er automatisk teksting mogleg? Vi har sett på tre verktøy for automatisk teksting og vurdert kor god støtte desse gir.

Tre appar som kan tekste på norsk

Når vi tenker at eit program kan tekste automatisk det som blir sagt, snakkar vi om maskinlæring eller talegjenkjenning. Vi har sett ei aukande satsing på talegjenkjenning hos store programvareprodusentar som Apple og Google. Det gjeld særleg innan å bygge virtuelle assistentar som Siri og Google Assistant. Satsinga på desse har vore medverkande til at vi har fått norsk støtte etter kvart, trass i at norsk er eit språk som berre er snakka av 5.32 millionar - ca. 0,058 % - på verdsbasis.

Vi har derfor her valt ut tre mobilapplikasjonar som kan tekste på norsk og gjort ein test av kor godt dei tekstar mot dei utvalde kriteria.

Kriteria for vurdering

Vi har vurdert appane opp mot følgande kriterium:

  1. Kor godt dei treff på teksting av norsk tale
    1. om dei klarer å tekste ulike dialektar
    2. om dei klarer å tekste video tatt opp i omgjevnader med støy
  2. Pris og tilgjengelegheit
  3. Om dei greier å tekste etter krava i WCAG 2.0 sitt suksesskriterium 1.2.2:

Førehandsinnspelt video med lyd, som ikkje er eit mediealternativ til tekst, har alternativ i form av teksting eller tekstalternativ.

Teksting, som enten ligg fast (open teksting) eller som kan slåast på (skjult teksting), skal formidle innhaldet i lyd og bilde:

  • Tale og dialog med markering av kven som snakkar, og lydinnhald som er viktig for å forstå videoen.
  • Vere visuelt synleg, men ikkje forstyrre viktig innhald i videoen.

Det er ikkje krav om eksakt attgiving av innhaldet, men at alt vesentleg innhald er teke med i rett rekkefølge.

Appar som er vurdert

Følgjande appar er vurderte:

  1. Clips (IOS)
  2. AutoCap (IOS og Android)
  3. Live Transcribe (Android)

Vurdering

Clips

Clips er ein videoredigeringsapp utvikla av Apple, tilgjengeleg gratis for iPhone og iPad. Appen har lenge hatt moglegheit for automatisk teksting på store internasjonale språk, men fekk i sommar også støtte for å tekste automatisk på norsk.

I Clips kan du både filme direkte og leggje tekst på allereie eksisterande videoar. For mindre videoar er prosessen relativt rask, sjølv med ein eldre iPhone 6S og det tek berre nokre minuttar å få automatisk generert tekst.

Når det gjeld kvaliteten på sjølve tekstinga, er det heilt klart at appen er avhengig av så støyfri bakgrunn som mogleg. I tillegg slit den med faguttrykk og ein del ord på dialekt. Ei anna avgrensing er at Clips berre kan tekste til bokmål.

Den greier heller ikkje å automatisk markere kven som snakkar eller fange opp viktige lydar. Du vil på den måten ikkje få automatisk teksting som er fullt i samsvar med krava i WCAG, men heller eit godt utgangspunkt for vidare arbeid.

Tabell 1: Vurdering av Clips.

Kriterium

Vurdering

Norsk tale

Gjer generelt ein god jobb med å identifisere norsk tale, men slit med faguttrykk og ord på dialekt. Kan berre lage tekst på bokmål, og gjer ein markant dårlegare jobb i omgivnader med bakgrunnsstøy.

Pris og tilgjengelegheit

Gratis, finnast berre for iOS.

WCAG 2.0 krav

Klarer ikkje å gi att viktige lydar og å identifisere kven som snakkar.

AutoCap

AutoCap er ein gratis app for automatisk teksting laga av Eli Leszczynski, og tilgjengeleg for mobilar og nettbrett som køyrer Android og IOS. I motsetning til Clips er dette ein meir rein app for teksting og du kan også her tekste både nyinnspelingar og videoar du har frå før. Ytinga i denne appen er samanliknbar med ytinga til Clips.

Under testen kjem det fort fram at denne ikkje er like presis på å fange opp norsk språk som dei to andre appane i testen. Dette merkast både gjennom fleire feil ordval og meir feil teiknsetting. På same måte som Clips presterer AutoCap dårlegare i omgjevnader med støy og kan berre lage tekst på bokmål.

AutoCap har heller ikkje funksjonalitet for å automatisk markere kven som snakkar eller fange opp viktige lydar. Som med Clips betyr det at du også her ikkje automatisk får teksting som er fullt i samsvar med krava i WCAG, men meir eit utgangspunkt for vidare arbeid.

Tabell 2: Vurdering av AutoCap.

Kriterium

Vurdering

Norsk tale

Gjer ein noko dårlegare jobb enn Clips og Live Transcribe med norsk tale, noko som merkast gjennom fleire feil ordval og meir feil teiknsetting. Kan berre lage tekst på bokmål, og som de andre slit også denne i bakgrunnsstøy.

Pris og tilgjengelegheit

Gratis, finnast for både Android og iOS.

WCAG 2.0 krav

Klarer ikkje å gje att viktige lyder og å identifisere kven som snakkar.

Live Transcribe

Live Transcribe er ein gratis app for å lage live transkribering til Android nettbrett og mobilar. Appen er blitt til som eit samarbeid mellom Google research og amerikanske Gallaudet University, eit spesialuniversitet for døve og høyrselshemma i USA. I motsetnad til dei to andre appane som er testa her, kan denne transkribere også rein lyd. Dette gjer den ved at den omset lyddata direkte frå ein mikrofon, enten via den innebygde mikrofonen i mobilen, eller via ein ekstern mikrofon kopla til mobilen. Dette betyr at du ikkje kan laste inn ein video direkte i appen, men må spele den av med lyd på, medan du tek opp lyd ved hjelp av mikrofonen for å få laga ein transkripsjon. Minuset med denne måten er at du ikkje får automatisk synkronisert video og bilde, slik dei to andre appane kan.

Fordelen er at den kan brukast til meir enn video, den kan for eksempel transkribere podkastar eller live lyd frå møter. Som dei to andre appane i testen, kan den berre transkribere til bokmål. Som den einaste av dei tre appane kan det likevel kjenne att lydar som kviskring, klapping og banking. Den greier likevel ikkje å vurdere kor viktige desse lydane er, men den er nærmare å oppfylle WCAG-kravet om at også viktige lydar skal vere ein del av tekstinga. Den greier likevel ikkje å fange opp kven som snakkar, eller når ein dialog skifter fort mellom fleire ulike personar.

Når det gjeld kvaliteten på språket, er den på høgde med, og tidvis litt meir presis enn Clips, og merkbart betre enn AutoCap når det kjem til ordval og teiknsetting. Som med dei to andre slit også denne med faguttrykk og dialektar. I tillegg, sidan den brukar lyd direkte frå mikrofonen, er den noko meir var for støy enn dei to andre appane, spesielt ved bruk av den innebygde mikrofonen i mobilen.

Tabell 3: Live Transcribe

Kriterium

Vurdering

Norsk tale

Testens beste på norsk tale, men som dei to andre slit også denne med ein del faguttrykk og ord på dialekt. Kan berre lage tekst på bokmål og gir ingen autosynkronisering av tekst og video. Som dei andre blir nøyaktigheita markant dårlegare i omgivnader med bakgrunnsstøy.

Pris og tilgjengelegheit

Gratis, finnast berre for Android.

WCAG 2.0 krav

Klarer ikkje å gje att viktige lyder og å identifisere kven som snakkar.

Oppsummering av vurderinga

Med den siste utviklinga innan talegjenkjenning har appar for automatisk teksting kome langt på kort tid, og støtta for norsk språk begynnar å kome seg. Det er likevel eit stykke igjen til appane kan gjere heile jobben med å tekste ein video fullt ut automatisk. Ulike dialektar, fagspråk og bakgrunnsstøy er element som appane enno ikkje løyser fullgodt. I tillegg vil krava om at det skal markerast kven som snakkar og at viktige lydar skal med i tekstinga, bety at ein enno må gjere ein del manuelt arbeid for å lage teksting som er fullt i samsvar med krava.

Desse appane kan likevel vere god hjelp som verdifull støtte til arbeidet med å tekste video. Du kan bruke appane til å lage råutkast for vidare redigering og slik sett spare tid. Tida vil vise korleis maskinlæring utviklar seg vidare og om slike appar kan bli betre.

Vi er klare over at det er mange ulike løysingar som finst der ute og ulike som er under utprøving. Har du funne noko som fungerer for deg, tips oss gjerne på e-post til post@uutilsynet.no. Vi vil gjerne følge med på det du brukar i din kvardag.

Portrett av Malin Rygg

Malin Rygg

Avdelingsdirektør
Digitaliseringsdirektoratet
Malin Rygg er direktør i Tilsynet for universell utforming av ikt i Digitaliseringsdirektoratet. Malin er jurist med erfaring frå blant anna Konkurransetilsynet og har tidlegare jobba som advokat og dommar.
Telefon
+47 971 97 317

Skriv ny kommentar

* obligatorisk felt som du må fylle ut for å sende skjemaet.

Innhaldet i dette feltet er privat og kan ikkje lesast av andre.

Rein tekst

  • HTML-koder er ikkje aktivert.
  • Linjer og avsnitt blir automatisk behaldt.
  • Web page addresses and email addresses turn into links automatically.