Vad är WER? Vad betyder Word Error Rate?
Automatisk taligenkänningsteknik (ASR) använder maskiner och programvara för att identifiera och bearbeta talat språk. Den kan också användas för att autentisera en persons identitet med hjälp av dennes röst. Denna teknik har utvecklats avsevärt under de senaste åren, men ger inte alltid perfekta resultat.
I processen att känna igen tal och översätta det till textform kan vissa ord utelämnas eller översättas fel. Om du har använt ASR på något sätt har du förmodligen stött på uttrycket ”word error rate” (WER).
Låt oss ta en titt på idén om WER, hur man beräknar den och varför den är viktig.
Hur beräknar man grundläggande ordfelsfrekvens?
Det kan tyckas vara en komplicerad idé, men metoden för att beräkna grundläggande WER är faktiskt ganska enkel. I grund och botten är WER antalet fel dividerat med det totala antalet ord.
För att få fram WER börjar du med att summera de substitutioner, infogningar och borttagningar som sker i en sekvens av erkända ord. Dela detta antal med det totala antalet ord som ursprungligen talades. Resultatet är WER.
För att uttrycka det i en enkel formel: Word Error Rate = (Substitutions + Insertions + Deletions) / Number of Words Spoken
Men hur summerar man dessa faktorer? Låt oss titta på var och en av dem:
- En substitution sker när ett ord ersätts (till exempel ”noose” transkriberas som ”moose”)
- En insättning sker när ett ord läggs till som inte har sagts (till exempel, ”SAT” blir ”essay tea”)
- En strykning sker när ett ord utelämnas helt ur transkriptionen (till exempel ”turn it around” blir ”turn around”)
Då säg att en person talar totalt 29 ord i en ursprunglig transkriberingsfil. Bland de talade orden innehöll transkriptionen 11 utbyten, infogningar och borttagningar.
För att få fram WER för den transkriptionen skulle du dividera 11 med 29 för att få 0,379. Det avrundar uppåt till 0,38, vilket gör WER till 38 procent.
Varifrån kommer beräkningen av ordfelprocenten?
Beräkningen av WER baseras på ett mått som kallas ”Levenshtein-avstånd”. Levenshteinavståndet är ett mått på skillnaderna mellan två ”strängar”. I det här fallet är strängarna sekvenser av bokstäver som utgör orden i en transkription.
Vi tittar på de felexempel som vi använde tidigare: ”noose” och ”moose”. Eftersom bara en enda bokstav ändras är Levenshteinavståndet bara 1. Levenshteinavståndet är mer än fyra gånger så stort för ”SAT” och ”essay tea”, eftersom ”SA” i transkriptionen blir till ”essay” genom att lägga till 3, och ”T” blir till ”tea” genom att lägga till 2.
Varför spelar felfrekvensen för ord en roll?
WER är ett viktigt och vanligt mått som används för att mäta prestandan hos de API:er för taligenkänning som används för att driva interaktiv röstbaserad teknik, som Siri eller Amazon Echo.
Lägre WER-värde indikerar ofta att ASR-programvaran är mer exakt när det gäller att känna igen tal. En högre WER indikerar alltså ofta lägre ASR-precision.
Vetenskapsmän, utvecklare och andra som använder ASR-teknik kan ta hänsyn till WER när de väljer en produkt för ett visst ändamål. ASR-utvecklare kan också beräkna och spåra WER över tiden för att mäta hur deras programvara har förbättrats.
WER kan också användas på konsumentnivå, för att hjälpa till när man väljer en automatisk transkriptionstjänst eller ASR-app.
Är ordfelsfrekvens ett bra sätt att mäta noggrannhet?
Som vi har sett kan WER vara mycket viktigt för att välja en transkriberings- eller ASR-tjänst. Det är dock inte den enda faktorn du bör använda när du bestämmer hur noggrann en tjänst eller programvara kan vara. Här är några skäl till varför:
Felskälla till fel
WER tar inte hänsyn till orsaken till varför fel kan uppstå. Faktorer som kan påverka WER, utan att nödvändigtvis återspegla kapaciteten hos själva ASR-tekniken, är bland annat följande:
- Inspelningskvalitet
- Mikrofonkvalitet
- Talarens uttal
- Bakgrundsbrus
- Ovanliga namn, platser, och andra egennamn
- Tekniska eller branschspecifika termer
Mänsklig tolkning
Avhängigt av hur ASR-mjukvaran används kan det hända att felen inte påverkar användbarheten nämnvärt. Om en mänsklig användare kan läsa en utskrift full av fel och ändå förstå talarens ursprungliga innebörd, stör inte ens en hög felfrekvens ASR:s användbarhet.
Felfrekvens för ord är en viktig beräkning att göra när det gäller användning av taligenkänningsteknik, men det är viktigt att ta hänsyn till andra faktorer och sammanhang.
Hur står sig Rev?
För att beräkna WER för Rev.ai API och jämföra det med andra ASR-alternativ valde vi 30 representativa avsnitt från flera populära podcasts. Vi skapade först en mänskligt genererad, ordagrann referenstranskription via Rev.com. Därefter körde vi varje ljudfil genom Rev.ai, Googles videomodell och Speechmatics för att skapa ASR-transkriptioner. Därefter jämförde vi varje ord i ASR-utskrifterna med referensutskrifterna för att få fram WER.
Här är de genomsnittliga WER-resultaten:
- Rev.ai: 16,6 %
- Google Videomodell: 18.0%
- Speechmatics: 20.6%
De specifika resultaten varierade beroende på podcastavsnitt, men vi är glada att kunna säga att Rev’s API för automatisk taligenkänning klarar av utmaningen.
Om du har andra frågor om WER, Rev’s API för tal-till-text-återgivning eller våra tjänster för mänsklig transkription på Rev.com, är du välkommen att kontakta oss när som helst. Du kan också enkelt komma igång nu med våra automatiska transkriptionstjänster.