Articles

Wat is WER? Wat betekent woordfoutenpercentage?

Automatische spraakherkenning (ASR)-technologie maakt gebruik van machines en software om gesproken taal te identificeren en te verwerken. Deze technologie kan ook worden gebruikt om de identiteit van een persoon aan de hand van zijn stem te verifiëren. Deze technologie is de laatste jaren sterk verbeterd, maar levert niet altijd perfecte resultaten op.

In het proces van het herkennen van spraak en het vertalen ervan in tekstvorm, kunnen sommige woorden worden weggelaten of verkeerd worden vertaald. Als u ASR op de een of andere manier hebt gebruikt, bent u waarschijnlijk wel eens de uitdrukking “word error rate” (WER) tegengekomen.

Laten we eens kijken naar het idee van WER, hoe het te berekenen, en waarom het van belang is.

Hoe bereken je basis woordfoutenpercentage?

Het lijkt misschien een ingewikkeld idee, maar de methode voor het berekenen van basis WER is eigenlijk vrij eenvoudig. In principe is WER het aantal fouten gedeeld door het totale aantal woorden.

Om de WER te krijgen, begint u met het optellen van de substituties, invoegingen en verwijderingen die in een reeks van herkende woorden voorkomen. Deel dat getal door het totale aantal oorspronkelijk gesproken woorden. Het resultaat is de WER.

Om het in een simpele formule te zeggen: Word Error Rate = (Vervangingen + Toevoegingen + Verwijderingen) / Aantal Gesproken Woorden

Maar hoe tel je die factoren bij elkaar op? Laten we eens naar elk kijken:

  • Een vervanging treedt op wanneer een woord wordt vervangen (bijvoorbeeld, “strop” wordt getranscribeerd als “eland”)
  • Een invoeging is wanneer een woord wordt toegevoegd dat niet werd gezegd (bijvoorbeeld, “SAT” wordt “essay tea”)
  • Er is sprake van een schrapping wanneer een woord volledig uit het transcript wordt weggelaten (bijvoorbeeld “turn it around” wordt “turn around”)

Stel dat een persoon in totaal 29 woorden spreekt in een oorspronkelijk transcriptiebestand. Onder deze gesproken woorden, bevat de transcriptie 11 substituties, invoegingen en verwijderingen.

Google Speech Recognition WER

Google Speech Recognition WER

Om de WER voor die transcriptie te krijgen, zou u 11 door 29 delen om 0,379 te krijgen. Dat is afgerond .38, dus de WER is 38 procent.

Waar komt de berekening van het woordfoutenpercentage vandaan?

De WER-berekening is gebaseerd op een meting die Levenshtein-afstand heet. De Levenshtein-afstand is een meting van de verschillen tussen twee “reeksen”. In dit geval zijn de reeksen letters die de woorden in een transcriptie vormen.

Laten we eens kijken naar de foutvoorbeelden die we eerder hebben gebruikt: “strop” en “eland.” Omdat slechts een enkele letter is veranderd, is de Levenshtein-afstand slechts 1. De Levenshtein-afstand is meer dan vier keer zo groot voor “SAT” en “essay thee,” omdat in transcriptie “SA” “essay” wordt door 3 toe te voegen, en “T” “thee” wordt door 2 toe te voegen.

Waarom doet het woordfoutenpercentage ertoe?

WER is een belangrijke, veelgebruikte maatstaf voor het meten van de prestaties van de spraakherkennings-API’s die worden gebruikt voor interactieve spraakgestuurde technologie, zoals Siri of de Amazon Echo.

Lager WER geeft vaak aan dat de ASR-software nauwkeuriger is in het herkennen van spraak. Een hogere WER duidt dus vaak op een lagere ASR-nauwkeurigheid.

Wetenschappers, ontwikkelaars en anderen die ASR-technologie gebruiken, kunnen WER in overweging nemen bij het kiezen van een product voor een specifiek doel. ASR-ontwikkelaars kunnen ook WER in de loop van de tijd berekenen en bijhouden om te meten hoe hun software is verbeterd.

WER kan ook op consumentenniveau worden gebruikt, om te helpen bij het kiezen van een automatische transcriptiedienst of ASR-app.

Is woordfoutenpercentage een goede manier om nauwkeurigheid te meten?

Zoals we hebben gezien, kan WER erg belangrijk zijn voor het kiezen van een transcriptie- of ASR-dienst. Het is echter niet de enige factor die u moet gebruiken om te bepalen hoe nauwkeurig een dienst of software kan zijn. Hier zijn een paar redenen waarom:

Bron van fouten

WER houdt geen rekening met de reden waarom fouten kunnen optreden. Factoren die WER kunnen beïnvloeden, zonder noodzakelijkerwijs de mogelijkheden van de ASR-technologie zelf weer te geven, zijn onder meer:

  • Opnamekwaliteit
  • Microfoonkwaliteit
  • Uitspraak van de spreker
  • Achtergrondruis
  • Ongewone namen, locaties, en andere eigennamen
  • Technische of industriespecifieke termen

WER Word Error Rate Microphone

Menselijke interpretatie

Afhankelijk van hoe de ASR-software wordt gebruikt, zullen fouten de bruikbaarheid niet significant beïnvloeden. Als een menselijke gebruiker een transcript vol fouten kan lezen en toch de oorspronkelijke betekenis van de spreker kan begrijpen, dan is zelfs een hoge WER niet van invloed op het nut van de ASR.

Word error rate is een belangrijke berekening bij het gebruik van spraakherkenningstechnologie, maar het is belangrijk om ook andere factoren en de context in aanmerking te nemen.

Hoe doet Rev het?

Om de WER van de Rev.ai API te berekenen en te vergelijken met andere ASR-opties, kozen we 30 representatieve afleveringen van verschillende populaire podcasts. We hebben eerst een door mensen gegenereerd, woordelijk referentietranscript gemaakt via Rev.com. Vervolgens hebben we elk audiobestand door Rev.ai, Google’s videomodel en Speechmatics laten lopen om ASR-transcripties te maken. Daarna vergeleken we elk woord van de ASR-transcripten met de referentietranscripten om de WER te krijgen.

Hier zijn de gemiddelde WER-resultaten:

  • Rev.ai: 16,6%
  • Google Videomodel: 18,0%
  • Speechmatics: 20,6%

Specifieke resultaten varieerden per podcastaflevering, maar we zijn blij te kunnen zeggen dat de automatische spraakherkenning-API van Rev de uitdaging aankan.

Als u andere vragen hebt over WER, de spraak-naar-tekst-API van Rev, of onze menselijke transcriptiediensten op Rev.com, neem dan gerust contact met ons op. U kunt nu ook eenvoudig aan de slag met onze automatische transcriptiediensten.