Co je WER? Co znamená Word Error Rate?
Technologie automatického rozpoznávání řeči (ASR) využívá stroje a software k identifikaci a zpracování mluvené řeči. Lze ji také použít k ověření totožnosti osoby podle jejího hlasu. Tato technologie v posledních letech výrazně pokročila, ale ne vždy přináší dokonalé výsledky.
V procesu rozpoznávání řeči a jejího převodu do textové podoby mohou být některá slova vynechána nebo chybně přeložena. Pokud jste někdy používali ASR, pravděpodobně jste se setkali s výrazem „chybovost slov“ (word error rate, WER).
Podívejme se na myšlenku WER, jak ji vypočítat a proč je důležitá.
Jak vypočítat základní chybovost slov?
Může se to zdát jako složitá myšlenka, ale metoda výpočtu základní WER je ve skutečnosti docela jednoduchá. V podstatě je WER počet chyb vydělený celkovým počtem slov.
Chcete-li získat WER, začněte tím, že sečtete záměny, vložení a vymazání, které se vyskytnou v posloupnosti rozpoznaných slov. Tento počet vydělte celkovým počtem původně vyslovených slov. Výsledkem je WER.
Podle jednoduchého vzorce: Míra chybovosti slov = (substituce + inzerce + delece) / počet vyslovených slov
Ale jak tyto faktory sečíst? Podívejme se na každý z nich:
- K substituci dochází, když je slovo nahrazeno (například „noose“ je přepsáno jako „moose“)
- Vložení je, když je přidáno slovo, které nebylo řečeno (např, „SAT“ se stane „essay tea“)
- K vypuštění dojde, když je slovo z přepisu zcela vypuštěno (například „turn it around“ se stane „turn around“)
Řekněme, že osoba v původním souboru přepisu řekne celkem 29 slov. Mezi těmito vyslovenými slovy bylo v přepisu 11 záměn, vložení a vypuštění.
Chcete-li získat hodnotu WER pro tento přepis, vydělíte 11 číslem 29 a získáte hodnotu 0,379. To se zaokrouhlí na 0,38, takže WER je 38 procent.
Kde se vzal výpočet chybovosti slov?
Výpočet WER je založen na měření zvaném „Levenštejnova vzdálenost“. Levenštejnova vzdálenost je měření rozdílů mezi dvěma „řetězci“. V tomto případě jsou řetězci posloupnosti písmen, které tvoří slova v přepisu.
Podívejme se na příklady chyb, které jsme použili dříve: „noose“ a „moose“. Protože se změnilo jen jedno písmeno, je Levenštejnova vzdálenost pouze 1. U slov „SAT“ a „essay tea“ je Levenštejnova vzdálenost více než čtyřikrát větší, protože v přepisu se z „SA“ přidáním 3 stane „essay“ a z „T“ přidáním 2 „tea“.
Proč záleží na chybovosti slov?
WER je důležitá, běžná metrika používaná k měření výkonnosti rozhraní API pro rozpoznávání řeči, které se používá pro interaktivní hlasové technologie, jako je Siri nebo Amazon Echo.
Nižší WER často znamená, že software ASR je při rozpoznávání řeči přesnější. Vyšší WER pak často znamená nižší přesnost ASR.
Vědci, vývojáři a další, kteří používají technologii ASR, mohou při výběru produktu pro konkrétní účel zohlednit WER. Vývojáři ASR mohou také počítat a sledovat WER v průběhu času, aby mohli měřit, jak se jejich software zlepšil.
WER lze také použít na úrovni spotřebitelů, jako pomůcku při výběru služby automatického přepisu nebo aplikace ASR.
Je chybovost slov dobrým způsobem měření přesnosti?
Jak jsme viděli, WER může být velmi důležitá pro výběr služby přepisu nebo ASR. Není však jediným faktorem, který byste měli použít při rozhodování o tom, jak přesná služba nebo software může být. Zde je několik důvodů proč:
Zdroj chyb
WER nezohledňuje důvod, proč může dojít k chybám. Mezi faktory, které mohou ovlivnit WER, aniž by nutně odrážely schopnosti samotné technologie ASR, patří např:
- Kvalita záznamu
- Kvalita mikrofonu
- Výslovnost mluvčího
- Šum na pozadí
- Neobvyklá jména, místa, a jiná vlastní jména
- Technické nebo oborově specifické termíny
Lidská interpretace
V závislosti na způsobu použití softwaru ASR nemusí chyby významně ovlivnit použitelnost. Pokud lidský uživatel dokáže přečíst přepis plný chyb a přesto porozumí původnímu významu mluvčího, pak ani vysoká hodnota WER nenarušuje užitečnost ASR.
Počet chybovosti slov je důležitým výpočtem při používání technologie rozpoznávání řeči, ale je důležité vzít v úvahu i další faktory a kontext.
Jak si vede Rev?
Pro výpočet WER rozhraní API Rev.ai a srovnání s jinými možnostmi ASR jsme vybrali 30 reprezentativních epizod z několika populárních podcastů. Nejprve jsme prostřednictvím služby Rev.com vytvořili doslovný referenční přepis vytvořený člověkem. Poté jsme každý zvukový soubor prohnali přes Rev.ai, videomodel společnosti Google a Speechmatics, abychom vytvořili přepisy ASR. Poté jsme porovnali každé slovo přepisů ASR s referenčními přepisy, abychom získali WER.
Tady jsou průměrné výsledky WER:
- Rev.ai: 16,6 %
- Video model Google:
Pokud máte další otázky týkající se WER, rozhraní API pro převod řeči na text společnosti Rev nebo našich služeb přepisu řeči lidmi na webu Rev.com, neváhejte nás kdykoli kontaktovat. Můžete také nyní snadno začít využívat naše služby automatického přepisu.