Articles

Mi a WER? Mit jelent a szóhibaarány?

Az automatikus beszédfelismerő (ASR) technológia gépeket és szoftvereket használ a beszélt nyelv azonosítására és feldolgozására. Arra is használható, hogy egy személy személyazonosságát a hangja alapján hitelesítse. Ez a technológia az elmúlt években jelentősen fejlődött, de nem mindig hoz tökéletes eredményeket.

A beszéd felismerése és szöveges formára történő fordítása során egyes szavak kimaradhatnak vagy rosszul fordíthatók. Ha használt már ASR-t valamilyen formában, valószínűleg találkozott már a “szóhibaarány” (word error rate, WER) kifejezéssel.

Vessünk egy pillantást a WER fogalmára, a kiszámítására és arra, hogy miért fontos.

Hogyan számítjuk ki az alapvető szóhibaarányt?

Bonyolultnak tűnhet, de az alapvető WER kiszámításának módszere valójában nagyon egyszerű. Alapvetően a WER a hibák száma osztva az összes szóval.

A WER kiszámításához kezdjük a felismert szavak sorozatában előforduló helyettesítések, beszúrások és törlések összeadásával. Osszuk el ezt a számot az eredetileg elhangzott szavak teljes számával. Az eredmény a WER.

Egy egyszerű képletben: Word Error Rate = (Substitutions + Insertions + Deletions) / Number of Words Spoken

De hogyan adjuk össze ezeket a tényezőket? Nézzük meg mindegyiket:

  • Helyettesítésről akkor beszélünk, amikor egy szót kicserélünk (például a “hurok” átírása “jávorszarvas”)
  • Beillesztésről akkor beszélünk, amikor egy olyan szót adunk hozzá, amit nem mondtunk ki (például, “SAT” “esszé tea” lesz)
  • Törlés akkor történik, amikor egy szó teljesen kimarad az átiratból (például a “turn it around” “fordulj meg” lesz)

Tegyük fel, hogy egy személy összesen 29 szót mond az eredeti átírási fájlban. Az elhangzott szavak között az átirat 11 helyettesítést, beillesztést és törlést tartalmazott.

Google Speech Recognition WER

Google Speech Recognition WER

Az átírás WER értékének kiszámításához 11-et el kell osztani 29-gyel, így kapjuk a 0,379-et. Ez kerekítve 0,38, így a WER 38 százalék.

Honnan származik a szóhibaarány kiszámítása?

A WER-számítás a “Levenshtein-távolság” nevű mérésen alapul. A Levenshtein-távolság két “karakterlánc” közötti különbség mérése. Ebben az esetben a karakterláncok olyan betűsorozatok, amelyek egy átiratban a szavakat alkotják.

Nézzük meg a korábban használt hibapéldákat: “hurok” és “jávorszarvas”. Mivel csak egyetlen betű változik, a Levenshtein-távolság csak 1. A Levenshtein-távolság több mint négyszer akkora a “SAT” és az “esszé tea” esetében, mivel az átírásban az “SA”-ból 3 hozzáadásával “esszé” lesz, a “T”-ből pedig 2 hozzáadásával “tea”.

Miért számít a szóhibák aránya?

A WER egy fontos, gyakori mérőszám, amelyet az interaktív hangalapú technológiák, például a Siri vagy az Amazon Echo működtetéséhez használt beszédfelismerő API-k teljesítményének mérésére használnak.

A kisebb WER gyakran azt jelzi, hogy az ASR-szoftver pontosabban ismeri fel a beszédet. A magasabb WER tehát gyakran alacsonyabb ASR pontosságot jelez.

A tudósok, fejlesztők és mások, akik ASR technológiát használnak, figyelembe vehetik a WER-t, amikor egy terméket választanak egy adott célra. Az ASR-fejlesztők is kiszámíthatják és nyomon követhetik a WER-t az idő múlásával, hogy mérjék, hogyan fejlődött a szoftverük.

A WER fogyasztói szinten is használható, hogy segítsen egy automatikus átírási szolgáltatás vagy ASR-alkalmazás kiválasztásában.

A szóhibaarány jó módszer a pontosság mérésére?

Amint láttuk, a WER nagyon fontos lehet egy átírási vagy ASR-szolgáltatás kiválasztásában. Azonban nem ez az egyetlen tényező, amelyet figyelembe kell vennie annak eldöntésekor, hogy mennyire pontos egy szolgáltatás vagy szoftver. Íme néhány ok, amiért:

A hibák forrása

A WER nem veszi figyelembe azt az okot, amiért a hibák előfordulhatnak. A WER-t befolyásoló tényezők, amelyek nem feltétlenül tükrözik magának a ASR-technológiának a képességeit, a következők:

  • A felvétel minősége
  • Mikrofon minősége
  • A beszélő kiejtése
  • Háttérzaj
  • Szokatlan nevek, helyek, és egyéb tulajdonnevek
  • Technikai vagy iparág-specifikus kifejezések

WER Word Error Rate Microphone

WER Word Error Rate Microphone

Az emberi értelmezés

Az ASR-szoftver használatának módjától függően a hibák nem befolyásolhatják jelentősen a használhatóságot. Ha egy emberi felhasználó képes elolvasni egy hibákkal teli átiratot, és mégis megérti a beszélő eredeti jelentését, akkor még a magas WER sem zavarja az ASR hasznosságát.

A szóhibaarány fontos számítás a beszédfelismerő technológia használatakor, de fontos figyelembe venni más tényezőket és a kontextust is.

Hogyan teljesít a Rev?

A Rev.ai API WER-értékének kiszámításához és más ASR-lehetőségekkel való összehasonlításához 30 reprezentatív epizódot választottunk ki több népszerű podcastból. Először egy ember által generált, szó szerinti referencia-átiratot készítettünk a Rev.com segítségével. Ezután minden egyes hangfájlt lefuttattunk a Rev.ai, a Google videomodellje és a Speechmatics segítségével, hogy ASR-átiratokat hozzunk létre. Ezután az ASR átiratok minden egyes szavát összehasonlítottuk a referencia átiratokkal, hogy megkapjuk a WER-t.

Itt vannak az átlagos WER eredmények:

  • Rev.ai: 16.6%
  • Google videó modell: 18,0%
  • Speechmatics: 20,6%

A konkrét eredmények podcast epizódonként változnak, de örömmel mondhatjuk, hogy a Rev automatikus beszédfelismerő APIja megállja a helyét.

Ha további kérdései vannak a WER-rel, a Rev beszédből szövegbe API-jával vagy a Rev.com-on található emberi átírási szolgáltatásainkkal kapcsolatban, bármikor forduljon hozzánk bizalommal. Automatikus átírási szolgáltatásainkat is könnyedén elkezdheti most.