Articles

Ce este WER? Ce înseamnă rata de eroare a cuvintelor?

Tehnologia de recunoaștere automată a vorbirii (ASR) utilizează mașini și software pentru a identifica și procesa limbajul vorbit. De asemenea, poate fi utilizată pentru a autentifica identitatea unei persoane prin vocea sa. Această tehnologie a avansat semnificativ în ultimii ani, dar nu dă întotdeauna rezultate perfecte.

În procesul de recunoaștere a vorbirii și de traducere a acesteia în formă de text, unele cuvinte pot fi omise sau traduse greșit. Dacă ați utilizat ASR într-o anumită capacitate, probabil că ați întâlnit expresia „rata de eroare a cuvintelor” (WER).

Să aruncăm o privire asupra ideii de WER, cum se calculează și de ce contează.

Cum se calculează rata de eroare a cuvintelor de bază?

Poate părea o idee complicată, dar metoda de calcul a WER de bază este de fapt destul de simplă. Practic, WER este numărul de erori împărțit la numărul total de cuvinte.

Pentru a obține WER, începeți prin a aduna substituțiile, inserțiile și eliminările care apar într-o secvență de cuvinte recunoscute. Împărțiți acest număr la numărul total de cuvinte rostite inițial. Rezultatul este WER.

Pentru a-l pune într-o formulă simplă, Word Error Rate = (Substitutions + Insertions + Deletions) / Number of Words Spoken

Dar cum se adună acești factori? Să ne uităm la fiecare dintre ei:

  • O substituție are loc atunci când un cuvânt este înlocuit (de exemplu, „noose” este transcris ca „moose”)
  • O inserție este atunci când se adaugă un cuvânt care nu a fost rostit (de exemplu, „SAT” devine „ceai eseu”)
  • O ștergere are loc atunci când un cuvânt este omis complet din transcriere (de exemplu, „turn it around” devine „întoarce-te”)

Să spunem că o persoană rostește în total 29 de cuvinte într-un fișier de transcriere original. Dintre aceste cuvinte rostite, transcrierea a inclus 11 substituiri, inserții și eliminări.

Google Speech Recognition WER

Google Speech Recognition WER

Pentru a obține WER pentru acea transcriere, veți împărți 11 la 29 pentru a obține 0,379. Aceasta se rotunjește la 0,38, ceea ce face ca WER să fie de 38%.

De unde provine calculul ratei de eroare a cuvintelor?

Calculul WER se bazează pe o măsurătoare numită „distanța Levenshtein”. Distanța Levenshtein este o măsurătoare a diferențelor dintre două „șiruri”. În acest caz, șirurile sunt secvențe de litere care alcătuiesc cuvintele dintr-o transcriere.

Să ne uităm la exemplele de erori pe care le-am folosit mai devreme: „noose” și „moose”. Deoarece doar o singură literă este schimbată, distanța Levenshtein este de doar 1. Distanța Levenshtein este de peste patru ori mai mare pentru „SAT” și „ceai eseu”, deoarece în transcriere „SA” devine „eseu” prin adăugarea a 3, iar „T” devine „ceai” prin adăugarea a 2.

De ce contează rata de eroare a cuvintelor?

WER este o măsurătoare importantă și comună folosită pentru a măsura performanța API-urilor de recunoaștere a vorbirii folosite pentru a alimenta tehnologia interactivă bazată pe voce, cum ar fi Siri sau Amazon Echo.

Un WER mai mic indică adesea faptul că software-ul ASR este mai precis în recunoașterea vorbirii. Prin urmare, un WER mai mare indică adesea o acuratețe mai scăzută a ASR.

Cercetătorii, dezvoltatorii și alte persoane care utilizează tehnologia ASR pot lua în considerare WER atunci când aleg un produs pentru un anumit scop. Dezvoltatorii ASR pot, de asemenea, să calculeze și să urmărească WER în timp pentru a măsura modul în care software-ul lor s-a îmbunătățit.

WER poate fi, de asemenea, utilizat la nivelul consumatorilor, pentru a ajuta la alegerea unui serviciu de transcriere automată sau a unei aplicații ASR.

Este rata de eroare a cuvintelor o modalitate bună de a măsura acuratețea?

După cum am văzut, WER poate fi foarte important pentru alegerea unui serviciu de transcriere sau ASR. Cu toate acestea, nu este singurul factor pe care ar trebui să îl utilizați atunci când decideți cât de precis poate fi un serviciu sau un software. Iată câteva motive pentru care:

Sursa erorilor

WER nu ține cont de motivul pentru care pot apărea erori. Factorii care pot afecta WER, fără a reflecta neapărat capacitățile tehnologiei ASR în sine, includ:

  • Calitatea înregistrării
  • Calitatea microfonului
  • Pronunțarea vorbitorului
  • Zgomotul de fond
  • Nume neobișnuite, locații, și alte nume proprii
  • Termeni tehnici sau specifici industriei

WER Word Error Rate Microphone

WER Word Error Rate Microphone

Interpretare umană

În funcție de modul în care este utilizat software-ul ASR, este posibil ca erorile să nu afecteze semnificativ capacitatea de utilizare. Dacă un utilizator uman poate citi o transcriere plină de erori și totuși să înțeleagă sensul original al vorbitorului, atunci chiar și un WER ridicat nu interferează cu utilitatea ASR.

Rata de eroare a cuvintelor este un calcul important de făcut atunci când vine vorba de utilizarea tehnologiei de recunoaștere vocală, dar este important să se ia în considerare și alți factori și contextul.

Cum se situează Rev?

Pentru a calcula WER a API Rev.ai și pentru a o compara cu alte opțiuni ASR, am ales 30 de episoade reprezentative din mai multe podcast-uri populare. Am creat mai întâi o transcriere de referință generată de oameni, textuală, prin intermediul Rev.com. Apoi, am rulat fiecare fișier audio prin Rev.ai, modelul video al Google și Speechmatics pentru a crea transcrieri ASR. După aceea, am comparat fiecare cuvânt din transcrierile ASR cu transcrierile de referință pentru a obține WER.

Iată rezultatele medii ale WER:

  • Rev.ai: 16,6%
  • Modelul video Google: 18,0%
  • Speechmatics: 20,6%

Rezultatele specifice au variat în funcție de episodul de podcast, dar suntem încântați să spunem că API-ul de recunoaștere automată a vorbirii de la Rev face față provocării.

Dacă aveți și alte întrebări despre WER, despre API-ul de conversie a vorbirii în text de la Rev sau despre serviciile noastre de transcriere umană de pe Rev.com, nu ezitați să ne contactați în orice moment. De asemenea, puteți începe cu ușurință acum cu serviciile noastre de transcriere automată.