Articles

Co to jest WER? Co oznacza Współczynnik Błędów Słownych?

Technologia automatycznego rozpoznawania mowy (ASR) wykorzystuje maszyny i oprogramowanie do identyfikacji i przetwarzania języka mówionego. Może być również wykorzystywana do uwierzytelniania tożsamości osoby na podstawie jej głosu. Technologia ta znacznie się rozwinęła w ostatnich latach, ale nie zawsze daje doskonałe rezultaty.

W procesie rozpoznawania mowy i tłumaczenia jej na postać tekstową, niektóre słowa mogą zostać pominięte lub błędnie przetłumaczone. Jeśli używałeś ASR w jakimś charakterze, prawdopodobnie spotkałeś się z wyrażeniem „współczynnik błędów słów” (WER).

Przyjrzyjmy się idei WER, jak ją obliczyć i dlaczego ma ona znaczenie.

Jak obliczyć podstawową stopę błędów słów?

Może się to wydawać skomplikowanym pomysłem, ale metoda obliczania podstawowej WER jest w rzeczywistości dość prosta. Zasadniczo, WER to liczba błędów podzielona przez całkowitą liczbę słów.

Aby uzyskać WER, zacznij od zsumowania substytucji, wstawek i usunięć, które występują w sekwencji rozpoznanych słów. Podziel tę liczbę przez całkowitą liczbę oryginalnie wypowiedzianych słów. Wynik to WER.

Aby ująć to w prostej formule, Word Error Rate = (Substitutions + Insertions + Deletions) / Number of Words Spoken

Ale jak dodać te czynniki? Przyjrzyjmy się każdemu z nich:

  • Substytucja ma miejsce, gdy słowo zostaje zastąpione (na przykład, „noose” jest transkrybowane jako „moose”)
  • Wstawienie ma miejsce, gdy słowo zostaje dodane, które nie zostało wypowiedziane (na przykład, „SAT” staje się „essay tea”)
  • Usunięcie ma miejsce, gdy słowo jest całkowicie pominięte w transkrypcji (na przykład, „turn it around” staje się „turn around”)

Powiedzmy, że osoba mówi 29 słów w oryginalnym pliku transkrypcji. Wśród tych słów, transkrypcja zawierała 11 substytucji, wstawek i usunięć.

Google Speech Recognition WER

Google Speech Recognition WER

Aby otrzymać WER dla tej transkrypcji, podziel 11 przez 29, aby otrzymać 0.379. To zaokrągla się do .38, czyniąc WER 38 procent.

Skąd pochodzi obliczenie wskaźnika błędu słów?

Obliczenie WER jest oparte na pomiarze zwanym „odległością Levenshteina”. Odległość Levenshteina jest pomiarem różnic pomiędzy dwoma „ciągami znaków”. W tym przypadku, ciągi są sekwencjami liter, które tworzą słowa w transkrypcji.

Spójrzmy na przykłady błędów, których używaliśmy wcześniej: „noose” i „moose”. Ponieważ tylko jedna litera jest zmieniona, odległość Levenshteina wynosi tylko 1. Odległość Levenshteina jest ponad czterokrotnie większa dla „SAT” i „essay tea”, ponieważ w transkrypcji „SA” staje się „essay” przez dodanie 3, a „T” staje się „tea” przez dodanie 2.

Dlaczego poziom błędów w słowach ma znaczenie?

WER jest ważną, wspólną metryką używaną do pomiaru wydajności interfejsów API rozpoznawania mowy używanych do zasilania interaktywnych technologii opartych na głosie, takich jak Siri lub Amazon Echo.

Niższy WER często wskazuje, że oprogramowanie ASR jest bardziej dokładne w rozpoznawaniu mowy. Wyższy WER, zatem, często wskazuje na niższą dokładność ASR.

Naukowcy, deweloperzy i inni, którzy używają technologii ASR mogą rozważyć WER przy wyborze produktu do konkretnego celu. Twórcy ASR mogą również obliczać i śledzić WER w czasie, aby zmierzyć jak ich oprogramowanie się poprawiło.

WER może być również używany na poziomie konsumenta, aby pomóc przy wyborze usługi automatycznej transkrypcji lub aplikacji ASR.

Czy współczynnik błędu słów jest dobrym sposobem na zmierzenie dokładności?

Jak widzieliśmy, WER może być bardzo ważny przy wyborze usługi transkrypcji lub ASR. Jednak nie jest to jedyny czynnik, którego należy użyć przy podejmowaniu decyzji o tym, jak dokładna może być usługa lub oprogramowanie. Oto kilka powodów dlaczego:

Źródło błędów

WER nie uwzględnia powodu, dla którego błędy mogą się zdarzyć. Czynniki, które mogą wpływać na WER, niekoniecznie odzwierciedlając możliwości samej technologii ASR, obejmują:

  • Jakość nagrania
  • Jakość mikrofonu
  • Wymowa mówcy
  • Zakłócenia tła
  • Nietypowe nazwy, lokalizacje, i inne rzeczowniki
  • Techniczne lub branżowe terminy

WER Word Error Rate Microphone

WER Word Error Rate Microphone

Tłumaczenie przez człowieka

Zależnie od sposobu użycia oprogramowania ASR, błędy mogą nie wpływać znacząco na użyteczność. Jeśli użytkownik ludzki może przeczytać transkrypt pełen błędów i nadal zrozumieć oryginalne znaczenie mówcy, wtedy nawet wysoki WER nie zakłóca użyteczności ASR.

Word error rate jest ważną kalkulacją do wykonania, gdy chodzi o użycie technologii rozpoznawania mowy, ale ważne jest, aby wziąć pod uwagę inne czynniki i kontekst.

Jak Rev się mierzy?

Aby obliczyć WER interfejsu API Rev.ai i porównać go z innymi opcjami ASR, wybraliśmy 30 reprezentatywnych odcinków z kilku popularnych podcastów. Najpierw stworzyliśmy wygenerowany przez człowieka, dosłowny transkrypt referencyjny za pośrednictwem Rev.com. Następnie przepuściliśmy każdy plik audio przez Rev.ai, model wideo Google i Speechmatics, aby stworzyć transkrypcje ASR. Po tym porównaliśmy każde słowo transkryptów ASR z transkryptami referencyjnymi, aby uzyskać wskaźnik WER.

Oto średnie wyniki WER:

  • Rev.ai: 16,6%
  • Model wideo Google: 18,0%
  • Speechmatics: 20,6%

Szczególne wyniki różniły się w zależności od odcinka podcastu, ale z przyjemnością stwierdzamy, że interfejs API automatycznego rozpoznawania mowy firmy Rev stanął na wysokości zadania.

Jeśli masz inne pytania dotyczące funkcji WER, interfejsu API przetwarzania mowy na tekst firmy Rev lub naszych usług transkrypcji na stronie Rev.com, skontaktuj się z nami w dowolnym momencie. Możesz również łatwo rozpocząć już teraz korzystanie z naszych usług automatycznego przepisywania.