Articles

Was ist WER? Was bedeutet Wortfehlerrate?

Die Technologie der automatischen Spracherkennung (ASR) verwendet Maschinen und Software, um gesprochene Sprache zu erkennen und zu verarbeiten. Sie kann auch verwendet werden, um die Identität einer Person anhand ihrer Stimme zu authentifizieren. Diese Technologie hat in den letzten Jahren erhebliche Fortschritte gemacht, liefert aber nicht immer perfekte Ergebnisse.

Bei der Erkennung von Sprache und ihrer Übersetzung in Textform können einige Wörter ausgelassen oder falsch übersetzt werden. Wenn Sie in irgendeiner Weise mit ASR gearbeitet haben, ist Ihnen wahrscheinlich der Begriff „Wortfehlerrate“ (WER) begegnet.

Lassen Sie uns einen Blick auf die Idee der WER werfen, wie man sie berechnet und warum sie wichtig ist.

Wie berechnet man die grundlegende Wortfehlerrate?

Es mag wie eine komplizierte Idee erscheinen, aber die Methode zur Berechnung der grundlegenden WER ist eigentlich ziemlich einfach. Grundsätzlich ist die WER die Anzahl der Fehler geteilt durch die Gesamtzahl der Wörter.

Um die WER zu ermitteln, addieren Sie zunächst die Ersetzungen, Einfügungen und Löschungen, die in einer Folge von erkannten Wörtern auftreten. Teilen Sie diese Zahl durch die Gesamtzahl der ursprünglich gesprochenen Wörter. Das Ergebnis ist die WER.

Um es in einer einfachen Formel auszudrücken: Wortfehlerrate = (Ersetzungen + Einfügungen + Streichungen) / Anzahl der gesprochenen Wörter

Aber wie addiert man diese Faktoren? Schauen wir uns jeden einzelnen an:

  • Eine Substitution liegt vor, wenn ein Wort ersetzt wird (z.B. „Schlinge“ wird als „Elch“ transkribiert)
  • Eine Einfügung liegt vor, wenn ein Wort hinzugefügt wird, das nicht gesagt wurde (z.B., „SAT“ wird zu „essay tea“)
  • Eine Löschung liegt vor, wenn ein Wort in der Abschrift vollständig weggelassen wird (z. B. „turn it around“ wird zu „turn around“)

Angenommen, eine Person spricht in einer ursprünglichen Transkriptionsdatei insgesamt 29 Wörter. Unter diesen gesprochenen Wörtern enthält die Transkription 11 Ersetzungen, Einfügungen und Streichungen.

Google Speech Recognition WER

Google Speech Recognition WER

Um den WER für diese Transkription zu erhalten, würde man 11 durch 29 dividieren und erhält 0,379. Das ergibt aufgerundet 0,38, also eine WER von 38 Prozent.

Woher stammt die Berechnung der Wortfehlerrate?

Die WER-Berechnung basiert auf einer Messung namens „Levenshtein-Distanz“. Die Levenshtein-Distanz ist ein Maß für die Unterschiede zwischen zwei „Strings“. In diesem Fall sind die Strings Buchstabenfolgen, aus denen die Wörter in einer Transkription bestehen.

Schauen wir uns die Fehlerbeispiele an, die wir zuvor verwendet haben: „Schlinge“ und „Elch“. Da nur ein einziger Buchstabe verändert wird, beträgt die Levenshtein-Distanz nur 1. Bei „SAT“ und „essay tea“ ist die Levenshtein-Distanz mehr als viermal so groß, da in der Transkription „SA“ durch Hinzufügen von 3 zu „essay“ und „T“ durch Hinzufügen von 2 zu „tea“ wird.

Warum ist die Fehlerrate bei Wörtern wichtig?

Die WER ist eine wichtige und gängige Kennzahl zur Messung der Leistung von Spracherkennungs-APIs, die für interaktive sprachbasierte Technologien wie Siri oder Amazon Echo verwendet werden.

Eine niedrigere WER zeigt oft an, dass die ASR-Software die Sprache genauer erkennt. Ein höheres WER deutet also oft auf eine geringere ASR-Genauigkeit hin.

Wissenschaftler, Entwickler und andere, die ASR-Technologie verwenden, können das WER berücksichtigen, wenn sie ein Produkt für einen bestimmten Zweck auswählen. ASR-Entwickler können die WER auch berechnen und im Laufe der Zeit verfolgen, um zu messen, wie sich ihre Software verbessert hat.

Die WER kann auch auf Verbraucherebene verwendet werden, um bei der Auswahl eines automatischen Transkriptionsdienstes oder einer ASR-App zu helfen.

Ist die Wortfehlerrate ein guter Weg, um die Genauigkeit zu messen?

Wie wir gesehen haben, kann die WER sehr wichtig für die Auswahl eines Transkriptions- oder ASR-Dienstes sein. Sie ist jedoch nicht der einzige Faktor, den Sie bei der Entscheidung, wie genau ein Dienst oder eine Software ist, berücksichtigen sollten. Hier sind einige Gründe dafür:

Fehlerquellen

Der WER berücksichtigt nicht den Grund, warum Fehler auftreten können. Zu den Faktoren, die WER beeinflussen können, ohne notwendigerweise die Fähigkeiten der ASR-Technologie selbst widerzuspiegeln, gehören:

  • Aufnahmequalität
  • Mikrofonqualität
  • Aussprache des Sprechers
  • Hintergrundgeräusche
  • Ungewöhnliche Namen, Orte, und andere Eigennamen
  • Technische oder branchenspezifische Begriffe

WER Word Error Rate Microphone

WER Word Error Rate Microphone

Menschliche Interpretation

Abhängig davon, wie die ASR-Software verwendet wird, beeinträchtigen Fehler die Benutzerfreundlichkeit möglicherweise nicht wesentlich. Wenn ein menschlicher Benutzer ein fehlerhaftes Transkript lesen und trotzdem die ursprüngliche Bedeutung des Sprechers verstehen kann, dann beeinträchtigt selbst eine hohe WER die Nützlichkeit der ASR nicht.

Die Wortfehlerrate ist eine wichtige Berechnung, wenn es um den Einsatz von Spracherkennungstechnologie geht, aber es ist wichtig, andere Faktoren und den Kontext zu berücksichtigen.

Wie schneidet Rev ab?

Um die WER der Rev.ai API zu berechnen und sie mit anderen ASR-Optionen zu vergleichen, haben wir 30 repräsentative Episoden aus verschiedenen beliebten Podcasts ausgewählt. Zunächst haben wir über Rev.com ein von Menschen erstelltes, wortgetreues Referenztranskript erstellt. Dann ließen wir jede Audiodatei durch Rev.ai, das Google-Videomodell und Speechmatics laufen, um ASR-Transkripte zu erstellen. Danach haben wir jedes Wort der ASR-Transkripte mit den Referenztranskripten verglichen, um den WER zu erhalten.

Hier sind die durchschnittlichen WER-Ergebnisse:

  • Rev.ai: 16,6%
  • Google Video model: 18,0%
  • Speechmatics: 20,6%

Die spezifischen Ergebnisse variierten je nach Podcast-Episode, aber wir freuen uns, sagen zu können, dass die automatische Spracherkennungs-API von Rev der Herausforderung gewachsen ist.

Wenn Sie weitere Fragen zu WER, der Sprache-zu-Text-API von Rev oder unseren menschlichen Transkriptionsdiensten auf Rev.com haben, können Sie uns jederzeit kontaktieren. Sie können auch einfach mit unseren automatischen Transkriptionsdiensten beginnen.