Qu’est-ce que le WER ? Que signifie le taux d’erreur sur les mots ?
La technologie de reconnaissance automatique de la parole (ASR) utilise des machines et des logiciels pour identifier et traiter le langage parlé. Elle peut également être utilisée pour authentifier l’identité d’une personne par sa voix. Cette technologie a beaucoup progressé ces dernières années, mais ne donne pas toujours des résultats parfaits.
Dans le processus de reconnaissance de la parole et de sa traduction sous forme de texte, certains mots peuvent être omis ou mal traduits. Si vous avez utilisé l’ASR à un titre quelconque, vous avez probablement rencontré l’expression « taux d’erreurs de mots » (WER).
Regardons l’idée du WER, comment le calculer et pourquoi il est important.
Comment calculer le taux d’erreur de base sur les mots ?
Cela peut sembler être une idée compliquée, mais la méthode de calcul du WER de base est en fait assez simple. Fondamentalement, le WER est le nombre d’erreurs divisé par le nombre total de mots.
Pour obtenir le WER, commencez par additionner les substitutions, insertions et suppressions qui se produisent dans une séquence de mots reconnus. Divisez ce nombre par le nombre total de mots initialement prononcés. Le résultat est le WER.
Pour le mettre dans une formule simple, Taux d’erreur de mot = (Substitutions + Insertions + Suppressions) / Nombre de mots prononcés
Mais comment additionner ces facteurs ? Examinons chacun d’entre eux :
- Une substitution se produit lorsqu’un mot est remplacé (par exemple, « noose » est transcrit en « moose »)
- Une insertion se produit lorsqu’un mot est ajouté qui n’a pas été dit (par exemple, « SAT » devient « thé d’essai »)
- Une suppression se produit lorsqu’un mot est complètement omis de la transcription (par exemple, « turn it around » devient « turn around »)
Disons qu’une personne prononce 29 mots au total dans un fichier de transcription original. Parmi ces mots prononcés, la transcription comprend 11 substitutions, insertions et suppressions.
Pour obtenir le WER de cette transcription, vous divisez 11 par 29 pour obtenir 0,379. Cela s’arrondit à 0,38, ce qui fait que le WER est de 38 %.
D’où vient le calcul du taux d’erreur sur les mots ?
Le calcul du WER est basé sur une mesure appelée « distance de Levenshtein ». La distance de Levenshtein est une mesure des différences entre deux « chaînes de caractères ». Dans ce cas, les chaînes sont des séquences de lettres qui constituent les mots d’une transcription.
Regardons les exemples d’erreurs que nous avons utilisés précédemment : « noose » et « moose ». Comme une seule lettre est changée, la distance de Levenshtein n’est que de 1. La distance de Levenshtein est plus de quatre fois supérieure pour « SA » et « essai thé », car dans la transcription, « SA » devient « essai » en ajoutant 3, et « T » devient « thé » en ajoutant 2.
Pourquoi le taux d’erreur sur les mots est-il important ?
Le WER est une métrique importante et courante utilisée pour mesurer la performance des API de reconnaissance vocale utilisées pour alimenter la technologie interactive basée sur la voix, comme Siri ou l’Amazon Echo.
Un WER plus faible indique souvent que le logiciel ASR est plus précis dans la reconnaissance de la parole. Un WER plus élevé, donc, indique souvent une précision ASR plus faible.
Les scientifiques, les développeurs et les autres personnes qui utilisent la technologie ASR peuvent tenir compte du WER lorsqu’ils choisissent un produit pour un objectif spécifique. Les développeurs ASR peuvent également calculer et suivre le WER au fil du temps pour mesurer l’amélioration de leur logiciel.
Le WER peut également être utilisé au niveau du consommateur, pour aider lors du choix d’un service de transcription automatique ou d’une application ASR.
Le taux d’erreur de mots est-il un bon moyen de mesurer la précision ?
Comme nous l’avons vu, le WER peut être très important pour choisir un service de transcription ou d’ASR. Cependant, ce n’est pas le seul facteur que vous devriez utiliser pour décider de la précision d’un service ou d’un logiciel. Voici quelques raisons pour lesquelles :
Source des erreurs
Le WER ne tient pas compte de la raison pour laquelle les erreurs peuvent se produire. Les facteurs qui peuvent affecter le WER, sans nécessairement refléter les capacités de la technologie ASR elle-même, comprennent :
- La qualité de l’enregistrement
- La qualité du microphone
- La prononciation du locuteur
- Le bruit de fond
- Les noms inhabituels, les lieux, et autres noms propres
- Termes techniques ou spécifiques à l’industrie
Interprétation humaine
Selon la façon dont le logiciel ASR est utilisé, les erreurs peuvent ne pas affecter significativement l’utilisabilité. Si un utilisateur humain peut lire une transcription pleine d’erreurs et comprendre quand même le sens original du locuteur, alors même un WER élevé n’interfère pas avec l’utilité de l’ASR.
Le taux d’erreur des mots est un calcul important à faire lorsqu’il s’agit d’utiliser la technologie de reconnaissance vocale, mais il est important de tenir compte d’autres facteurs et du contexte.
Comment Rev se mesure-t-il ?
Pour calculer le WER de l’API Rev.ai et le comparer à d’autres options ASR, nous avons choisi 30 épisodes représentatifs de plusieurs podcasts populaires. Nous avons d’abord créé une transcription de référence verbatim générée par un humain via Rev.com. Ensuite, nous avons fait passer chaque fichier audio par Rev.ai, le modèle vidéo de Google et Speechmatics pour créer des transcriptions ASR. Après cela, nous avons comparé chaque mot des transcriptions ASR aux transcriptions de référence pour obtenir le WER.
Voici les résultats moyens du WER :
- Rev.ai : 16,6%
- Modèle vidéo de Google : 18,0%
- Speechmatics : 20,6%
Les résultats spécifiques varient selon l’épisode de podcast, mais nous sommes heureux de dire que l’API de reconnaissance automatique de la parole de Rev relève le défi.
Si vous avez d’autres questions sur le WER, l’API de conversion de la parole en texte de Rev, ou nos services de transcription humaine sur Rev.com, n’hésitez pas à nous contacter à tout moment. Vous pouvez aussi facilement commencer dès maintenant avec nos services de transcription automatique.