¿Qué es el WER? ¿Qué significa la tasa de error de las palabras?
La tecnología de reconocimiento automático del habla (ASR) utiliza máquinas y software para identificar y procesar el lenguaje hablado. También puede utilizarse para autentificar la identidad de una persona por su voz. Esta tecnología ha avanzado mucho en los últimos años, pero no siempre da resultados perfectos.
En el proceso de reconocer el habla y traducirla en forma de texto, algunas palabras pueden quedar fuera o ser mal traducidas. Si usted ha utilizado ASR en alguna capacidad, probablemente ha encontrado la frase «tasa de error de palabras» (WER).
Veamos la idea de la WER, cómo calcularla y por qué es importante.
¿Cómo se calcula la tasa de error de palabra básica?
Puede parecer una idea complicada, pero el método para calcular la WER básica es en realidad bastante sencillo. Básicamente, la WER es el número de errores dividido por el total de palabras.
Para obtener la WER, comience por sumar las sustituciones, inserciones y eliminaciones que se producen en una secuencia de palabras reconocidas. Divida ese número por el número total de palabras pronunciadas originalmente. El resultado es la WER.
Para ponerlo en una fórmula sencilla, Tasa de Error de Palabras = (Sustituciones + Inserciones + Supresiones) / Número de Palabras Habladas
¿Pero cómo se suman esos factores? Veamos cada uno de ellos:
- Una sustitución ocurre cuando se reemplaza una palabra (por ejemplo, «noose» se transcribe como «moose»)
- Una inserción es cuando se añade una palabra que no se dijo (por ejemplo, «SAT» se convierte en «té de ensayo»)
- Una supresión ocurre cuando una palabra se deja fuera de la transcripción por completo (por ejemplo, «dar la vuelta» se convierte en «dar la vuelta»)
Digamos que una persona habla 29 palabras en total en un archivo de transcripción original. Entre esas palabras pronunciadas, la transcripción incluye 11 sustituciones, inserciones y supresiones.
Para obtener la WER de esa transcripción, hay que dividir 11 entre 29 para obtener 0,379. Eso redondea a 0,38, lo que hace que el WER sea del 38 por ciento.
¿De dónde viene el cálculo de la tasa de error de palabras?
El cálculo de la WER se basa en una medida llamada «distancia de Levenshtein». La distancia Levenshtein es una medida de las diferencias entre dos «cadenas». En este caso, las cadenas son secuencias de letras que componen las palabras de una transcripción.
Veamos los ejemplos de error que usamos antes: «noose» y «moose». Como sólo se cambia una letra, la distancia Levenshtein es sólo 1. La distancia Levenshtein es más de cuatro veces mayor para «SAT» y «essay tea», ya que en la transcripción «SA» se convierte en «essay» añadiendo 3, y «T» se convierte en «tea» añadiendo 2.
¿Por qué importa la tasa de error de las palabras?
La tasa de error de palabra (WER) es una métrica importante y común que se utiliza para medir el rendimiento de las API de reconocimiento de voz que se utilizan para impulsar la tecnología interactiva basada en la voz, como Siri o el Amazon Echo.
Una tasa de error de palabra (WER) más baja suele indicar que el software de ASR es más preciso en el reconocimiento del habla. Por lo tanto, un WER más alto suele indicar una menor precisión de ASR.
Los científicos, desarrolladores y otras personas que utilizan la tecnología ASR pueden tener en cuenta el WER a la hora de elegir un producto para un propósito específico. Los desarrolladores de ASR también pueden calcular y hacer un seguimiento de la WER a lo largo del tiempo para medir cómo ha mejorado su software.
La WER también se puede utilizar a nivel de consumidor, para ayudar a la hora de elegir un servicio de transcripción automática o una aplicación de ASR.
¿Es la tasa de error de palabras una buena forma de medir la precisión?
Como hemos visto, la WER puede ser muy importante para elegir un servicio de transcripción o ASR. Sin embargo, no es el único factor que debe utilizar para decidir la precisión de un servicio o software. He aquí un par de razones por las que:
Fuente de errores
El WER no tiene en cuenta la razón por la que pueden producirse errores. Los factores que pueden afectar al WER, sin reflejar necesariamente las capacidades de la tecnología ASR en sí, incluyen:
- Calidad de la grabación
- Calidad del micrófono
- Pronunciación del hablante
- Ruido de fondo
- Nombres, lugares, y otros nombres propios
- Términos técnicos o específicos del sector
Interpretación humana
Dependiendo de cómo se utilice el software ASR, los errores pueden no afectar significativamente a la usabilidad. Si un usuario humano puede leer una transcripción llena de errores y seguir entendiendo el significado original del hablante, entonces incluso una WER alta no interfiere con la utilidad del ASR.
La tasa de error de las palabras es un cálculo importante a la hora de utilizar la tecnología de reconocimiento de voz, pero es importante considerar otros factores y el contexto.
¿Cómo se mide Rev?
Para calcular la WER de la API Rev.ai y compararla con otras opciones de ASR, elegimos 30 episodios representativos de varios podcasts populares. Primero creamos una transcripción de referencia literal generada por humanos a través de Rev.com. A continuación, pasamos cada archivo de audio por Rev.ai, el modelo de vídeo de Google y Speechmatics para crear transcripciones ASR. Después, comparamos cada palabra de las transcripciones ASR con las transcripciones de referencia para obtener la WER.
Aquí están los resultados medios de la WER:
- Rev.ai: 16,6%
- Modelo de vídeo de Google: 18,0%
- Speechmatics: 20,6%
Los resultados específicos variaron según el episodio del podcast, pero nos complace decir que la API de reconocimiento automático del habla de Rev está a la altura del desafío.
Si tiene otras preguntas sobre el WER, la API de voz a texto de Rev o nuestros servicios de transcripción humana en Rev.com, no dude en ponerse en contacto con nosotros en cualquier momento. También puede comenzar fácilmente ahora con nuestros servicios de transcripción automática.