O que é WER? O que significa a taxa de erro da palavra?
Automatic speech recognition (ASR) technology usa máquinas e software para identificar e processar a linguagem falada. Ele também pode ser usado para autenticar a identidade de uma pessoa pela sua voz. Esta tecnologia tem avançado significativamente nos últimos anos, mas nem sempre produz resultados perfeitos.
No processo de reconhecimento da fala e sua tradução em forma de texto, algumas palavras podem ser deixadas de fora ou mal traduzidas. Se você usou ASR em alguma capacidade, você provavelmente encontrou a frase “taxa de erro de palavras” (WER).
Vejamos a ideia de WER, como calculá-la, e porque é importante.
Como se calcula a taxa de erro básica das palavras?
Pode parecer uma ideia complicada, mas o método para calcular a WER básica é na verdade bastante simples. Basicamente, WER é o número de erros dividido pelo total de palavras.
Para obter o WER, comece somando as substituições, inserções e exclusões que ocorrem em uma seqüência de palavras reconhecidas. Divida esse número pelo número total de palavras originalmente faladas. O resultado é o WER.
Para colocá-lo em uma fórmula simples, Word Error Rate = (Substituições + Inserções + Exclusões) / Número de Palavras Faladas
Mas como você soma esses fatores? Vamos olhar para cada um deles:
- Uma substituição ocorre quando uma palavra é substituída (por exemplo, “noose” é transcrito como “alce”)
- Uma inserção é quando uma palavra é adicionada que não foi dita (por exemplo, “SAT” torna-se “essay tea”)
- Uma eliminação acontece quando uma palavra é deixada completamente fora da transcrição (por exemplo, “turn it around” torna-se “turn around”)
Vamos dizer que uma pessoa fala 29 palavras no total num ficheiro de transcrição original. Entre essas palavras faladas, a transcrição incluiu 11 substituições, inserções e exclusões.
Para obter o WER para essa transcrição, você dividiria 11 por 29 para obter 0,379. Isso arredondaria para 0,38, fazendo com que a WER fosse de 38%.
De onde veio o cálculo da taxa de erro?
O cálculo da WER é baseado numa medida chamada “distância Levenshtein”. A distância Levenshtein é uma medida das diferenças entre duas “cordas”. Neste caso, as cordas são sequências de letras que compõem as palavras numa transcrição.
Vejamos os exemplos de erro que usámos anteriormente: “laço” e “alce”. Como apenas uma letra é alterada, a distância Levenshtein é apenas 1. A distância Levenshtein é mais de quatro vezes maior para “SAT” e “essay tea”, já que na transcrição “SA” torna-se “essay” ao adicionar 3, e “T” torna-se “tea” ao adicionar 2.
Por que é que a taxa de erro das palavras importa?
WER é uma métrica importante e comum usada para medir o desempenho das APIs de reconhecimento de voz usadas para alimentar a tecnologia baseada em voz interativa, como o Siri ou o Amazon Echo.
Lower WER frequentemente indica que o software ASR é mais preciso no reconhecimento da fala. Um WER mais alto, então, muitas vezes indica menor precisão ASR.
Cientistas, desenvolvedores e outros que usam a tecnologia ASR podem considerar WER ao escolher um produto para um propósito específico. Desenvolvedores de ASR também podem calcular e rastrear WER ao longo do tempo para medir como seu software melhorou.
WER também pode ser usado no nível do consumidor, para ajudar na escolha de um serviço de transcrição automática ou aplicativo ASR.
É uma boa maneira de medir a precisão da palavra?
Como vimos, WER pode ser muito importante para escolher uma transcrição ou serviço ASR. No entanto, não é o único fator que você deve usar ao decidir o quão preciso um serviço ou software pode ser. Aqui estão algumas razões pelas quais:
Fonte de erros
WER não explica a razão pela qual os erros podem acontecer. Fatores que podem afetar a WER, sem necessariamente refletir as capacidades da própria tecnologia ASR, incluem:
- Qualidade de gravação
- Qualidade do microfone
- Pronúncia do altifalante
- Ruído de fundo
- Nomes e localizações incomuns, e outros substantivos próprios
- Termos técnicos ou específicos da indústria
Interpretação humana
Dependente de como o software ASR é utilizado, os erros podem não afectar significativamente a usabilidade. Se um usuário humano pode ler uma transcrição cheia de erros e ainda entender o significado original do falante, então mesmo um WER alto não interfere na utilidade do ASR.
A taxa de erros de palavras é um cálculo importante a fazer quando se trata de usar a tecnologia de reconhecimento de voz, mas é importante considerar outros fatores e contexto.
Como o Rev mede?
Para calcular o WER do Rev.ai API e compará-lo com outras opções de ASR, escolhemos 30 episódios representativos de vários podcasts populares. Primeiro criamos uma transcrição de referência gerada por humanos, literalmente através do Rev.com. Em seguida, corremos cada arquivo de áudio através do Rev.ai, o modelo de vídeo do Google, e Speechmatics para criar transcrições de ASR. Depois disso, comparamos cada palavra das transcrições de ASR com as transcrições de referência para obter o WER.
Existem os resultados médios do WER:
- Rev.ai: 16,6%
- Modelo Google Video: 18,0%
- Speechmatics: 20,6%
Resultados específicos variados por episódio de podcast, mas temos o prazer de dizer que a API de reconhecimento automático de voz do Rev resiste ao desafio.
Se você tiver outras perguntas sobre a WER, a API de fala para texto do Rev, ou nossos serviços de transcrição humana no Rev.com, sinta-se à vontade para nos contatar a qualquer momento. Você também pode facilmente começar agora com os nossos serviços de transcrição automática.