Articles

Cos’è il WER? Cosa significa Word Error Rate?

La tecnologia di riconoscimento vocale automatico (ASR) utilizza macchine e software per identificare ed elaborare il linguaggio parlato. Può anche essere usata per autenticare l’identità di una persona attraverso la sua voce. Questa tecnologia ha fatto progressi significativi negli ultimi anni, ma non sempre dà risultati perfetti.

Nel processo di riconoscimento del parlato e di traduzione in forma di testo, alcune parole possono essere omesse o tradotte male. Se avete usato l’ASR in qualche modo, probabilmente avete incontrato la frase “word error rate” (WER).

Diamo un’occhiata all’idea di WER, come calcolarlo e perché è importante.

Come si calcola il tasso di errore di base delle parole?

Può sembrare un’idea complicata, ma il metodo per calcolare il WER di base è in realtà piuttosto semplice. Fondamentalmente, il WER è il numero di errori diviso per il totale delle parole.

Per ottenere il WER, iniziate a sommare le sostituzioni, inserzioni e cancellazioni che si verificano in una sequenza di parole riconosciute. Dividi questo numero per il numero totale di parole originariamente pronunciate. Il risultato è il WER.

Per metterlo in una formula semplice, Word Error Rate = (Sostituzioni + Inserimenti + Cancellazioni) / Numero di parole pronunciate

Ma come si sommano questi fattori? Guardiamo ciascuno di essi:

  • Una sostituzione avviene quando una parola viene sostituita (per esempio, “noose” viene trascritto come “moose”)
  • Un inserimento è quando viene aggiunta una parola che non era stata detta (per esempio, “SAT” diventa “essay tea”)
  • Una cancellazione avviene quando una parola viene lasciata completamente fuori dalla trascrizione (per esempio, “turn it around” diventa “turn around”)

Diciamo che una persona dice 29 parole totali in un file di trascrizione originale. Tra queste parole pronunciate, la trascrizione include 11 sostituzioni, inserimenti e cancellazioni.

Google Speech Recognition WER

Google Speech Recognition WER

Per ottenere il WER per quella trascrizione, si divide 11 per 29 per ottenere 0,379. Che si arrotonda a 0,38, rendendo il WER del 38%.

Da dove viene il calcolo del tasso di errore delle parole?

Il calcolo WER si basa su una misura chiamata “distanza di Levenshtein”. La distanza di Levenshtein è una misura delle differenze tra due “stringhe”. In questo caso, le stringhe sono sequenze di lettere che compongono le parole in una trascrizione.

Guardiamo gli esempi di errore che abbiamo usato prima: “noose” e “moose”. Poiché viene cambiata una sola lettera, la distanza Levenshtein è solo 1. La distanza Levenshtein è più di quattro volte tanto per “SAT” e “essay tea”, poiché nella trascrizione “SA” diventa “essay” aggiungendo 3, e “T” diventa “tea” aggiungendo 2.

Perché il tasso di errore delle parole è importante?

Il WER è una metrica importante e comune utilizzata per misurare le prestazioni delle API di riconoscimento vocale utilizzate per alimentare la tecnologia interattiva basata sulla voce, come Siri o Amazon Echo.

Un WER più basso spesso indica che il software ASR è più preciso nel riconoscere il parlato. Un WER più alto, quindi, spesso indica una minore accuratezza ASR.

Scienziati, sviluppatori e altri che usano la tecnologia ASR possono considerare il WER quando scelgono un prodotto per uno scopo specifico. Gli sviluppatori ASR possono anche calcolare e tracciare il WER nel tempo per misurare come il loro software è migliorato.

Il WER può anche essere usato a livello del consumatore, per aiutare nella scelta di un servizio di trascrizione automatica o di un’applicazione ASR.

Il tasso di errore delle parole è un buon modo per misurare la precisione?

Come abbiamo visto, il WER può essere molto importante per scegliere un servizio di trascrizione o ASR. Tuttavia, non è l’unico fattore da utilizzare per decidere quanto sia accurato un servizio o un software. Ecco un paio di ragioni per cui:

Fonte degli errori

Il WER non tiene conto del motivo per cui gli errori possono verificarsi. I fattori che possono influenzare il WER, senza necessariamente riflettere le capacità della tecnologia ASR stessa, includono:

  • Qualità della registrazione
  • Qualità del microfono
  • Pronuncia del parlante
  • Rumore di fondo
  • Nomi insoliti, luoghi, e altri nomi propri
  • Termini tecnici o specifici dell’industria

WER Word Error Rate Microphone

WER Word Error Rate Microphone

Interpretazione umana

A seconda di come viene usato il software ASR, gli errori possono non influenzare significativamente l’usabilità. Se un utente umano può leggere una trascrizione piena di errori e comprendere comunque il significato originale dell’oratore, allora anche un WER elevato non interferisce con l’utilità dell’ASR.

Il tasso di errore di parola è un calcolo importante da fare quando si tratta di usare la tecnologia di riconoscimento vocale, ma è importante considerare altri fattori e il contesto.

Come si comporta Rev?

Per calcolare il WER dell’API Rev.ai e confrontarlo con altre opzioni ASR, abbiamo scelto 30 episodi rappresentativi da diversi podcast popolari. Abbiamo prima creato una trascrizione di riferimento verbatim generata dall’uomo attraverso Rev.com. Poi, abbiamo eseguito ogni file audio attraverso Rev.ai, il modello video di Google e Speechmatics per creare trascrizioni ASR. Dopo di che, abbiamo confrontato ogni parola delle trascrizioni ASR con le trascrizioni di riferimento per ottenere il WER.

Ecco i risultati medi del WER:

  • Rev.ai: 16.6%
  • Modello video di Google: 18.0%
  • Speechmatics: 20.6%

I risultati specifici variano a seconda dell’episodio del podcast, ma siamo lieti di dire che l’API di riconoscimento vocale automatico di Rev è all’altezza della sfida.

Se hai altre domande su WER, sull’API speech-to-text di Rev o sui nostri servizi di trascrizione umana su Rev.com, contattaci in qualsiasi momento. Puoi anche iniziare facilmente ora con i nostri servizi di trascrizione automatica.