Articles

Síntesis paramétrica del habla

La tecnología del procesamiento del habla, que incluye el modelado, la síntesis, la codificación y el reconocimiento del habla, se remonta a las técnicas paramétricas introducidas por Homer Dudley a finales de los años 30 y principios de los 40. Estos métodos son «paramétricos» en el sentido de que construyen un modelo de las propiedades acústicas del tracto vocal humano y luego analizan el habla determinando los valores de los parámetros del modelo. A continuación se muestra una representación del modelo básico del artículo de Dudley de 1940, «The Carrier Nature of Speech», publicado en The Bell System Technical Journal.

Dudley's vocal tract model

En la Feria Mundial de 1939 en Nueva York, los Laboratorios Bell demostraron este principio con un dispositivo llamado «Voder», que se muestra a continuación en acción.

Voder being demonstrated

El voder es operado por técnicos altamente capacitados (que en ese momento se llamaban «chicas»). Un técnico manipulaba un conjunto de controles analógicos (continuos) que producían sonidos parecidos a los del habla, como en la frase «saludos a todo el mundo»:

Si se pudieran ejecutar applets, habría uno aquí.

El vodificador está cuidadosamente diseñado para adaptar las limitaciones del operador humano a las necesidades de modelar el habla. Se muestra en el siguiente esquema:

Voder schematic
Diez «teclas de espectro» controlan la ganancia de diez filtros de paso de banda (porque hay diez dedos), lo que determina el contenido espectral de la señal del habla (tenga en cuenta que un operador humano normal sólo puede controlar un máximo de diez teclas a la vez).Una barra de muñeca cambia entre una excitación periódica («energía de tipo zumbido») y una excitación de ruido blanco («energía de tipo silbido»).La excitación periódica se utiliza para producir sonidos con voz (como «aaaaa»)mientras que la excitación de ruido blanco se utiliza para producir sonidos sin voz (como «sssss»).Un pedal controla la frecuencia de la excitación periódica, que puede así controlar la inflexión.

Escucha la demostración completa de Voder:

Si pudieras ejecutar applets, habría uno aquí.