Articles

Parametrisk talsyntes

Tekniken för talbehandling, som omfattar talmodellering, syntes, kodning och igenkänning, går tillbaka till de parametriska tekniker som introducerades av Homer Dudley i slutet av 1930-talet och början av 1940-talet. Dessa metoder är ”parametriska” i den meningen att de bygger upp en modell av de akustiska egenskaperna hos människans stämband och sedan analyserar talet genom att bestämma värdena för modellens parametrar. Nedan visas en återgivning av grundmodellen från Dudleys artikel från 1940, ”The Carrier Nature of Speech”, som publicerades i The Bell System Technical Journal.

Dudley's vocal tract model

På världsutställningen i New York 1939 demonstrerade Bell Labs denna princip med en anordning som kallades ”Voder”, som visas nedan i aktion.

Voder being demonstrated

Vodern sköts av välutbildade tekniker (som på den tiden kallades ”flickor”). En tekniker skulle manipulera en uppsättning analoga (kontinuerliga) kontroller som producerade talliknande ljud, som i meningen ”hälsningar alla”:

Om du kunde köra applets skulle det finnas en här.

The voder är noggrant utformad för att matcha den mänskliga operatörens begränsningar med behoven av att modellera tal. Den visas i följande schema:

Voder schematic
Tio ”spektrumknappar” kontrollerar förstärkningarna av tio bandpassfilter (eftersom det finns tio fingrar).Detta bestämmer grovt talsignalens spektrala innehåll (observera att en normal mänsklig operatör bara kan kontrollera högst tio knappar samtidigt).En handledsstång växlar mellan en periodisk excitering (energi av typen ”surrande”) och en excitering av vitt brus (energi av typen ”väsande”).Periodisk excitering används för att producera stämda ljud (t.ex. ”aaaaaaa”) medan vitbrus-excitering används för att producera stämlösa ljud (t.ex. ”sssss”).En fotpedal kontrollerar frekvensen för den periodiska exciteringen, som därmed kan styra böjningen.

Lyssna på den fullständiga Voder-demonstrationen:

Om du kunde köra applets, skulle det finnas en här.