Articles

Parametrická syntéza řeči

Technologie zpracování řeči, která zahrnuje modelování, syntézu, kódování a rozpoznávání řeči, se datuje od parametrických technik, které zavedl Homer Dudley na přelomu 30. a 40. let 20. století. Tyto metody jsou „parametrické“ v tom smyslu, žekonstruují model akustických vlastností lidského hlasového traktu a poté analyzují řeč určením hodnot parametrů modelu. Níže je znázorněn základní model z Dudleyho článku „The Carrier Nature of Speech“ z roku 1940, který byl publikován v časopise The Bell System Technical Journal.

Dudley's vocal tract model

Na Světové výstavě v New Yorku v roce 1939 předvedly Bellovy laboratoře tento princip na zařízení zvaném „Voder“, které je zobrazeno níže v akci.

Voder being demonstrated

Voder obsluhují vysoce kvalifikovaní technici (kterým se v té době říkalo „dívky“). Technik manipuloval se sadou analogových (spojitých) ovládacích prvků, které vytvářely zvuky podobné řeči, jako ve větě „zdravím všechny“:

Kdyby bylo možné spouštět applety, byl by tu jeden.

Voder je pečlivě navržen tak, aby odpovídal omezením lidského operátora potřebám modelování řeči. Je znázorněn na následujícím schématu:

Voder schematic
Deset „spektrálních tlačítek“ ovládá zesílení deseti pásmových filtrů (protože prstů je deset). tím se hrubě určuje spektrální obsah řečového signálu (všimněte si, že normálníčlověk-operátor může najednou ovládat maximálně deset tlačítek). zápěstní lišta přepíná mezi periodickým buzením („energie typu bzučení“) a buzením bílého šumu („energie typu sykavek“).Periodická excitace se používá k produkci hlasitých zvuků (jako je „aaaaa“), zatímco excitace bílým šumem se používá k produkci nehlasitých zvuků (jako je „sssss“).Nožní pedál ovládá frekvenci periodické excitace, čímž lze řídit skloňování.

Poslechněte si kompletní ukázku Voderu:

Kdybyste mohli spouštět applety, jeden by tu byl.
.