Articles

パラメトリック音声合成

音声モデリング、合成、符号化、認識などの音声処理技術は、1930年代後半から1940年代前半にHomer Dudleyが導入したパラメトリック技術にさかのぼります。 これらの手法は、人間の声道の音響特性のモデルを構築し、そのモデルのパラメータの値を決定することによって音声を分析するという意味で、「パラメトリック」な手法です。 以下は、Dudley が 1940 年に発表した論文 “The Carrier Nature of Speech” (The Bell System Technical Journal) に掲載された基本モデルの図です。

Dudley's vocal tract model

1939年のニューヨークの万博で、ベル研究所はこの原理を「Voder」と呼ばれる装置で実演しました(下の写真は動作中)。 技術者は、「greeting everybody」という文のように、音声のような音を生成するアナログ(連続)コントロールのセットを操作するのです。 これは、音声信号のスペクトルの内容を決定するものです(通常の人間のオペレータは、一度に最大10個のキーしか制御できないことに注意してください)。フットペダルは、周期的な励振の周波数を制御し、それによって抑揚を制御することができます。

もしあなたがアプレットを実行することができれば、ここにあるはずです。