|
Figure 1:
音声認識システムの構成 |
- 音声分析: ケプストラム、雑音除去や歪みの補正化
- 単語辞書: 認識対象の語彙エントリの発音(=音素表記)
文字を認識してから単語を認識するのではなく、認識対象
の単語集合から可能な音素列を規定した上で認識する
- 音響モデル: 音素単位の特徴量パターンの統計モデル
コンテキスト依存HMM
合計数千〜数万の正規分布
- 言語モデル: 単語間の接続関係を規定 (文法・統計モデル)
正しい入力を受理するだけでなく、正しくない仮説を生成しない能力
数百万のオーダの単語trigram
- 認識エンジン(デコーダ)
膨大なデータを用いて膨大な仮説空間を探索
``音声認識は膨大な音声パターンと言語パターンの統計データの集積''
Next: 音響モデルの選択
Up: 音声認識の要素技術 -必要なもの-
Previous: 音声認識の要素技術 -必要なもの-
Tatsuya Kawahara
4/13/2000