音声認識のしくみ

音声認識のしくみ

$\begin{figure} \centering \epsfig {file=overview.eps,scale=0.8}\end{figure}$

Figure 1: 音声認識システムの構成

音声分析：ケプストラム、雑音除去や歪みの補正化
単語辞書：認識対象の語彙エントリの発音（=音素表記）
文字を認識してから単語を認識するのではなく、認識対象の単語集合から可能な音素列を規定した上で認識する
音響モデル：音素単位の特徴量パターンの統計モデル
コンテキスト依存HMM
合計数千～数万の正規分布
言語モデル：単語間の接続関係を規定 (文法・統計モデル)
正しい入力を受理するだけでなく、正しくない仮説を生成しない能力
数百万のオーダの単語trigram
認識エンジン(デコーダ)
膨大なデータを用いて膨大な仮説空間を探索

``音声認識は膨大な音声パターンと言語パターンの統計データの集積''

Next: 音響モデルの選択 Up: 音声認識の要素技術 -必要なもの- Previous: 音声認識の要素技術 -必要なもの-

Tatsuya Kawahara
4/13/2000