A班研究会

日時:7月29日(金)・30日(土)

場所:蒲郡・ホテル竹島

SBCORスペクトルによる耐雑音性のある音声分析とそのHMM音声認識系への応用  板倉文忠 (名古屋大)

対話に於ける時間構造の役割 --プロソディと分節的特徴の相互作用--  新美成二 (東京大)

対話音声認識のための高精度音素認識  牧野正三 (東北大)

対話音声の分析と合成 --特に韻律的特徴について--  広瀬啓吉 (東京大)

高品質音声の合成とリズム制御  粕谷英樹 (宇都宮大)

マイクロホンアレイと音源確率モデルを用いた堅牢な音声認識手法の研究  杉山雅英 (会津大)

ワードスポッティングにおける未知語処理と事後確率の関係について  有木 康雄 (龍谷大)


1. SBCORスペクトルによる耐雑音性のある音声分析とそのHMM音声認識系への 応用

板倉文忠 梶田将司 (名古屋大学)

我々は音声信号に含まれる時間構造の1つである周期性に着目した帯 域分割-自己相関分析法(SBCOR)を提案し、それにより耐雑音のある音 声特徴量の抽出が可能になることを示してきた。今回は SBCOR 分析 の周波数応答特性を導出し、SBCOR 分析の耐雑音性の理由について議 論する。また、HMM 音声認識システムのフロントエンドとして使用し た場合の認識性能を示す。最後に、現在の音声認識システムではよい 性能が得られない零交差信号に対するロバスト性の評価を DTW 単語 音声認識により行なう。


2. 対話に於ける時間構造の役割

副題: プロソディと分節的特徴の相互作用

今泉敏 新美成二 桐谷滋 (東京大学) 世木秀明 (千葉工業大学)

対話音声の比較的下位の時間構造の生成機序を考察した。無声化を生 じやすい音声を対象に、教師と難聴児、健聴児との対話及び朗読音声 の時間構造(文節、単語、モーラ、分節などの長さ)、無声化率を計 測し、さらに聴取実験を通じて音声の感性的特性(聞き手が感じる話 者に対する親近感、安心感など)を解析し、以下の結果を得た。(1) モーラ長は無声化に強く関与し、決定係数は約53%であった。(2)モー ラ、単語、文節長は、対話音声の感性的特性に強く関与した。決定係 数は測度に応じて変化し、40〜60%の範囲に分布した。(3)対話音声の 比較的下位の時間構造はプロソディだけではなく分節的特徴にも影響 し、明瞭度や感性的特性を左右することが明らかになった。


3. 対話音声の認識

副題: 対話音声認識のための高精度音素認識

牧野 正三 伊藤 彰則 沖本 純幸 鈴木 基之 (東北大学)

対話音声の認識では、音声の物理的性質や言語的性質の変動が大きく り、認識システムの音響処理部の一層の高精度化が必要となる。本稿 では、2つの高精度の音素認識法を述べる。一つは可変長音素パター ンと識別学習を用いた方法であり、我々が提案した修正LVQ2法とDP法 を結合した方法であり、ATR503文中の音素に対して、母音認識率82%, 子音認識率82.6%を得ている。他は音響類似性に基づくHM-netを用い た方法であり、音素の物理的類似性に基づいて音素HMMのネットワー クを構成する方法である。従来の逐次状態分割法に基づくHM-net構成 法に比べ、ATR503文中の6子音の認識で2%程度高い認識率を得ている。


4. 音声対話システムのための音声合成手法と合成音声の心理的評価

副題: 対話音声の分析と合成 −特に韻律的特徴について−

広瀬啓吉 (東京大学)

音声対話システムのための応答音声合成を行う上で、対話音声の韻律 的特徴を調べ、それから規則を構築することが必要である。このよう な観点から、対話音声と朗読音声の韻律的特徴の比較分析を行った。 音声資料は、演劇経験のある話者がスキー場の案内に関しての模擬対 話を行ったものと、単にリストを読み上げたものである。分析の結果、 対話音声では基本周波数の平均値が上昇し、変動幅も大きくなること が示された。変動幅の増大は、基本周波数パターン生成過程のモデル の指令の大きさの増大に対応する。話速に関しても、平均値と変動幅 の大きな増加がみられた。さらに、詳細な分析を行って、焦点位置と アクセント指令の大きさとの関係、終助詞「か」の指令のタイミング のずれ、等を明らかにした。これらの分析結果をもとに、テキスト音 声合成用に開発した韻律規則を変更することによって、対話音声用の 規則を作成した。さらに、音声対話システムの具体例の1つとして、 巡視者支援システムのプロトタイプを構築した。


5. 高品質音声の合成とリズム制御

粕谷英樹 丁文 (宇都宮大学)

多様な声質の音声を合成するために、VCV音声素片のホルマント/ アンチホルマントテンプレートを用いた接続・編集型音声合成方法に ついて検討した。声門体積流をRosenberg-Klatt有声音源モデルで近 似し、音声生成過程をARXモデルで表す。音源パラメータの推定に は、シミュレーテッドアニーリング法を用い、また声道パラメータで あるホルマント/アンチホルマントの推定にはカルマンフィルタ同定 法を利用する。これらを組み合わせた半自動ピッチ同期分析法によっ て、ホルマント/アンチホルマントテンプレートを作成する。合成音 声と自然音声を用いた分析・合成実験を行って、本方法の有効性を示 す。対話音声の合成においては、韻律を適切に制御することが重要で ある。今回は、リズムを制御するための規則について、音響分析及び 知覚実験によって調べた結果を発表する。


6. マイクロホンアレイと音源確率モデルを用いた堅牢な音声認識手法の研究

杉山雅英 伊達玄 Michael Cohen (会津大学)

鹿野清宏 中村哲 伊勢史郎 (奈良先端科学技術大学院大学)

マイクロホンの存在を話者に意識させない、いわゆるマイクロホンフ リーのより自然な対話音声入力方式の確立を目指して対話音声認識系 の入力系および音声処理系における堅牢性の向上について検討を行な う。本報告では音声入力系・雑音制御系・音声認識系に分けて堅牢な 音声認識手法に関する研究計画について述べる。本計画では基準とな る評価系の構築、雑音環境における認識系の堅牢性の向上の評価の基 礎検討、距離依存感度マイクロホン・マイクロホンアレイを用いた多 点受音系にに関する基礎検討、複数音源の確率モデル(HMM)の推定・ 制御・合成に関する基礎検討を行なう。


7. ワードスポッティングにおける未知語処理と事後確率の関係について

有木康雄 (龍谷大学)

ワードスポッティングでは既知語と未知語を判定する方法が必要不可 欠である。そこで、文法を使わずに既知語と未知語を判定する未知語 処理についてまず考察する。次に、現在の未知語処理が、既知語の事 後確率と同じ概念であることを示す。この事後確率の観点から、ワー ドスポッティング技術を比較する。最後に、ビタビセグメンテーショ ンによって得られた音素情報をもとに、既知語を抽出する2つの方法 を提案する。一つは、バックトレースを行なうもので、もう一つはバッ クトレースを行なわずに局所的な確率で既知語を抽出する方法である。