A班第1回研究会

日時：8月9日(月)・10日(火)

場所：仙台・作並温泉作並荘

1. 対話音声の音響的分析　--実音響環境における対話音声の認識と音響分析の研究計画--

　　　　板倉文忠　王紅　梶田将司 (名古屋大学)

音声による人間－機械間の自然な対話を実現するためには、室内騒音や残響が存在する実音響環境においても高い音声認識率を達成する事が要求される。本稿では、室内騒音や残響等によって劣化した音声信号から、音声認識に有効な音響的特徴を安定かつ精度よく抽出するための研究計画について述べている。本研究では、音響系の伝達関数の逆フィルタ、多点受音音響信号処理ならびに両耳聴のモデルなどの研究と、その対話音声処理への応用に関する研究を行う。

2. 対話音声の音響的分析　--非言語的情報と対話構造の音響的分析に関する考察と研究方針--

　　　　北澤茂良 (静岡大学)

本研究は対話音声の非言語的情報と対話構造の解析を通じて意志伝達の暗示的の側面を考察しようとする。音声対話は意志伝達の過程であり、暗示的に多くの非言語情報が伝達されている。非言語情報は話者間の心象交換に言語情報以上に強く関係している。この非言語情報は対話構造と明確に区分しがたい。意志伝達の暗示的な側面を導入することは機械との対話に自然な発話の流れを達成するのに効果的である。計画はまず、広範な対話音声の実例を分析し詳細に記述する。対話音声の記述方法として音響音声学的ラベリングと超文節的特徴や周辺言語情報など社会言語学的記述の融合方式を提案した。その上で、対話構造の分析を行う。その際、定型応答、開始符号、合図単語などを認識して、これを手がかりとして話題の展開の流れを追跡する。対話音声から暗示的な意志伝達の情報を抽出するには従来の音声分析・音声認識の手法がその基礎となる。最後に、対話音声認識の立場から周辺言語および対話構造の認識の問題点に関して考察した。

3. 対話音声の認識　--「対話音声の認識」の現状と計画--

　　　　中川聖一 (豊橋技術科学大学)

本稿では分担研究課題「対話音声の認識」に関する研究の現状と計画について述べる。本重点領域研究の３年間に次のような項目についての研究を計画している。(1)ロバスト・高精度な音声認識手法、 (2)Spontaneous speech の特徴分析と機械処理の可能性の検討、(3) ここ数年開発してきた音声対話システムの対話制御法の改良、(4)対話文法や対話言語モデルの自動構成法、言語モデルの適応化手法の検討、(5)意味解析駆動型の音声理解手法の検討、(6)音声を核としたマルチモーダルな対話手法の検討などである。具体的な研究内容例として、(1),(2),(3)についての現状と計画を特に詳しく述べる。(1)については、現在検討中である教師なし話者適応化についてのアイデアと現状を述べる。(2)については、未知語・間投詞処理と言い直しに関しての特徴分析と機械処理に関する基本的なアイデアと予備実験結果について述べる。(3)については、ユーザ発話の予測手法、Robustな対話文の理解手法、対話制御部の改良についての計画を述べる。

4. 対話音声の認識

　　　　牧野正三 (東北大学)

本稿では、今後3年間の研究計画について述べる。研究は大きく2つに分かれる。1つは高精度音素認識システムの構築であり、他は対話音声認識システムのための文法の構築である。高精度音素認識システムの構築では、我々が提案した修正LVQ2法とDP法あるいはHMM法の結合と、音素の予備認識結果を利用した入力音声への適応に基づく連続音声認識法の研究を行なう。対話音声認識のための文法の構築に関しては、文節を単位とし、係受けを基本とする。また、関投詞や倒置と韻葎的特徴との関連を分析する。さらに高速の文節検出法や、近距離文数に基づくタスクの複雑度の評価についても研究を行なう。

5. 音声対話システムの情報理論的モデル化と作成　--対話制御の目的と対話制御の種々の処理レベル--

　　　　新美康永　小林豊 (京都工芸繊維大学)

音声の認識誤りが避け難い音声対話システムとの対話においては、あまりにも多くの情報を一度に伝えようとしても能率よい情報伝達は実現できない。システムとユーザの特性を考慮に入れた対話制御によって、高能率だけでなく、情報が確実に伝わっているという安心感をユーザに与え、心地よい対話を実現することが望まれる。本研究では、システムとユーザの対話の状況における情報交換の能率と対話の心地よさを定量化して、それら二種類の評価を統合した尺度の意味で最適な対話制御の方式を検討する。本稿では、フレーム表現の目的達成度による伝達情報の定量化の試案を示すとともに、対話の能率に影響を持ちシステム側で制御可能な要因をさまざまな処理レベルに関するものに分類し、それぞれの特性を考察した。また、システムの発話スタイルがユーザ発話スタイルに与えるに影響を調べた予備実験についても報告した。

6. 音声対話システムのための音声合成手法と合成音声の心理的評価

--音声対話用音声合成器の開発と合成音声の心理的評価--

　　　　粕谷英樹 (宇都宮大学)

本稿では音声対話システムのための柔軟な音声合成器の開発計画とその心理的評価法の基本方針について述べた。音声対話システムのための音声合成器は、高品質で柔軟な分節的・超分節的特徴の制御が必要になる。われわれは、ソース・フィルタモデルの考えに基づく、ホルマント・音源素片編集方式を提案した。また、第１段階となる新しい適応的分析方式について述べた。心理的評価法については、合成音声の不完全さが音声対話の流れに与える心理的影響についてシミューレーション実験によって明らかにする計画について述べた。

7. 音声対話システムのための音声合成手法と合成音声の心理的評価

--音声対話システムにおける応答音声の生成--

　　　　広瀬啓吉 (東京大学)

音声対話システムの全体構成を概観した上で、深層意味表現から高品質の応答音声を合成し出力するためには、従来のようなテキスト音声合成装置を流用するのではなく、対話システム用に独自に開発する必要があることを指摘した。その上で、具体的に、1.応答内容の深層意味表現から、焦点、省略・照応表現に関する情報を用いて表層文を生成すると同時に、統語・談話情報等の言語情報および伝達したい意図を音声合成に適した形式で出力する技術、2. 対話音声調でかつ統語・談話情報や話者の意図等を反映した韻律的特徴を有する聴き手にとって自然でかつ理解され易い合成音声を出力する技術、3.分節的特徴からみても高品質の合成音声を出力する技術、について言及し、それぞれに関し、現在得られている成果と今後の研究方針を述べた。

8. 対話音声の多様性とその制御機構に関する研究　--発話の聴者依存特性--

　　　　今泉敏　新美成二　桐谷滋 (東京大学)　世木秀明 (千葉工業大学)

対話における音声言語の言語的・音響的特性は、相手の特性や話題の進行、環境の変化などに応じて能動的に制御される。しかし、その制御様式や効果は明かではない。本研究では、主たる聴者が難聴児あるいは健聴児である場合の難聴児教育者の会話音声を解析し以下の結果を得た。１）難聴児との会話ではより多くの単文を使用し、より多くの反応を得ていた。健聴児に対しては、使用された文数が約1/5に減少し、かつ単文は全体の７５％に減少した。難聴児に対する課題説明では児の了解を随時確認しながら進行した。２）難聴児に対する会話音声の音節長及びポーズ長が健聴児に対する場合と比べて有意に長くなる傾向を示した。以上の結果は、教師が聴取者の言語知覚・認知能力に応じて文やその音響的時間構造を変えることを示すものであり、聴者の特性を補償するような発話企画を行うこと、それは課題を一群の文に変換する段階でも、文の音響的時間構造を決める構音運動の企画遂行段階でも行なわれることを示している。

9. 音声対話ディスコースにおけるパラフレーズとコヒージョンの分析とその形式化の研究

　　　　仁科喜久子 (東京工業大学)

本研究はできるだけ自然な音声対話を採録し、言語学的観点で観察、分析し、コンピュータ工学の協力を得て、ＣＡＩなどの日本語教育教材作成に反映できることを最終目標とするものである。分析に当たり東京工業大学大学院で行われるセミナーでの外国人留学生の発表場面をビデオ収録し、音声対話のデータベースとして作成した。その中にみられる質疑応答、ディスカッションでの日本人教官および学生などのセミナー参加者との対話を取りあげる。その中で両者の相互理解に至るまでの過程として特にパラフレーズに着目して、その構造を語彙のレベルからディスコースレベルまで言語学的に記述し、そのプロトタイプを求め、特に対話ディスコースのコヒージョンに注目する。

10. 音素・単語・フレーズの同時スポッティングによる対話音声の解析

　　　　有木康雄 (龍谷大学)

従来、音声認識の手法として、音素、単語、フレーズといった階層を設けて処理する方式と、階層を設けない処理方式（One-stage Viterbi などネットワーク構文型のアルゴリズムなど）があった。本研究では、音素、単語、フレーズの聞き取りが存在すること、それらは、下から上への階層をなしているのではなく、学習の習熟や理解のレベルに応じて選択されるものであるという観点から、各階層が同時に処理を進め、理解のレベルに応じて階層を選択しながら協調処理し、不明なところを補足する音声認識の手法の研究計画について述べている。研究計画は、次の項目から成り立っている。（ａ）対話音声に対して、従来の文法で解析可能なところだけをボトムアップに精度よく解析する。（ｂ）部分的な解析結果を使って対話の流れや意味を推定する。（ｃ）その結果を入力にフィードバックして、更に解析可能な部分を広げ解析するというフィードバックループの構造を作る。

11. 話しことばにおける話者間の発話リズムの相互作用に関する研究

　　　　垣田邦子 (富山県立大学)

本稿では、話しことばにおける話者間の発話リズムの相互作用を解明するための研究計画を説明する。本研究の目的は、一人の話者の発話リズムがもう一人の話者の発話リズムによってどのように影響されるかを解明することである。具体的には、以下の方法により研究を進める。1) 一人の被験者がとおしてパラグラフ (一連の文) を読んだ場合と、「先行話者」がパラグラフの一部を読み、被験者がそのあとを続けて読んだ場合とを比較し、被験者の発話リズムが先行話者の発話リズムによってどのように影響されるかを調べる。2) 発話リズムを反映する音声特徴として、発話速度、ポーズ長、音声の基本周波数と振幅の4つの音響パラメータに着目し、被験者の発話におけるこれらのパラメータの値が先行話者の発話の影響によってどのように変化するかを明らかにする。