A班・C班 合同研究会

日時: 1995年12月16日(土)

場所: 京都・御車会館

内界(精神世界)に関する概念の記述および計算 横田将生 (福岡工大)

対話状況下の文末表現「か」の解釈の多義性と、論理的意味論、関連性理論、音声言語科学的方法論の統合によるその分析 岡田光弘 西山佑司 (慶応大) 須藤路子 (順天堂大)

Case-Base Text Planning における文脈情報の取り扱いについて 上原邦昭 谷口実 (神戸大学)

対話リーグ戦’95用プログラムの作成 佐藤理史 (北陸先端大)

連想表現を用いた知識メデイアによる知識集積とその利用 西田豊明 (奈良先端大)

英文の音声情報ユニットについて 東條加寿子 (九州女子大)

セミナー対話における理解過程の分析 仁科喜久子 (東工大)

音声対話システムにおける応答音声の合成 広瀬啓吉 (東京大学)

頑健な対話音声システムの改良 中川聖一 (豊橋技科大)

対話音声の音響的分析 北澤茂良 (静岡大)

ビタビ法とフォーワード・バックワード法によるキーワードスポッテイングの性能評価 有木康雄 (龍谷大学)

マイクロフォンアレーとHMM合成法によるハンズフリー音声認識 鹿野清宏 中村哲 伊勢史郎 倉片憲治 (奈良先端大) 杉山雅英 伊達玄 (会津大学)


1. 内界(精神世界)に関する概念の記述および計算

横田将生 (福岡工大)

我々は、既に、自然言語理解システムIMAGES-IおよびIMAGES-IIにつ いて報告している。IMAGES-Iは、単一の英語入力文を中間言語表現 (意味表現)に変換し、その意味表現より入力文に対する英語解釈文 を出力することができ、IMAGES-IIは、IMAGES-Iを、談話(複数の文 よりなる文章)理解および質問応答ができるように拡張したものであ る。プロトタイプが完成し、改良が進んでいるIMAGES-IIIは、 IMAGES-IIと同様の処理過程よりなるが、極めて重要な特徴は、シス テムの単語意味辞書が増強され、対称世界が外界(物体の移動や変形 などが関わる物質世界)から、内界(人間の情緒や知的活動などが係 わる精神世界)にまで拡張され、構文的にも意味的にも、より複雑な 文章の理解が可能となることである。今回は、内界に関する概念記述 とそれらが係わる推論処理について報告した。


2. 対話状況下の文末表現 「 か 」の解釈の多義性と、論理的意味論、 関連性理論、音声言語科学的方法論の統合によるその分析

岡田光弘 西山佑司 (慶応大学) 須藤路子 (順天堂大学)

論理的意味論、関連性理論、音声言語科学を統合した対話の意味理解 モデルの方法論の一般的な枠組を提示した上で、文末表現 「 か 」 を例にとり具体的な分析方法および分析結果を示した。¥¥ (1) まず、文脈に依存しない(文脈や会話の状況から独立な) conceptual meaning としての 「 か 」 の意味をモンターギュ意味 論と呼ばれる論理的意味論の手法を用いて取り出した。(ここで取り 出された「 か 」の論理的解釈は終助詞の 「 か 」に共通の解釈で あるばかりでなく、並列助詞や古語の係結びの 「 か 」と共通の論 理的解釈であるという点で、非常に強い意味で文脈に独立的であるこ とが示された。)¥¥ (2) 「 か 」 の conceptual meaning としての上の論理解釈の論理 形式から3つの基本的な文脈依存的意味が導出可能であることを示し た。これらの基本的な意味の違いは、「 か 」の論理解釈の論理形式 から誘導される可能世界モデル(クリプケモデル)の集合の区別に対応 している。¥¥ (3) 関連性理論の立場から、終助詞 「 か 」の文脈依存的意味の区 別を16種類に分類した。このことは、論理形式のみからは3つの基本 的区別しか導出できなかったのに対して、関連性原理に基づいた文脈 的解釈においては、「 か 」の対話状況に依存する意味の違いがより 細かく分類できることを示している。これらがgenuine question (通 常の疑問の意味で使用された場合の 「 か 」)に対する言語行為論的 基準(illocutionary force概念を用いた基準)に対比してどのように 特徴付けできるかについても検討した。¥¥ (4) 発話時の音声言語科学的情報が上の(2)、(3)における文脈的、状 況的意味の区別とどのような相関関係を持っているかを調べた。特に、 イントネーション・カーヴ及び母音長特性が上の状況的意味の基本的 な区別と明らかに相関関係を持っていることが示された。また、音声 情報のデータ分析が関連性理論や言語行為論による(3)の分析にどの ようにフィードバックを与えるか、も示された。これらの我々の研究 成果を通して、 「 か 」 のような多義的な文末表現に関して、発話 者による発話時の音声情報が聞き手による状況的意味の理解にどのよ うに貢献しているかが明らかにされつつあると考える。


3. Case-Based Text Planning における文脈情報の取り扱いについて

上原邦昭 谷口実 (神戸大学)

本稿では,従来のプランに基づく文章生成 (Classical Text Planningと呼ぶ) の問題点を解消するために,新たな文章生成の枠組 としてCase-Based Text Planning を提唱する.しかしながら, Case-Based Text Planning では,what-to-say を決定する段階で過 去の事例のみを用いており,ユーザモデルなどの対話管理機能などを 排除しているために,発話状況に応じて柔軟に応答することができな いという問題点があった.本稿では,プロトタイプシステム Assist-R の実装を通じて Case-Based Text Planning における問題 点を明らかにし,ユーザのコマンド履歴から得られる情報(文脈情報 と呼ぶ)を用いて,上記の問題点を解消する枠組を提案する.また, 文脈情報を用いても対話の曖昧性が解消されない場合は,リアクティ ブプランニングを用いた文章生成の枠組を導入し,適切な応答の生成 が可能となることを示す.


4. 対話リーグ戦'95用プログラムの作成

佐藤理史 (北陸先端大)

本稿では、1995年7月に行なわれた対話リーグ戦のエキジビションマッ チ(対話リーグ戦'95)に出場するために作成したプログラムについて 述べる。対話リーグ戦'95に対する我々のアプローチは、対話を知識 獲得過程と捉えることである。このようなアプローチに取った場合、 解くべき問題は、「できるだけ短い対話で必要な知識を効率良く獲得 するにはどうしたらよいか」ということになる。我々は、この問題に 対して、3つの基本戦略を考え、それらを2つのプロトコルとして具体 化した。さらに、対話を短くする5つの工夫をプログラムに組み込ん だ。この結果、非常に短い対話量で、対話リーグ戦'95の課題を達成 できた。


5. 連想表現を用いた知識メディアによる知識集積とその利用

西田豊明 前田晴美 糀谷和人 (奈良先端大)

さまざまな種類の知識や情報を統合して扱うための、人間向きメディ アとコンピュータ向きメディアの中間表現として、連想表現を基本構 造とする知識メディアを提案している。このアプローチに基づく知識 メディア情報ベースシステムCM-2を試作したので報告する。CM-2の主 な機能は次の通りである。・自然界に存在する内容も構造も違うさま ざまな情報を取り込むための情報キャプチャ機構・情報ベースのマル チメディア情報を連想的に検索するための連想検索機構・情報を個人 の視点から整理・利用するための知的情報統合機構


6. 英文の音声情報ユニットについて

東條加寿子 (九州女子大)

音声は一過性で、聞き取りは基本的には短期記憶領域内で行なわれな ければならない為、学習者にとっては困難を伴う言語技能である。本 研究では、聞き取り効率向上に有用な chunking 単位となり得る音声 情報ユニットについて考察、実験を行なった。まず、ネイティブスピー カーのスピーチ(レクチャーとインタビュー)に現れるポーズの種類、 出現箇所、出現頻度について分析し(発話事情の考察)、次に、同時通 訳の訳出を手がかりに聞き取りの情報ユニットについて分析した(聞 き取り事情)。さらに、文レベルで学習者が聞き取り単位をどのよう に知覚しているか(学習者の聞き取り事情)と実際音声的に区切りがど のように現れているかを比較し、その結果に基づいて、区切り(区切 り感)を人為的に組み込んだテストセンテンスを作成して実験を行な い、学習者のリスニング効率向上との相関を調べた。


7. セミナー対話の理解過程の分析

仁科喜久子 (東工大)

本年度は最終年度のまとめとして、収録ビデオのセミナー対話の全体 の流れを観察した。発表ではセミナーの流れの中でブレークダウンを 起こしている箇所に注目して、そこで現れる発話の機能分析をし、そ のラベル付けを試みた。機能の分類法として次の3種に大別し、それ らをさらに10項目前後に細分した。1)受信・発信表示(発話をす るというサイン、相手の発話を受けたという合図)2)情報要求(相 手の意図あるいは発話表現が理解できない場合、相手からさらに情報 を求める発話)3)情報提供(相手に理解させようとして行う発話)。 機能のラベル付けに際しては、笑い、目の動き、ジェスチャーなどに にも注目した。ここでブレークダウンの少ない対話と比較し、機能の 使われ方の違いを見た。


8. 音声対話システムにおける応答音声の合成

広瀬啓吉 (東大)

音声対話システムにおいて高品質の応答音声を合成する手法を開発す るために、文生成も含めて対話音声合成の研究を進めている。ここで は、朗読音声の韻律的特徴と対話音声のそれとの比較の結果と、それ を基に作成した韻律規則について報告する。音声資料としては、複数 の演劇経験者がテキストをもとに行った模擬対話の音声と同一のテキ ストを朗読した音声を用いた。主として基本周波数パターンと発話速 度について調べ、前者については、アクセント指令、フレーズ指令の 大きさと、語の対話中での役割等との数量的な関係を求めた。後者に ついては、一文中での発話速度の変化を明らかにした。得られた結果 を基に、対話音声の韻律規則を作成し、合成音声の聴取によりその有 効性を確認した。


9. 頑健な対話音声システムの改良

中川聖一 (豊橋技科大)

対話音声の認識システムの頑健性を向上させることを目的として,1) 音響モデルの高精度化,2)CFGとバイグラムを統合化した言語モデル, 3) N-best認識結果を利用した意味解析部,の検討を行なった。まず 1)においては,音声の動的特徴を効率良く表現すべくセグメント入力 のHMMを検討し,動的特徴を表現できる他の手法との比較を行なった。 次に2)においては,認識文法(CFG)の不備による認識エラーを抑える ことを目的として,不備な文法の半自動修正法,及び文法の不備をバ イグラム(単語ペア)で自動的に補う方法を幾つか提案し,評価を行なっ た。更に3)においては,N-best認識結果を言語処理部に反映させ,よ り頑健な意味解析部の実装を検討し,各々良好な結果を得た。


10. 対話音声の音響的分析 --対話音声の記述と検証および発話速度の測定について--

北澤茂良 小林聡 市川英哉 杉村元希 (静岡大)

われわれは非言語的側面から対話音声の言語普遍的な特徴を音響分析 および記述によって得ようとした。対話音声においては発話速度を大 幅に変化させることによって非言語情報を伝達している。通常発話速 度を単位時間中に発せられた言語単位数とみなすが、ここでは言語単 位を直接数えることなく、聴覚心理的なリズム感に基づく信号処理に よって発話速度を抽出するTEMAX(Tempo Evaluation and Measurement Algorithm by ks)法を考案した。TEMAX法は音声波 の振幅の包絡線をスペクトログラム分析して得られるパターンを解析 して得られる。対照的なリズム構造を有する代表的な言語として、日 本語の等時音節性と英語の等時強勢性についてTEMAX法によって 音節間隔の測定および強勢間隔の測定を行い、発話速度の変化が表わ せることが示せた。また、日本語ではBimoraic Footの現象のために より低い値が検出されがちであること、また、英語では二つの強勢に 挟まれた音節列の等時性は保持されていることが明らかになった。対 話音声の記述の安定性について統計的検証を行い、さらに直観的確認 のため、市販の音声合成器への出力系列に変換し、合成音として対話 音声の非言語的品質を聴覚的に確認することができた。


11. ビタビ法とフォワード・バックワード法による キーワードスポッティングの性能評価

有木康雄 (龍谷大学)

ワードスポッティングでは、音素、音節、単語の接続情報を構文モデ ルとして文章全体を評価し、キーワードを抽出する手法が主流となっ ている。その代表的な手法として、フォワード・バックワードアルゴ リズムを用いた方法、ヒューリスティック言語モデルでビタビ法を用 いた方法がある。本研究では、フォーワード・バックワード法におい てトレリス計算の代わりにビタビ計算を用いると、ヒューリスティッ ク・ビタビ法と等価になることを理論的に示した。次に、両手法と、 後ろ向きの計算を省略した簡略法の4つをインプリメントし、77の 連続発声文において63個のワードスポッティングを行い性能を評価 した。ヒューリスティック・ビタビ法で、93.8%の正当率(再現 率)と、2.5倍(fa/kw/h)のフォールスアラームを得た。 性能比較は、ヒューリスティック・ビタビ法とフォーワード・バック ワード法がほぼ同じであり、それぞれの簡略法がやや低下するという 結果が得られた。


12. マイクロフォンアレーとHMM合成法によるハンズフリー音声認識

鹿野清宏 中村哲 伊勢史郎 倉片憲治 (奈良先端大) 杉山雅英 伊達玄 (会津大学)

音声によるインタフェースは、人間同志の通信に通常使用されている という意味で最も自然で使いやすいインタフェースである。しかしな がら、実環境における使用のための性能を充分満たしていない。我々 は実環境における使用の鍵は、マイクロホンを意識せずにマイクロホ ンから離れて発声した音声の認識によるハンズフリーなインタフェー スを可能にすることであると考えている。本研究では、マイクロホン アレーを用いた超指向性により雑音源と音源の位相差を利用すること を考え、マイクロホンアレーを有する受音系と音声の調波構造に基づ いた発声者方向の同定、追従を備えた方法と、モデル側からHMM合 成法による加法性雑音と乗法性歪みに適応する方法について提案し、 実験により有効性について考察した。