A班・D班合同研究会

日時：12月8日(木)・9日(金)

場所：熱海・厚生年金熱海岩間荘

対話音声の音響的特徴の抽出とその構造の解析　北澤茂良 (静岡大)

協調的問題解決のための音声対話モデル　荒木雅弘堂下修司 (京都大)

セミナーでの対話にみられるパラフレーズとコヒージョンの分析 -概念関係との対応- 　仁科喜久子笹川洋子土井みつる (東工大)

英語学習者の音声認識メカニズム　東條加寿子 (九州女子大)

音声対話システムの頑健性について　中川聖一 (豊橋技科大)

音声認識の誤りを考慮した対話制御の方式　新美康永 (京都工繊大)

音声対話の評価について　藤崎博也 (東京理科大)

文章の類似性　市川熹 (千葉大)

終助詞ヨ・ネと発話行為　金水敏 (神戸大)

音声対話コーパスで実際に使うタグセットについて　土屋俊 (千葉大)

対話音声コーパスの設計・収録と統計的分析　板橋秀一 (筑波大)

パネル討論「音声対話コーパス」
　　　　司会　　　　　　板橋秀一 (WG主査)
　　　　パネリスト　　　北澤茂良(A班), 牧野正三(A班), 榑松明(D班),
　　　　　　　　　　　　Nigel Ward(C班)

1. 対話音声の音響的特徴の抽出とその構造解析

北澤茂良小林聡松永隆雄市川英哉西山淳一菅原芳彦 (静岡大学)

自由発話においては、非言語的な情報が大きな役割を担っている。特に、発声法や声質による非言語情報は周辺言語と呼ばれ、感性的で音響特性として具体的に示せないものもあるが、具体化できる特性として声の大きさ、高低、速度などがある。今回は、音声信号の包絡線からの発話速度の自動的な測定について述べる。また、音声対話における様々な音声現象の分析に際しては、一定の書式に従った文字化テキストへの変換が有効な手法の一つである。しかし、その書き起こしテキストの精度が問題となる。そこで、非言語情報を含めた書き起こしテキストの生どの評価について述べた。

2. 人間－機械対話機構のモデル化

副題: 協調的問題解決のための音声対話モデル

堂下修司荒木雅弘河原達也 (京都大学)

本稿では人間－機械系の音声対話による協調的問題解決のための5段階対話モデルを提案する。本研究は音声対話システムに不可欠な発話の理解・プラン認識・文生成を統合する試みである。我々が提案する対話モデルの特徴としては(1)状況に応じて処理の深さを変化させられること、(2)動的ネットワークによってさまざまな非定型性を含む音声入力文が解析できること、(3)イベント階層によるプラン認識結果を利用した協調的な応答生成が可能なことが挙げられる。このような処理を実現するために、我々のモデルでは1ターンの対話過程においてはAirentiらの5段階モデルを採用し、対話全体を管理するために、発話理解と問題解決のための2つの処理空間を設定する。今回の発表では5段階対話モデルの全体像を説明し、各要素技術の実現方法について述べる。

3. セミナーでの対話にみられるパラフレーズとコヒージョンの分析 -- 概念関係との --

仁科喜久子笹川洋子土井みつる (東京工業大学)

本年度は、前年度のセミナーの収録データにさらに6本を加えた。また、分析は外国人および日本人のセミナー発表時にみられる教官その他の研究室のメンバーとの対話の中で、特にパラフレーズに注目して行なった。本報告ではデスコースの枠組の中での、語のコロケーションを観察することで知識をベースにしたコヒーレンスとテキストに依存するコヒージョンの構造を観察し、デスコース中に出現する語句を概念マップに置き換える試みをした。テキストにパラフレーズとして現れる語句に対応する概念の距離と頻度からそのテキストの特色を探り、それに加えてデスコースマーカーを観察することで、発話認識上の音声および意味の曖昧性を解消する可能性を検討した。

4. 英語学習者の音声認識メカニズム

東條加寿子 (九州女子大学)

対話における人の音声認識メカニズムを明らかにするにあたって、外国語学習者の音声認識向上過程を段階的に追っていくことは極めて有用である。音声認識能力が不完全な学習者はまず何を聞き取り、どのように情報量を増やしていくのか。日本人の英語学習者について、対話文の特徴を反映した英文の音声再生実験を行い、習熟度別に音声認識過程を追った。その結果、1) 単語が最小の情報ユニットであり、 2) 音声は一過性であるため短期記憶に支配され、短期記憶内に残留するユニット数は有限であり、3) ユニット数が限界に達した後は、１ユニット内の容量を増やす方法で情報が増えていくと仮定できる。また、再生部位(文頭、文中、文尾)について、極めてメカニカルな特徴が指摘でき、再生エラーの分析から、意味・文法等、複数次元での言語処理が音声処理をバックアップしていることが解る。

5. 対話音声の認識

副題: 音声対話システムの頑健性について

中川聖一 (豊橋技術科学大学)

本研究では、システムに対する人間の入力発話を、いくつかの観点から調べるための実験を行い、その結果から対話音声の認識・理解ストラテジーを検討し、音声対話システムを構築した。まず、人間の入力発話の特徴と理解能力を調査する実験は、次のような３種類のものを行った。(1)音声対話システムを使用するユーザへの事前説明を変えることによって対話システムへの入力がどのように変化するかを観察する。(2)ユーザの入力文数に対して異なり単語数がどのように変化するかを調べ、あるタスクでどの程度単語数が必要かを検討した。 (3)音声認識部によって生じた誤認識を人間はどれくらい原文と意味的に同じ文に訂正できるかを調査した。結論として、システムが受理できる入力文を入れてもらうためには事前説明はある程度有効であるが、完全にシステムの理解できる文を入力してもらうのは困難である。また、ユーザ主導の対話では、単純なタスクでも数千の語彙が必要であるが、システム主導の場合は現状の技術で動作する語彙数でほぼ動きそうだという知見が得られた。さらに、誤認識の修正では、文脈を使うと誤認識のうちの約6割を修正できることが分かった。以上の知見を総合し、助詞落ちや助詞誤り、倒置を解析可能で、ユーザの役回り（文脈）を考慮した意味のフィルタリング、また、どうしても意味が分からない場合には、キーワード抽出によって、意味を理解するシステムを構築した。これによって、音声認識率50%でも、ある程度動作する対話システムを構築することができた。

6. 音声認識の誤りを考慮した対話制御の方式

新美康永小林豊 (京都工芸繊維大学)

現在の音声認識の技術水準では、対話音声の認識において誤りは避けられない。従って、ユーザの入力に対して何等かの確認作業が必要になる。本稿では、認識誤りを犯すことのある音声認識部を持つ音声対話システムが、ユーザ発話の認識内容を直接確認あるいは間接確認しながら音声対話を進めてユーザの発話意図を理解していく状況における対話制御方式の数学的なモデル化について報告した。

7. 音声対話の評価について

藤崎博也 (東京理科大)

本研究では、まず音声対話資料の分析から得られた知見を、人間同士の音声対話の成立のための目的と前提、対話の基本的制約、対話を円滑に進行させるための原則と手段、の観点から要約し、その知見の人間－機械間の音声対話への応用につき言及した。つぎに、このような対話過程の評価方法につき行った予備的な考察の結果を述べた。すなわち対話の終了時を含むその進行の任意の段階で目標の達成度の概念を導入し、対話の両方の当事者が共通の目標をもつ場合とそれぞれ別の目標をもつ場合とにつき考察し、後者の場合についてはそれぞれの当事者の目標の達成度の何らかの荷重和を総合達成度とした。一方、このような総合達成度に到達するために必要なコストとして、対話に要した時間、あるいは発話の回数などを考え、複数の当事者にとっての総合的なコストの概念をも導入した。

8. 文型の類似性

市川熹井宮淳 (千葉大学)

自然な対話が成立するためには、理解処理を実時間で進めることが出来なければならない。そのためには、対話入力の文構造（統語構造）を実時間で推定する方法と、文と文の構造の類似性を評価する方法が必要である。対話入力の統語構造を実時間で推定するためには、入力情報を構成する分節的情報を処理する音韻認識機能と平行して超分節的情報（音声の抑揚など）を利用することが不可欠である。そこで、先ず対話理解における実時間理解システムと、そこにおける文の類似性処理法の構想の概要を述べた。次ぎに、話し言葉音声の超分節的情報について、統語構造情報等の視点から行った実験的予備検討結果について報告した。さらに、超分節的情報から対話入力の統語情報が得られたものとして、文と文の構造の類似性を評価する方法についての試みを示した。このための抑揚情報から文構造を実時関で推定する方法についても、アルゴリズムの検討状況を報告した。最後に、同じ対話型自然言語である手話に対して、超分節的情報を用いての文の認識の可能性を実験的に示した。

9. 終助詞ヨ・ネと発話行為

金水敏 (神戸大学)

談話管理理論では、談話処理のシステムとして局所的な心的領域を仮定する。この心的領域は階層的なデータベースと考えることができ、対話における個々の発話は、このデータベースへの登録、検索、演算 (推論)等の指令であるとみなす。日本語においては、この心的領域は、 D領域とI領域に分割されている。I領域に要素を設定する言語コードを間接形と呼ぶことにすると、間接形には、情報(知識)を取得した経路が間接的であることを示すために用いられるものと、聞き手にとって新規情報であることを示すために用いられるものの2種類が機能的に区別できる。前者を情報取得の間接形、後者を情報提示の間接形と呼ぶ。名詞句では情報取得の間接形と情報提示の間接形は形態的には区別されていない。文(命題)レベルでは、ヨウダ／ラシイ／ソウダ等のモダリティは情報取得の間接形、終助詞ヨは情報提示の間接形と見られる。ダロウは情報取得と情報提示の両方の用法がある。「早くしろよ」等の命令・依頼文に付くヨは、命令そのものではなく、「命令をしつつある」という話し手の態度に関する情報を提示し、その適切性を聞き手に証明させようとするために用いられていると考えられる。

10. 音声対話コーパスで実際に使うタグセットについて

土屋俊 (千葉大学)

対話コーパスを作成するときに必要なタグについて検討する。一般に以下のようなタグを利用することになる。
章分け
＜div＞章、節を示す。そのタイプはtypeで。
対話専用
＜u＞発話(id, who)
＜pause＞ポーズ(id,who,type,dur)
＜vocal＞伝達意図のある非言語的音声
＜kinesic＞伝達意図のある非言語的動作など
＜event＞伝達意図のない非言語的動作、随伴事象など
＜writing＞対話中に示さられる文書、筆記の内容
＜shift＞音調(この使用はoptionalに)
分割
＜s＞正書法上の文区切り, ＜seg＞任意の区切り, ＜w＞単語(lemma)
同期
＜timeline＞時間軸を与える, ＜when＞時間軸上の重要な点,
＜anchor＞ポイントの位置にidを与える, ＜link＞内部のリンクの記述
＜linkGrp＞リンクのデータベース, ＜xptr＞外部ファイル参照
編集
＜omit＞, ＜del＞,
＜corr＞正規化されたものを本文に残し、発話自体をsicのvalueとする
＜sic＞発話自体を本文に残し、正規化をcorrのvalueとする
このなかでも、実際上扱いが困難なものは、発話を示す＜u＞である。たとえば、相手のあいづちにさえぎられることなく、発話権を保持したまま発話がつづく場合には、一つの発話をするべきか、複数の発話とするべきかの判断に迷う。これらの問題について、Stenstrom, Zatrawski, Kawtkoの意見を検討する。

11. 対話音声コーパスの設計・収録と統計的分析

板橋秀一保浦直子上田直子 (筑波大学)

本論文ではまず幾つかの対話音声コーパスの各種統計的性質を比較し、次に新しい対話音声コーパスの具体例として、テレフォンショッピング対話を取り上げて、その設計・収録における問題点を検討している。４種類の対話音声について書き起こしテキストを作成し、それをローマ字系列に変換して音素、モーラの単独および結合出現頻度、情報エントロピー、カバー率を求めて比較した。その結果２モーラ結合頻度にはコーパスの性質がかなり反映されていることが分かった。テレフォンショッピング対話は、注文者、受付者の両方がカタログを見ながら話しを進めるので、比較的対話が進めやすい。今回は電話は用いず、接話マイク使用、非対面で DAT収録を行なった。収録に先だって、実際にテレフォンショッピングを行ない、それを参考にして、受付側マニュアルを作成して使用した。19名の話者による35対話については、平均対話時間 4分30秒、発話数 130、１発話当たりの書き起こし文字数11字であった。