日時:12月8日(木)・9日(金)
場所:熱海・厚生年金熱海岩間荘
対話音声の音響的特徴の抽出とその構造の解析 北澤茂良 (静岡大)
協調的問題解決のための音声対話モデル 荒木雅弘 堂下修司 (京都大)
セミナーでの対話にみられるパラフレーズとコヒージョンの分析 -概念関係との対応- 仁科喜久子 笹川洋子 土井みつる (東工大)
英語学習者の音声認識メカニズム 東條加寿子 (九州女子大)
音声対話システムの頑健性について 中川聖一 (豊橋技科大)
音声認識の誤りを考慮した対話制御の方式 新美康永 (京都工繊大)
音声対話の評価について 藤崎博也 (東京理科大)
文章の類似性 市川 熹 (千葉大)
終助詞ヨ・ネと発話行為 金水 敏 (神戸大)
音声対話コーパスで実際に使うタグセットについて 土屋 俊 (千葉大)
対話音声コーパスの設計・収録と統計的分析 板橋秀一 (筑波大)
パネル討論「音声対話コーパス」
司会 板橋秀一 (WG主査)
パネリスト 北澤茂良(A班), 牧野正三(A班), 榑松明(D班),
Nigel Ward(C班)
北澤茂良 小林聡 松永隆雄 市川英哉 西山淳一 菅原芳彦 (静岡大学)
自由発話においては、非言語的な情報が大きな役割を担っている。特 に、発声法や声質による非言語情報は周辺言語と呼ばれ、感性的で音 響特性として具体的に示せないものもあるが、具体化できる特性とし て声の大きさ、高低、速度などがある。今回は、音声信号の包絡線か らの発話速度の自動的な測定について述べる。また、音声対話におけ る様々な音声現象の分析に際しては、一定の書式に従った文字化テキ ストへの変換が有効な手法の一つである。しかし、その書き起こしテ キストの精度が問題となる。そこで、非言語情報を含めた書き起こし テキストの生どの評価について述べた。
副題: 協調的問題解決のための音声対話モデル
堂下修司 荒木雅弘 河原達也 (京都大学)
本稿では人間−機械系の音声対話による協調的問題解決のための5段 階対話モデルを提案する。本研究は音声対話システムに不可欠な発話 の理解・プラン認識・文生成を統合する試みである。我々が提案する 対話モデルの特徴としては(1)状況に応じて処理の深さを変化させら れること、(2)動的ネットワークによってさまざまな非定型性を含む 音声入力文が解析できること、(3)イベント階層によるプラン認識結 果を利用した協調的な応答生成が可能なことが挙げられる。このよう な処理を実現するために、我々のモデルでは1ターンの対話過程にお いてはAirentiらの5段階モデルを採用し、対話全体を管理するために、 発話理解と問題解決のための2つの処理空間を設定する。今回の発表 では5段階対話モデルの全体像を説明し、各要素技術の実現方法につ いて述べる。
仁科喜久子 笹川洋子 土井みつる (東京工業大学)
本年度は、前年度のセミナーの収録データにさらに6本を加えた。ま た、分析は外国人および日本人のセミナー発表時にみられる教官その 他の研究室のメンバーとの対話の中で、特にパラフレーズに注目して 行なった。本報告ではデスコースの枠組の中での、語のコロケーショ ンを観察することで知識をベースにしたコヒーレンスとテキストに依 存するコヒージョンの構造を観察し、デスコース中に出現する語句を 概念マップに置き換える試みをした。テキストにパラフレーズとして 現れる語句に対応する概念の距離と頻度からそのテキストの特色を探 り、それに加えてデスコースマーカーを観察することで、発話認識上 の音声および意味の曖昧性を解消する可能性を検討した。
東條加寿子 (九州女子大学)
対話における人の音声認識メカニズムを明らかにするにあたって、外 国語学習者の音声認識向上過程を段階的に追っていくことは極めて有 用である。音声認識能力が不完全な学習者はまず何を聞き取り、どの ように情報量を増やしていくのか。日本人の英語学習者について、対 話文の特徴を反映した英文の音声再生実験を行い、習熟度別に音声認 識過程を追った。その結果、1) 単語が最小の情報ユニットであり、 2) 音声は一過性であるため短期記憶に支配され、短期記憶内に残留 するユニット数は有限であり、3) ユニット数が限界に達した後は、 1ユニット内の容量を増やす方法で情報が増えていくと仮定できる。 また、再生部位(文頭、文中、文尾)について、極めてメカニカルな特 徴が指摘でき、再生エラーの分析から、意味・文法等、複数次元での 言語処理が音声処理をバックアップしていることが解る。
副題: 音声対話システムの頑健性について
中川聖一 (豊橋技術科学大学)
本研究では、システムに対する人間の入力発話を、いくつかの観点か ら調べるための実験を行い、その結果から対話音声の認識・理解スト ラテジーを検討し、音声対話システムを構築した。まず、人間の入力 発話の特徴と理解能力を調査する実験は、次のような3種類のものを 行った。(1)音声対話システムを使用するユーザへの事前説明を変え ることによって対話システムへの入力がどのように変化するかを観察 する。(2)ユーザの入力文数に対して異なり単語数がどのように変化 するかを調べ、あるタスクでどの程度単語数が必要かを検討した。 (3)音声認識部によって生じた誤認識を人間はどれくらい原文と意味 的に同じ文に訂正できるかを調査した。結論として、システムが受理 できる入力文を入れてもらうためには事前説明はある程度有効である が、完全にシステムの理解できる文を入力してもらうのは困難である。 また、ユーザ主導の対話では、単純なタスクでも数千の語彙が必要で あるが、システム主導の場合は現状の技術で動作する語彙数でほぼ動 きそうだという知見が得られた。さらに、誤認識の修正では、文脈を 使うと誤認識のうちの約6割を修正できることが分かった。以上の知 見を総合し、助詞落ちや助詞誤り、倒置を解析可能で、ユーザの役回 り(文脈)を考慮した意味のフィルタリング、また、どうしても意味 が分からない場合には、キーワード抽出によって、意味を理解するシ ステムを構築した。これによって、音声認識率50%でも、ある程度動 作する対話システムを構築することができた。
新美康永 小林豊 (京都工芸繊維大学)
現在の音声認識の技術水準では、対話音声の認識において誤りは避け られない。従って、ユーザの入力に対して何等かの確認作業が必要に なる。本稿では、認識誤りを犯すことのある音声認識部を持つ音声対 話システムが、ユーザ発話の認識内容を直接確認あるいは間接確認し ながら音声対話を進めてユーザの発話意図を理解していく状況におけ る対話制御方式の数学的なモデル化について報告した。
藤崎博也 (東京理科大)
本研究では、まず音声対話資料の分析から得られた知見を、人間同士 の音声対話の成立のための目的と前提、対話の基本的制約、対話を円 滑に進行させるための原則と手段、の観点から要約し、その知見の人 間−機械間の音声対話への応用につき言及した。つぎに、このような 対話過程の評価方法につき行った予備的な考察の結果を述べた。すな わち対話の終了時を含むその進行の任意の段階で目標の達成度の概念 を導入し、対話の両方の当事者が共通の目標をもつ場合とそれぞれ別 の目標をもつ場合とにつき考察し、後者の場合についてはそれぞれの 当事者の目標の達成度の何らかの荷重和を総合達成度とした。一方、 このような総合達成度に到達するために必要なコストとして、対話に 要した時間、あるいは発話の回数などを考え、複数の当事者にとって の総合的なコストの概念をも導入した。
市川熹 井宮淳 (千葉大学)
自然な対話が成立するためには、理解処理を実時間で進めることが出 来なければならない。そのためには、対話入力の文構造(統語構造) を実時間で推定する方法と、文と文の構造の類似性を評価する方法が 必要である。対話入力の統語構造を実時間で推定するためには、入力 情報を構成する分節的情報を処理する音韻認識機能と平行して超分節 的情報(音声の抑揚など)を利用することが不可欠である。そこで、 先ず対話理解における実時間理解システムと、そこにおける文の類似 性処理法の構想の概要を述べた。次ぎに、話し言葉音声の超分節的情 報について、統語構造情報等の視点から行った実験的予備検討結果に ついて報告した。さらに、超分節的情報から対話入力の統語情報が得 られたものとして、文と文の構造の類似性を評価する方法についての 試みを示した。このための抑揚情報から文構造を実時関で推定する方 法についても、アルゴリズムの検討状況を報告した。最後に、同じ対 話型自然言語である手話に対して、超分節的情報を用いての文の認識 の可能性を実験的に示した。
金水敏 (神戸大学)
談話管理理論では、談話処理のシステムとして局所的な心的領域を仮 定する。この心的領域は階層的なデータベースと考えることができ、 対話における個々の発話は、このデータベースへの登録、検索、演算 (推論)等の指令であるとみなす。日本語においては、この心的領域は、 D領域とI領域に分割されている。I領域に要素を設定する言語コード を間接形と呼ぶことにすると、間接形には、情報(知識)を取得した経 路が間接的であることを示すために用いられるものと、聞き手にとっ て新規情報であることを示すために用いられるものの2種類が機能的 に区別できる。前者を情報取得の間接形、後者を情報提示の間接形と 呼ぶ。名詞句では情報取得の間接形と情報提示の間接形は形態的には 区別されていない。文(命題)レベルでは、ヨウダ/ラシイ/ソウダ等 のモダリティは情報取得の間接形、終助詞ヨは情報提示の間接形と見 られる。ダロウは情報取得と情報提示の両方の用法がある。「早くし ろよ」等の命令・依頼文に付くヨは、命令そのものではなく、「命令 をしつつある」という話し手の態度に関する情報を提示し、その適切 性を聞き手に証明させようとするために用いられていると考えられる。
土屋俊 (千葉大学)
対話コーパスを作成するときに必要なタグについて検討する。一般に
以下のようなタグを利用することになる。
章分け
<div> 章、節を示す。そのタイプはtypeで。
対話専用
<u> 発話(id, who)
<pause> ポーズ(id,who,type,dur)
<vocal> 伝達意図のある非言語的音声
<kinesic> 伝達意図のある非言語的動作など
<event> 伝達意図のない非言語的動作、随伴事象など
<writing> 対話中に示さられる文書、筆記の内容
<shift> 音調(この使用はoptionalに)
分割
<s> 正書法上の文区切り, <seg> 任意の区切り, <w> 単語(lemma)
同期
<timeline> 時間軸を与える, <when> 時間軸上の重要な点,
<anchor> ポイントの位置にidを与える, <link> 内部のリンクの記述
<linkGrp> リンクのデータベース, <xptr> 外部ファイル参照
編集
<omit>, <del>,
<corr> 正規化されたものを本文に残し、発話自体をsicのvalueとする
<sic> 発話自体を本文に残し、正規化をcorrのvalueとする
このなかでも、実際上扱いが困難なものは、発話を示す<u>である。
たとえば、相手のあいづちにさえぎられることなく、発話権を保持し
たまま発話がつづく場合には、一つの発話をするべきか、複数の発話
とするべきかの判断に迷う。これらの問題について、Stenstrom,
Zatrawski, Kawtkoの意見を検討する。
板橋秀一 保浦直子 上田直子 (筑波大学)
本論文ではまず幾つかの対話音声コーパスの各種統計的性質を比較し、 次に新しい対話音声コーパスの具体例として、テレフォンショッピン グ対話を取り上げて、その設計・収録における問題点を検討している。 4種類の対話音声について書き起こしテキストを作成し、それをロー マ字系列に変換して音素、モーラの単独および結合出現頻度、情報エ ントロピー、カバー率を求めて比較した。その結果2モーラ結合頻度 にはコーパスの性質がかなり反映されていることが分かった。 テレフォンショッピング対話は、注文者、受付者の両方がカタログを 見ながら話しを進めるので、比較的対話が進めやすい。今回は電話は 用いず、接話マイク使用、非対面で DAT収録を行なった。収録に先だっ て、実際にテレフォンショッピングを行ない、それを参考にして、受 付側マニュアルを作成して使用した。19名の話者による35対話につい ては、平均対話時間 4分30秒、発話数 130、1発話当たりの書き起こ し文字数11字であった。