日時:8月9日(月)・10日(火)
場所:仙台・作並温泉 作並荘
板倉文忠 王紅 梶田将司 (名古屋大学)
音声による人間−機械間の自然な対話を実現するためには、室内騒音 や残響が存在する実音響環境においても高い音声認識率を達成する事 が要求される。本稿では、室内騒音や残響等によって劣化した音声信 号から、音声認識に有効な音響的特徴を安定かつ精度よく抽出するた めの研究計画について述べている。本研究では、音響系の伝達関数の 逆フィルタ、多点受音音響信号処理ならびに両耳聴のモデルなどの研 究と、その対話音声処理への応用に関する研究を行う。
北澤茂良 (静岡大学)
本研究は対話音声の非言語的情報と対話構造の解析を通じて意志伝達 の暗示的の側面を考察しようとする。音声対話は意志伝達の過程であ り、暗示的に多くの非言語情報が伝達されている。非言語情報は話者 間の心象交換に言語情報以上に強く関係している。この非言語情報は 対話構造と明確に区分しがたい。意志伝達の暗示的な側面を導入する ことは機械との対話に自然な発話の流れを達成するのに効果的である。 計画はまず、広範な対話音声の実例を分析し詳細に記述する。対話音 声の記述方法として音響音声学的ラベリングと超文節的特徴や周辺言 語情報など社会言語学的記述の融合方式を提案した。その上で、対話 構造の分析を行う。その際、定型応答、開始符号、合図単語などを認 識して、これを手がかりとして話題の展開の流れを追跡する。対話音 声から暗示的な意志伝達の情報を抽出するには従来の音声分析・音声 認識の手法がその基礎となる。最後に、対話音声認識の立場から周辺 言語および対話構造の認識の問題点に関して考察した。
中川聖一 (豊橋技術科学大学)
本稿では分担研究課題「対話音声の認識」に関する研究の現状と計画 について述べる。本重点領域研究の3年間に次のような項目について の研究を計画している。(1)ロバスト・高精度な音声認識手法、 (2)Spontaneous speech の特徴分析と機械処理の可能性の検討、(3) ここ数年開発してきた音声対話システムの対話制御法の改良、(4)対 話文法や対話言語モデルの自動構成法、言語モデルの適応化手法の検 討、(5)意味解析駆動型の音声理解手法の検討、(6)音声を核としたマ ルチモーダルな対話手法の検討などである。具体的な研究内容例とし て、(1),(2),(3)についての現状と計画を特に詳しく述べる。(1)につ いては、現在検討中である教師なし話者適応化についてのアイデアと 現状を述べる。(2)については、未知語・間投詞処理と言い直しに関 しての特徴分析と機械処理に関する基本的なアイデアと予備実験結果 について述べる。(3)については、ユーザ発話の予測手法、Robustな 対話文の理解手法、対話制御部の改良についての計画を述べる。
牧野正三 (東北大学)
本稿では、今後3年間の研究計画について述べる。研究は大きく2つに 分かれる。1つは高精度音素認識システムの構築であり、他は対話音 声認識システムのための文法の構築である。高精度音素認識システム の構築では、我々が提案した修正LVQ2法とDP法あるいはHMM法の結合 と、音素の予備認識結果を利用した入力音声への適応に基づく連続音 声認識法の研究を行なう。対話音声認識のための文法の構築に関して は、文節を単位とし、係受けを基本とする。また、関投詞や倒置と韻 葎的特徴との関連を分析する。さらに高速の文節検出法や、近距離文 数に基づくタスクの複雑度の評価についても研究を行なう。
新美康永 小林豊 (京都工芸繊維大学)
音声の認識誤りが避け難い音声対話システムとの対話においては、あ まりにも多くの情報を一度に伝えようとしても能率よい情報伝達は実 現できない。システムとユーザの特性を考慮に入れた対話制御によっ て、高能率だけでなく、情報が確実に伝わっているという安心感をユー ザに与え、心地よい対話を実現することが望まれる。本研究では、シ ステムとユーザの対話の状況における情報交換の能率と対話の心地よ さを定量化して、それら二種類の評価を統合した尺度の意味で最適な 対話制御の方式を検討する。本稿では、フレーム表現の目的達成度に よる伝達情報の定量化の試案を示すとともに、対話の能率に影響を持 ちシステム側で制御可能な要因をさまざまな処理レベルに関するもの に分類し、それぞれの特性を考察した。また、システムの発話スタイ ルがユーザ発話スタイルに与えるに影響を調べた予備実験についても 報告した。
--音声対話用音声合成器の開発と合成音声の心理的評価--
粕谷英樹 (宇都宮大学)
本稿では音声対話システムのための柔軟な音声合成器の開発計画とそ の心理的評価法の基本方針について述べた。音声対話システムのため の音声合成器は、高品質で柔軟な分節的・超分節的特徴の制御が必要 になる。われわれは、ソース・フィルタモデルの考えに基づく、ホル マント・音源素片編集方式を提案した。また、第1段階となる新しい 適応的分析方式について述べた。心理的評価法については、合成音声 の不完全さが音声対話の流れに与える心理的影響についてシミューレー ション実験によって明らかにする計画について述べた。
--音声対話システムにおける応答音声の生成--
広瀬啓吉 (東京大学)
音声対話システムの全体構成を概観した上で、深層意味表現から高品 質の応答音声を合成し出力するためには、従来のようなテキスト音声 合成装置を流用するのではなく、対話システム用に独自に開発する必 要があることを指摘した。その上で、具体的に、1.応答内容の深層意 味表現から、焦点、省略・照応表現に関する情報を用いて表層文を生 成すると同時に、統語・談話情報等の言語情報および伝達したい意図 を音声合成に適した形式で出力する技術、2. 対話音声調でかつ統語・ 談話情報や話者の意図等を反映した韻律的特徴を有する聴き手にとっ て自然でかつ理解され易い合成音声を出力する技術、3.分節的特徴か らみても高品質の合成音声を出力する技術、について言及し、それぞ れに関し、現在得られている成果と今後の研究方針を述べた。
今泉敏 新美成二 桐谷滋 (東京大学) 世木秀明 (千葉工業大学)
対話における音声言語の言語的・音響的特性は、相手の特性や話題の 進行、環境の変化などに応じて能動的に制御される。しかし、その制 御様式や効果は明かではない。本研究では、主たる聴者が難聴児ある いは健聴児である場合の難聴児教育者の会話音声を解析し以下の結果 を得た。1)難聴児との会話ではより多くの単文を使用し、より多く の反応を得ていた。健聴児に対しては、使用された文数が約1/5に減 少し、かつ単文は全体の75%に減少した。難聴児に対する課題説明 では児の了解を随時確認しながら進行した。2)難聴児に対する会話 音声の音節長及びポーズ長が健聴児に対する場合と比べて有意に長く なる傾向を示した。以上の結果は、教師が聴取者の言語知覚・認知能 力に応じて文やその音響的時間構造を変えることを示すものであり、 聴者の特性を補償するような発話企画を行うこと、それは課題を一群 の文に変換する段階でも、文の音響的時間構造を決める構音運動の企 画遂行段階でも行なわれることを示している。
仁科喜久子 (東京工業大学)
本研究はできるだけ自然な音声対話を採録し、言語学的観点で観察、 分析し、コンピュータ工学の協力を得て、CAIなどの日本語教育教 材作成に反映できることを最終目標とするものである。分析に当たり 東京工業大学大学院で行われるセミナーでの外国人留学生の発表場面 をビデオ収録し、音声対話のデータベースとして作成した。その中に みられる質疑応答、ディスカッションでの日本人教官および学生など のセミナー参加者との対話を取りあげる。その中で両者の相互理解に 至るまでの過程として特にパラフレーズに着目して、その構造を語彙 のレベルからディスコースレベルまで言語学的に記述し、そのプロト タイプを求め、特に対話ディスコースのコヒージョンに注目する。
有木康雄 (龍谷大学)
従来、音声認識の手法として、音素、単語、フレーズといった階層を 設けて処理する方式と、階層を設けない処理方式(One-stage Viterbi などネットワーク構文型のアルゴリズムなど)があった。本 研究では、音素、単語、フレーズの聞き取りが存在すること、それら は、下から上への階層をなしているのではなく、学習の習熟や理解の レベルに応じて選択されるものであるという観点から、各階層が同時 に処理を進め、理解のレベルに応じて階層を選択しながら協調処理し、 不明なところを補足する音声認識の手法の研究計画について述べてい る。研究計画は、次の項目から成り立っている。(a)対話音声に対 して、従来の文法で解析可能なところだけをボトムアップに精度よく 解析する。(b)部分的な解析結果を使って対話の流れや意味を推定 する。(c)その結果を入力にフィードバックして、更に解析可能な 部分を広げ解析するというフィードバックループの構造を作る。
垣田邦子 (富山県立大学)
本稿では、話しことばにおける話者間の発話リズムの相互作用を解明 するための研究計画を説明する。本研究の目的は、一人の話者の発話 リズムがもう一人の話者の発話リズムによってどのように影響される かを解明することである。具体的には、以下の方法により研究を進め る。1) 一人の被験者がとおしてパラグラフ (一連の文) を読んだ場 合と、「先行話者」がパラグラフの一部を読み、被験者がそのあとを 続けて読んだ場合とを比較し、被験者の発話リズムが先行話者の発話 リズムによってどのように影響されるかを調べる。2) 発話リズムを 反映する音声特徴として、発話速度、ポーズ長、音声の基本周波数と 振幅の4つの音響パラメータに着目し、被験者の発話におけるこれら のパラメータの値が先行話者の発話の影響によってどのように変化す るかを明らかにする。