1 はじめに
大量のデータに対して,統計を利用した音声認識処理がある程度まで成 功したことを受けて,自然言語処理においても,大量のデータを利用した研究 が盛ん.
抽象的な構造を扱う必要がある対話の研究を行な うためには,加工したデータが必要だと考えられている.
音声対話データのような話し言葉は, 収集やデータ整理に手間がかかるため,書き言葉のデータに比べ,大量に収集 するのが難しい.
例)1億語規模で作られた British National Corpus で は,話し言葉と書き言葉の量の比率は,1:9
タグ付き対話データの利用目的
音声認識の認識候補を絞り込み
音声対話システムの誤り修復
働き掛けや応答のような,対話の局所的な構造の調査
局所構造や局所構造間の関係が変化したときのコミュニケーション の効率や課題達成率の変化を明らかにする
研究目的が異なれば必然的にタグは異なるが,データの流通の観点から はできるだけ標準化されているものが望ましい.
欧米におけるタグ標準化の試み...DRI談話タグワークショップ
日本語対話データのためのタグの標準化を目的として,1996年6月,人 工知能学会の言語・音声理解と対話処理研究会の中に談話タグワーキンググルー プが設置された。
Next:
2 標準化案に至る経緯
Up:
No Title
Previous:
No Title
Masahiro Araki
1998年12月16日 (水) 10時42分03秒 JST