1 はじめに

大量のデータに対して，統計を利用した音声認識処理がある程度まで成功したことを受けて，自然言語処理においても，大量のデータを利用した研究が盛ん．
抽象的な構造を扱う必要がある対話の研究を行なうためには，加工したデータが必要だと考えられている．
音声対話データのような話し言葉は，収集やデータ整理に手間がかかるため，書き言葉のデータに比べ，大量に収集するのが難しい．
例)1億語規模で作られた British National Corpus では，話し言葉と書き言葉の量の比率は，1:9
タグ付き対話データの利用目的
- 音声認識の認識候補を絞り込み
- 音声対話システムの誤り修復
- 働き掛けや応答のような，対話の局所的な構造の調査
- 局所構造や局所構造間の関係が変化したときのコミュニケーションの効率や課題達成率の変化を明らかにする
研究目的が異なれば必然的にタグは異なるが，データの流通の観点からはできるだけ標準化されているものが望ましい．
欧米におけるタグ標準化の試み...DRI談話タグワークショップ
日本語対話データのためのタグの標準化を目的として，1996年6月，人工知能学会の言語・音声理解と対話処理研究会の中に談話タグワーキンググループが設置された。

Next: 2 標準化案に至る経緯 Up: No Title Previous: No Title

Masahiro Araki
1998年12月16日 (水) 10時42分03秒 JST