3年間の活動中にVol.1から4まで4枚のCD-ROMからなる音声対話コーパスを作成 した。Vol.1は1994年度、Vol.2〜4は1995年度に作成された。内容は、Vol.1〜 3が模擬対話を収録したもの、Vol.4が模擬対話、実際の対話、朗読、講演の音 声を収録したものとなっている。
それぞれの対話データは、対話の音声をAD変換でデジタル化した音声ファイル、 その音声の情報をテキストによって表現した書き起こしファイル、さらに説明 のためのドキュメントファイルからなっている。また、本CD-ROMを活用するた めのツールとして、京都大学で開発された音声ファイル再生プログラムと書き 起こしテキストから音声を容易に再生できるブラウジングツールも入っている。
音声ファイルはいくつかの例外を除き、3節で述べるような形式で統一 できた。しかし、書き起こしテキストは各機関の研究目的や割ける労力の割合 の違いによって統一は困難であった。本WGで一応の基準とした書き起こしの仕 様は、多くの機関で準備可能とするために、比較的容易に書き起こしができる ものとした。この仕様の中には書き起こしテキストから容易に元の音声を再生 するためのツールと連携が取りやすい仕様も含んでいる。これからの音声対話 の研究をより高度かつ厳密に行うためには、実際の音声にあたることは必要不 可欠であると思われるが、これを容易にするためのブラウジングツールとの連 携を取りやすい仕様は音声対話研究において利用価値の高いものと考えている。 また、TEI[9]のようなより厳密で、表現能力の高い仕様に基づく書き起こしを 作成した機関もあり、そのデータも収録されているので、活用されるものと思 われる。