(2) 対話コーパスの作成条件のまとめ

本WGでは〈〉の項目を取り上げることとした。

1.
対話環境:〈1〉人間=人間〈2〉人間=機械(WoZ 方式を含む)〈3〉電話 対話(4)放送
2.
対話様式:〈1〉自由対話〈2〉模擬対話〈3〉テキストの読み上げ
3.
対話形態:〈1〉対面〈2〉非対面
4.
コーパス形態:〈1〉音声〈2〉テキスト
5.
対話言語:〈1〉共通語(2)方言(3)外国人との対話(4)外国語
6.
非言語情報:〈1〉なし(2)図表(地図、時刻表等)
7.
文字転写:〈1〉漢字かな混じり〈2〉かな〈3〉ローマ字
8.
タグ情報:(1)文節(2)単語〈3〉間投詞〈4〉冗長語(あいづち、いい淀み、言い直し)〈5〉割り込み〈6〉発話の重なり〈7〉ポーズ(8)雑音〈9〉非言語情報(笑い等)
9.
品詞分類:〈1〉名詞〈2〉動詞〈3〉形容詞〈4〉形容動詞〈5〉副詞〈6〉連体詞〈7〉接続詞〈8〉感動詞〈9〉数詞〈10〉助詞〈11〉助動詞〈12〉接頭辞〈13〉接尾辞
10.
音声との対応:〈1〉ポーズ(呼気段落)〈2〉冗長語〈3〉割り込み〈4〉発話の重なり(5)非言語情報(笑い等)
11.
録音環境:〈1〉防音室〈2〉静かな室(3)事務室(4)計算機室(騒音環境)
12.
収録媒体:〈1〉DAT(2)8mmMT(直接AD変換)
13.
マイクロホン:〈1〉接話型〈2〉卓上(手持ち)型
14.
低域フィルタ:遮断周波数、遮断周波数での減衰(dB)、減衰率(dB/Oct)、位相特性、等を明記
15.
AD変換:量子化精度(16ビット、12ビット等)を明記
16.
標本化周波数:〈1〉16kHz(2)20kHz(3)24kHz(4)22kHz
17.
ビデオ情報:〈1〉ビデオ撮影なし(2)ビデオ撮影あり
18.
配布媒体:CD-ROM
19.
対話者の音声はできる限り分離して2チャンネルに収録すること
20.
対話の長さ:3分程度以上任意
21.
対話の数:任意
22.
対話者数:全体で男女約半数づつが望ましい
23.
タスクの例:観光案内、地理案内、空港案内、グルメ案内、交通案内、買いもの、テレフォンショッピング、料理、病気、税金、慶弔、お喋り、日常業務、教師と生徒、質問応答、セミナー、インタビュー、重点領域研究会の発表
24.
テキストコーパス:Newsネットワーク、Email 等の利用、卒論、修論、博論、重点領域研究発表資料


next up previous
Next: 付録C 各CD-ROMの概要 Up: 付録B アンケート項目 Previous: (1)音声言語コーパスに関するアンケート

Tatsuya Kawahara
Wed May 14 21:30:55 JST 1997