3.3 書き起こしテキストの仕様

書き起こしのテキストは以下の7種類が存在する。括弧の中に書いてあるのは 書き起こしファイルのファイル名の規則である。

(1)
1行1文書き起こし(*.trn)
「音声の知的処理に関する調査研究」書き起こしテキスト作成基準に基づく。(おおよそ1行1文になっている)

(2)
1行1文音声対応書き起こし(*.sp)
上記の「1行1文書き起こし」ファイルに音声ファイルと対応させるための区切り記号と対応音声ファイル名を記述したもの。

(3)
1行1ファイル書き起こし(*.syn)
1行の書き起こしが正確に音声ファイル1つに対応し、かつスペースによるおおよその同期情報を含む書き起こし。

(4)
平仮名書き起こし(*.kan)
平仮名およびカタカナ表記の書き起こし。

(5)
ローマ字書き起こし(*.rom)
JEIDA正書法によるローマ字表記(大文字)による書き起こし。

(6)
TEI書き起こし(*.tei)
TEIに基づく書き起こし

(7)
その他の書き起こし(ファイル名は任意)
その他の書き起こし基準、記述法に基づく書き起こしテキスト

但し、*は対話番号(cccmmmm)

CD-ROMに入れる書き起こしファイルの原則は以下の通りである。

以下、(1)〜(5)の各書き起こしの仕様を説明する。

(a) 1行1文書き起こし(*.trn)

「音声の知的処理に関する調査研究」[10]書き起こしテキスト作成基準に基づ いた、おおよそ1行1文になっている書き起こしテキストである。以下に、[10] を若干修正して、本WGで採用した書き起こし基準を以下に述べる。

(1) ヘッダー

ファイルの頭に内容を表す次のようなヘッダを付ける。

模擬対話(書き起こし)
タスク:観光・旅行案内
トピック:筑波案内
対話番号:tsu0001
収録年月日:1991/3/24
A/B:tsu0201/tsu1202
テキスト作成日:1991/5/4

(2) 文

(3) 発話者ラベル

(4) 言い淀み、言い直し、不要語、あいづち、非言語情報の表現

(5) 数詞

(6) 読み方の指定

(7) その他


next up previous
Next: (b) 1行1文音声対応書き起こし(*.sp) Up: 3 音声対話コーパスの仕様 Previous: 3.2 音声ファイルの仕様

Tatsuya Kawahara
Wed May 14 21:30:55 JST 1997