書き起こしのテキストは以下の7種類が存在する。括弧の中に書いてあるのは
書き起こしファイルのファイル名の規則である。
- (1)
- 1行1文書き起こし(*.trn)
「音声の知的処理に関する調査研究」書き起こしテキスト作成基準に基づく。(おおよそ1行1文になっている)
- (2)
- 1行1文音声対応書き起こし(*.sp)
上記の「1行1文書き起こし」ファイルに音声ファイルと対応させるための区切り記号と対応音声ファイル名を記述したもの。
- (3)
- 1行1ファイル書き起こし(*.syn)
1行の書き起こしが正確に音声ファイル1つに対応し、かつスペースによるおおよその同期情報を含む書き起こし。
- (4)
- 平仮名書き起こし(*.kan)
平仮名およびカタカナ表記の書き起こし。
- (5)
- ローマ字書き起こし(*.rom)
JEIDA正書法によるローマ字表記(大文字)による書き起こし。
- (6)
- TEI書き起こし(*.tei)
TEIに基づく書き起こし
- (7)
- その他の書き起こし(ファイル名は任意)
その他の書き起こし基準、記述法に基づく書き起こしテキスト
但し、*は対話番号(cccmmmm)
CD-ROMに入れる書き起こしファイルの原則は以下の通りである。
- (1)〜(5)はすべて入れる。ただし、(3)については同期情報がないものも認
める。ただし、1行1ファイルの原則は必ず満たしていること。
- (6)は努力目標として、作成したならば入れる。
- (7)は情報量が(1)〜(5)よりも多ければ入れる。
以下、(1)〜(5)の各書き起こしの仕様を説明する。
(a) 1行1文書き起こし(*.trn)
「音声の知的処理に関する調査研究」[10]書き起こしテキスト作成基準に基づ
いた、おおよそ1行1文になっている書き起こしテキストである。以下に、[10]
を若干修正して、本WGで採用した書き起こし基準を以下に述べる。
(1) ヘッダー
ファイルの頭に内容を表す次のようなヘッダを付ける。
模擬対話(書き起こし)
タスク:観光・旅行案内
トピック:筑波案内
対話番号:tsu0001
収録年月日:1991/3/24
A/B:tsu0201/tsu1202
テキスト作成日:1991/5/4
- タスクは「観光・旅行案内」、「学校・会社案内」、「その他」の3つから1つ選ぶ。
- トピックは内容を表すものを自由に書く。
- 対話番号の後には対応する対話番号を書く。
- 英字は話者ラベル以外は小文字に統一する。
- A/Bの後には対応する話者番号を書く。話者ラベルに"A:", "B:" 以外を用いた場合は、それに応じて"A/B"を書き換えること。
- 上記のコードは漢字ひらがら以外はすべて半角とする。
(2) 文
- 一文一行とする。(文の終りで必ず改行をし、文の途中で改行しない。)
- 文の終りに「。」をつける。(疑問文でも?は使わない。)
- 文の認定は以下の基準による。
- 原則として述語句を一つ以上含む。
- 省略質問文に関しては述語句を含まなくてもよい。
(例)お値段とか、具体的にわかれば。 - 感動詞は単独で文になれる。
(3) 発話者ラベル
- 文の先頭には原則として発話者ラベルをつける。
- 次の文が同じ話者の場合、発話者ラベルは省略してよい。 ただし、インデントは揃える。
- 発話者ラベルは半角の"A:"と"B:"を原則とする。異なるラベルを割り当てる場合は、半角で各話者ラベルの長さが同じであること。
- 発話者ラベル"A:","B:"を用いる場合は、"A:"が左チャンネル、"B:"が右チャンネルの音声に対応する。
(4) 言い淀み、言い直し、不要語、あいづち、非言語情報の表現
- 言い直しについては、言い直された区間を、また、言い淀みについては、言
い淀んだ部分を()でくくる。
(例)一番お薦めなのは(甲州街道)甲州街道で、 - 冗長語、間投詞(不要語、無意味語)は[]でくくる。
(例)20キロぐらい走ったところで、
[あのー]鶴川街道という…。
また、冗長語、間投詞と地の文を区別する。
(例)同じ「はい」でも、英語のyesの意味のものは地の文にして、
「[はい]出てまいりました」のようなものは[]に入れる。 - 相槌は{}でくくる。
(例)もう少し行くと、{はい。}右に看板がでますから…。 - 咳や笑い声などの非言語音声情報は、<>でくくって表す。以下の3種類を対象とする。
<笑い>:笑い声
<咳/くしゃみ>:咳あるいは、くしゃみ
<雑音>:上記以外の雑音 - これらの記号はすべて全角で書く。
(5) 数詞
(6) 読み方の指定
- 読み方の分かりにくい固有名詞や、複数の読みかたが考えられる数詞などには、積極的にローマ字で読みをふる。
- ローマ字は半角アルファベットとし〈〉で囲む。表記は、電子協方式に従う。大文字であるか小文字であるかは問わない。
- わかち書きする場合は、半角ブランクを用いる。
(例)二日目〈futsuka me〉
(7) その他
- アルファベットは使用せず、読みをカタカナで書く。
(例)JR→ジェーアール - 短いポーズは「、」、長いポーズは「...」で表す。
- 引用は記号は「」を用いて表す。このほかの記号は用いない。
- 「・」「〜」「?」などの特殊記号は用いない。
- 同時発話、息つぎ、かすれ声、声の上がり下がり等の情報は重要であるが、一定の基準で安定して付与し難いので、ラベルを付けない。
Next: (b) 1行1文音声対応書き起こし(*.sp)
Up: 3 音声対話コーパスの仕様
Previous: 3.2 音声ファイルの仕様
Tatsuya Kawahara
Wed May 14 21:30:55 JST 1997