(b) 1行1文音声対応書き起こし(*.sp)

「1行1文書き起こし」のテキストを対応する音声ファイルごとに区切りを入れ、 対応する音声ファイル名を記述したファイルである。

区切り:10個以上の半角の"-"を区切りとして入れる。見やすくするための、 空行は任意に入れてよい。headerの下にも必ず区切りを入れること。

音声ファイル名:音声ファイル名からチャンネル記号を抜いたファイル名を区 切りの1つ下の行に入れる。音声ファイルとの対応をとるときに使われる情報 であるため、半角で記述し、大文字・小文字に関してもファイル名と統一する こと。

(c) 1行1ファイル書き起こし(*.syn)

1行の書き起こしが正確に音声ファイル1つに対応し、かつスペースによるおお よその同期情報を含む書き起こしである。この書き起こしテキストによって、 ブラウジングツールによる音声の再生が可能となる。

(1) ヘッダー

「1行1文書き起こし」のヘッダーに、以下の行を加える。

 同期情報:あり/なし

(2) 書き起こしの本体

必ず、左チャンネルの発話者から始まり、各チャンネルの話者ごとに交互に (さらに時間順に)1行に1音声ファイルに対応した発話を書き起こしていく。こ のため、無音の音声ファイルに対応する発話者の行は発話者ラベルだけの行と なる。また、同じ時間に発話された左右両チャンネルの書き起こしは必ず連続 する行となり、ペアを形成する。このペアの書き起こしは、発話の重なりを表 現する同期情報が(4)で説明する方法で記述される(同期情報がある場合)。

(3) 発話者ラベル

「1行1文書き起こし」と同じ。従えない場合は、それを別のファイルで明 記する。

(4) 行の定義

1行には1つの音声ファイルに対応する発話の書き起こしを「1行1文書き 起こし」の(4)〜(7)の基準に準じて書く。また、以下の点は異なる。

(d) 平仮名書き起こし(*.kan)

「1行1文書き起こし」または「1行1ファイル書き起こし」のheader以外の部分 を平仮名および片仮名に変換したテキスト。カタカナは外来語などに使用。

(e) ローマ字書き起こし(*.rom)

「1行1文書き起こし」または「1行1ファイル書き起こし」のheader以外の部分 をJEIDA正書法によるローマ字表記(大文字)に変換したテキスト。

(f) その他のテキスト

^_spks: 話者情報
^_dlgs: 対話一覧
^.tex^.psなど: 対話の概要、収録状況、使用した図など
speakers: 収録話者一覧
但し、^は収録機関コード(ccc)


next up previous
Next: 4 ツール Up: 3.3 書き起こしテキストの仕様 Previous: 3.3 書き起こしテキストの仕様

Tatsuya Kawahara
Wed May 14 21:30:55 JST 1997