5 音声コーパスの将来

音声コーパスとしては、連続音声、対話音声コーパスの充実が求められており、発話者をかなり多数含む必要がある。また、音声コーパスの設計法を確立することが望まれている。さらに、日本ではあまり作成されていない自由発話音声コーパスを収集することも重要である。従来のものはテキストの読み上げであったり、目的を与えられた模擬対話であったりするので、どうしてもある程度は人工的な影響が残っている。それに対して実際に音声自動認識装置を使う場面では、自由発話音声を想定しなければならない。また、現在は各言語の共通語 (標準語)を対象とするのが普通であるが今後は方言音声を取り扱うことが必要になる。自動翻訳電話の開発等を考えると、多言語コーパスが重要になって来るであろう。

音声データベースで問題になるものにセグメンテーションとラベリングがある。音声信号を時間軸上で言語学的・音声学的単位に区分するセグメンテーションと、その区分された区間に音声学的カテゴリーを割り当てるラベリングは一体の問題である。現在は区分の単位として、音素片、単音、音素、半音節、音節、 VCV音節などが用いられている。どの単位を採用するか、区間の中心部を示すのか境界を示すのか、境界の定義をどうするか等問題は多い。

音声データベースシステムとしては、まだ確立されたものはないと言って良い。関係モデルをベースにしたものが幾つか試みられている程度である。今後も、しばらくはこの方向で進むものと思われる。将来的にはラベリング等を行わずに音声コーパス自身が集積されていれば、音声認識技術と組み合わせて(その内容は予め分かっているので)任意の検索ができるようになることが望ましい。

Next: 6 むすび Up: PASDコーパス - 重点領域模擬対話音声コーパス - Previous: 4 ツール

Tatsuya Kawahara
Wed May 14 21:30:55 JST 1997