音声コーパスとしては、連続音声、対話音声コーパスの充実が求められており、 発話者をかなり多数含む必要がある。また、音声コーパスの設計法を確立する ことが望まれている。さらに、日本ではあまり作成されていない自由発話音声 コーパスを収集することも重要である。従来のものはテキストの読み上げであっ たり、目的を与えられた模擬対話であったりするので、どうしてもある程度は 人工的な影響が残っている。それに対して実際に音声自動認識装置を使う場面 では、自由発話音声を想定しなければならない。また、現在は各言語の共通語 (標準語)を対象とするのが普通であるが今後は方言音声を取り扱うことが必要 になる。自動翻訳電話の開発等を考えると、多言語コーパスが重要になって来 るであろう。
音声データベースで問題になるものにセグメンテーションとラベリングがある。 音声信号を時間軸上で言語学的・音声学的単位に区分するセグメンテーション と、その区分された区間に音声学的カテゴリーを割り当てるラベリングは一体 の問題である。現在は区分の単位として、音素片、単音、音素、半音節、音節、 VCV音節などが用いられている。どの単位を採用するか、区間の中心部を示す のか境界を示すのか、境界の定義をどうするか等問題は多い。
音声データベースシステムとしては、まだ確立されたものはないと言って良い。 関係モデルをベースにしたものが幾つか試みられている程度である。今後も、 しばらくはこの方向で進むものと思われる。将来的にはラベリング等を行わず に音声コーパス自身が集積されていれば、音声認識技術と組み合わせて(その 内容は予め分かっているので)任意の検索ができるようになることが望ましい。