この調査項目の妥当性の検証を兼ねて、数名の方に事前に回答をお願いした。
寄せられた回答からポイントと思われる箇所(主にQ24-25の回答)を抜粋した。
なお各先生方には、研究会当日に来られれば、コメンテータをつとめて頂く予
定である。(以下敬称略)
中村 哲 (ATR)
音響モデルのミスマッチも大きいが、非常に自由度の大きい対話の認識にはか
なりかかると思う。基本的には、言語モデルをかなり変えないといけないと思
う。やはり、文法や意味、文脈などの高次の情報を使う方向に進む。また、柔
軟かつ統計的な対話のモデルが出現するだろう。
話者について、年齢や静的な差は解決される。方言などの問題は残る。
入力環境への頑健性は、音声以外の情報の利用、環境のデータベースの整備で研究
が進むと思う。このあたり、すこし人間の情報処理を学んだ方が良いかもしれない。
西村 雅史 (日本IBM)
Q6の質問に関してですが、``電話の音声認識によるサービス''って5年後や10
年後にもまだ使ってますかね? みんなi-modeでやってるんじゃないかって気
がずっとしているのですが。私としては、``5年後・10年後、i-modeのような
機器が広く普及した後も電話音声による自動応答サービスは必要とされている
と思いますか?'' というような質問を{社会の環境}あたりの項目に加えていた
だけたらと思います。
[著者注] この指摘に基づいて質問項目を当初より追加しました。
山下 洋一 (立命館大)
音響情報、言語情報、韻律情報 (+マルチメディアシステムであれば画像情報)
など、個別の情報の取捨選択(どこには何が有効か)および統合がやはり今後の
課題の一つになりそうです。きれいな読み上げ音声の認識では、音響情報と言
語情報を確率の枠組で統合し、成功を収めたと言えますが、会議の音声や対話
音声などのように多様性が広がると、母集団の特徴をカバーできるだけのデー
タを収集することが難しいのではないかという気がします。そうなると、別の
情報統合の枠組が必要ということになりますが、果たしてどこまで「データ収
集+確率モデル」で挑むのでしょうか?
武田 一哉 (名古屋大)
いかにHMMやN-gramといえども、モデルの大規模化には限界がある。(どれだ
けデータがあっても、電話とマイクで同じモデルというわけにはいかないでしょ
う)。様々なモデルを適宜切り替えながら利用する情報統合の原理が必要では
ないか。
小林 哲則 (早稲田大)
(1) かなりのことは10年後に解決している。
(2) そのとき、基本的には今ある技術(HMM+Ngram)がベースになっている。
(3) ただし、データだけの問題ではなく、それぞれの確率モデルも進歩を遂げてい
る。
(4) 適応というよりは、データの正規化の技術が進む。
(5) ディスタントマイクの問題など、ニーズのある技術は数年で急速に発展する。