この調査項目の妥当性の検証を兼ねて、数名の方に事前に回答をお願いした。寄せられた回答からポイントと思われる箇所(主にQ24-25の回答)を抜粋した。なお各先生方には、研究会当日に来られれば、コメンテータをつとめて頂く予定である。(以下敬称略)

中村哲 (ATR) 音響モデルのミスマッチも大きいが、非常に自由度の大きい対話の認識にはかなりかかると思う。基本的には、言語モデルをかなり変えないといけないと思う。やはり、文法や意味、文脈などの高次の情報を使う方向に進む。また、柔軟かつ統計的な対話のモデルが出現するだろう。話者について、年齢や静的な差は解決される。方言などの問題は残る。入力環境への頑健性は、音声以外の情報の利用、環境のデータベースの整備で研究が進むと思う。このあたり、すこし人間の情報処理を学んだ方が良いかもしれない。

西村雅史 (日本IBM) Q6の質問に関してですが、``電話の音声認識によるサービス''って5年後や10 年後にもまだ使ってますかね？みんなi-modeでやってるんじゃないかって気がずっとしているのですが。私としては、``５年後・10年後、i-modeのような機器が広く普及した後も電話音声による自動応答サービスは必要とされていると思いますか?'' というような質問を{社会の環境}あたりの項目に加えていただけたらと思います。 [著者注] この指摘に基づいて質問項目を当初より追加しました。

山下洋一 (立命館大) 音響情報、言語情報、韻律情報 (+マルチメディアシステムであれば画像情報) など、個別の情報の取捨選択(どこには何が有効か)および統合がやはり今後の課題の一つになりそうです。きれいな読み上げ音声の認識では、音響情報と言語情報を確率の枠組で統合し、成功を収めたと言えますが、会議の音声や対話音声などのように多様性が広がると、母集団の特徴をカバーできるだけのデータを収集することが難しいのではないかという気がします。そうなると、別の情報統合の枠組が必要ということになりますが、果たしてどこまで「データ収集＋確率モデル」で挑むのでしょうか？

武田一哉 (名古屋大) いかにHMMやN-gramといえども、モデルの大規模化には限界がある。（どれだけデータがあっても、電話とマイクで同じモデルというわけにはいかないでしょう）。様々なモデルを適宜切り替えながら利用する情報統合の原理が必要ではないか。

小林哲則 (早稲田大) (1) かなりのことは10年後に解決している。 (2) そのとき、基本的には今ある技術(HMM+Ngram)がベースになっている。 (3) ただし、データだけの問題ではなく、それぞれの確率モデルも進歩を遂げている。 (4) 適応というよりは、データの正規化の技術が進む。 (5) ディスタントマイクの問題など、ニーズのある技術は数年で急速に発展する。