討論: 音声認識技術の今後の10年について 河原 達也 (京大), 中村 哲 (ATR), 西村 雅史 (IBM), 武田 一哉 (名大) (主要な討論部分のみ抜粋、若干編集) 河原: 次に、技術面、どういう技術が今後10年後に使われているだろう か、という話なんですが、まず、パラメータ。 「依然としてMFCCもしくはLPCのパラメータが使われているか、そうでない場合、他 の候補は。」ということだったんですが。 これは、音響特徴量に関する研究は今も結構論文とかあるんですが、実際10年前もほ とんど同じですし、私の印象ではむしろ以前より画一化された様相が、みんな12次で δとδδという感じで、以前より画一化されたような様相さえあるんですが、やっ ぱりそう答えている方がだいたい4割、そうじゃないという人も、別のものになって いるだろうけれど何かよくわからないと答えているということで、あ んまり見えていないという感じもするんですが、代替候補としてはもちろんもっと聴覚 的な特性を反映したパラメータになるんではないかと思われるんですが。 どなたかコメントをいただける方はおられませんか。松本先生、いかがですか。 松本: アンケートに答えてなかったんですがたぶん一番上の「はい」というのが自分の中で は7割ぐらいで、あとは聴覚的なものを参考にして得られる何か新しいパラメータが 増えてるという可能性が3割ぐらいあるというような、そんな感じですけども。です からそこのアンケートと自分の頭の中と、同じような感じであんまり参考にならな い。 河原: いえ、参考になりました。では、相川さんとか、何かコメントをいただけますか。 相川: いろんなパラメータ提案されてて、私もこのアンケートでは聴覚モデルと書いたんで すが、たぶんですね、単純に機械的な分析をしている方法だとやっぱり限界があっ て、もうちょっと何か一工夫いるんじゃないかなと思っています。まだアイデアが 全然ないんですけども。聴覚モデルっていってもいわゆる普通の、耳を分解してでき た聴覚モデルがいいのか、あるいはもうちょっと頭の方と結びつけないといけないの か、ちょっとその辺わからないんですけど、もうちょっと一工夫いるなと思ってま す。 河原: ありがとうございます。あ、では、中川先生。 中川: 僕も前から思ってるのはね、LPC系で分析合成すれば元通り人間の耳で聞こえるか、 十分情報量は持っているというので、----- 特徴パラメータとしては確かにいいかなと思ってるんですけども、やはりそれは人間 の耳で聞いてLPC系で聞こえるんであるのでね、機械で完全に認識しようと思った ら、やっぱり特徴パラメータもうちょっといいのが出た方が、全体バラン スとして上がるからね、やっぱりだから特徴パラメータ関係も何かいいのができて こないと困るかなという気がしますけどね。 河原: もっとロバストにするとするとやっぱりそこがキーになるのは、、あ、どうぞ鹿野先 生。 鹿野: あんまり音響処理やってないから勝手なことは、、これは非常に問題が多いというの は、今のデータベースがね、マイクで非常にいいコンディションでとったデータベー スをすごく使ってきて、人間が音声聞く条件と全く違うんですよね。人間はもっと遠 くの声を耳で聞いて実際認識してる。そういう意味で聴覚の人もそういう条件で聴覚 モデルを考えるし、我々もそういう面で特徴量を考える。だから、残響みたいのがあ るともっと長いとこにかぶりますよね。そういうことを考えて特徴量を使わないと、 それはまあセグメントモデルとはたぶん関係ないと思うんですけどね。そういうこと を本当にデータベースも変えてやらないといけないのではないかと。たぶん私は「は い」に答えちゃってると思うんだけどね、やはりだけどそう言いながら難しいから きっと、そのままMFCCかそういうのでずっといってしまうという気がしますけれど も。 河原: じゃあ、どうぞ、武田先生。 武田: ちょっと、立場上というか、、MFCCとLPCを一つのものをして扱うということ自体に いろいろ問題を感じてはいるんですが。要するに新しいものを出すというのはどれぐ らいの覚悟が必要かというとたぶんその、信号のスペクトル解析というところから立 ち戻って新しいものを作っていくと、そのぐらいの覚悟でやっていかないと聴覚モデ ルとか、いろいろアイデアは非常にいいと思うんですけれども、出てくるものは所 詮、フーリエスペクトルの変形であったり、それに対数がかかったりと、そういった ものでしかなくて、箱に入れてガラガラっとやると一つのものになってしまうと、そ ういうことが私の頭の中にあって、ですから新しいものを作るっていうのはすごく大 変、だからまあ、しばらくというかもうずっとこれからは、いわゆるフーリエスペク トルかあるいはLPCスペクトルか、そのどちらかで進んでいくしかないだろうという のが私の考えなんですけれども。 河原: 中村先生、いかがですか。 中村: 問題はたぶん二つあると思うんですね。一つは音を区別するという意味でもう少し精 密なモデルの特徴量を見つけるという問題と、それから、鹿野先生がおっしゃいまし たように残響とかそういうファクタについて人間のように強い特徴量を求めるとい う、二つの問題があって、たぶん、これは同じようにはいかない、最終的にはつなが るとは思うんですが、同じようにはいかないような気がしていて、やはり武田先生 おっしゃっいましたように非常に時間がかかっていて、今動いているシステムという のは、かなりチューニングされてますので、いろんな角度からそれを補完するような パラメータになっているので、そういうことをするためにしばらく我慢して研究して いかないといけない、という意味で、私もこれを「はい」にしておりまして、なかな か難しい問題だと思っております。 あとそれと、ちょっと手前味噌ですけど、人間は音だけで認識しているんじゃないの で、そういうマルチモーダルな情報をもっとうまく入れていくというのが一つの方法 じゃないかなという気がしています。 河原: 他どなたか、では、嵯峨山さん。 嵯峨山: 一つ、私の持っている個人的な予測を申しますと、聴覚モデルというのが、MFCCも一 種の聴覚モデルであるという意味でいうならば、なぜそれが役に立っているのかとい うことがそのうち解明されるのじゃないかと思います。私の考えでは聴覚モデルが働 いているのは聴覚モデルだからではなく、背後に何らかの意味があるんだけど、それ がよくわかってない、ということなんではないかというのが私の予想です。で、それ がわかってきて、それはどういう観点かというと、ロバストネス、雑音の中で強い、 とかいうような意味がなんらかの数理的に解明すればわかってくる、あるいはそれは 統計的な意味だとかいろんなこと考えるわけですね。不特定話者に対して強いとか、 いろんな種類のロバストネス、そういったものにいいとかいって、とにかく目標とし ているような性能を与えるのに何かの意味が背後にある。だけどそれは聴覚モデルと いう観点で探されてきて、手探りで探されてきたものが今たまたまそれが一番いい、 というのが現状ではないか、だからそれの意味をよく探って、そしてそれでなお、そ れを越えられるようなもの、で、聴覚を離れてというようなのが、一つのアプローチ かなと、私はそういうぐあいにに考えてゆきたいですね。まあこれは考え方両方もち ろんあります。 徳田: 具体的ではないんですが、今と違ったスタイルになりうる可能性として、気に なるスタイルというのが、マルチマイクであれだけやるっていう場合、結局あれで とってビーム作ってMFCCになって統計モデル、となってますけれども、それをもう少 したくさんマイク並べて多チャンネルで入ってきた信号をそのまま統計モデルにつっ こむ、で、ビームフォーミングとかいう、一回そこで切らずに直接こうやってしま う。そうするとMFCCから離れられるんじゃないかなという、ちょっと漠然としていま すけれども、そういうイメージがあります。信号処理の方だと最近そういう多チャン ネルのブラインドイコライゼーションとかそういう論文が出ていて、その辺にヒント があるかなと思っています。 河原: 私の印象ではそういうのは純粋に信号処理としてやってて、ほんとに聴覚を考えて やってるんでしょうか。 徳田: 今私がいった立場は、聴覚のこととか、そういうものは知らないと。ブラックボック スとして多チャンネルで入ってきて、それが信号だと、後はブラックボックスで走ら せろと、で、中見たら、そういう聴覚的な何かがあったらそれは別にいいですけれど も、別に工学的な立場なので、聴覚とかいう単語を持ち出さなくていいと思ってます けれども。 中村: もう少し話を戻すと、どうして「はい」かというと、今動いているから「はい」なん ですね、きっと。だから今動かないようなタスクを考え出せば、ひょっとしたら、た とえばSwitchboardなんていうのは、あるいはもっと、ディスタントトーキングスピー チなんていうのは動かないタスクだから、そういうものを対象にするということで初 めて困って、それで考え出すと、そういういうことじゃないですかね。 今皆さんたぶん満足されているということじゃないでしょうか。 河原: ある程度できていてそれがもっと実用化になっていくと、やっぱり規格が統一されて いた方がいいとか、もっと音声認識がユビクイタスになると、どなたか指摘されて いましたが、クライアントサーバ型の音声認識になると、そういうのに標準化される のがますます強くなるんじゃないか、という話もありましたが、やっぱり狙うター ゲットが、かなりコンディションが違ってくると確かに違ってくると。 じゃあ、中川先生。 中川: 徳田先生とか中村さんの話になると、多チャンネル、マルチチャンネルでやるという のは、僕はこだわって、2チャンネル以下でやりたいという、工学的にわりきればそ れは多チャンネルでいいと思うかもしれないけれど、やっぱり2チャンネルで実現し たいなと気持ちはあるんですけれども、そういう観点からどうですか。 人間ができることはやっぱり機械でやっていきたいという気持ちはある。 僕自身のアプローチというか考え方ですけどね。そういうことに関して、、 中村: 僕は工学者だと自分で思っていまして、だからトイを作らなくていいと。だから要す るに音声認識というのは後段の認識部分というのは人間よりもずっと劣ってるわけ ですよね。せめて前の方は人間よりも賢くてよくて、精密に信号処理ができてもいい と思ってるんです。 だからマイクを2つじゃなくてもっと、別に100個使っても構わないと、いうふうに考 えていますけど。それでできてさらに2個まで落としてくるというアプローチならい いと思うんですけどね、最初から2個しか使えないと言うのはちょっと制約として強 すぎるような気がしますけれども。 河原: じゃよろしいでしょうか。今のがパラメータの話だったんですが、次は音響モデルの 話でして、これは10年前は先程中川先生のサーベイにありましたように、 結構DTWの発表とかもあったりとか、あとニューラルネットとか結構ある意味でブー ムだったんですが、今、おそらく世界中の音声認識の90%以上がHMMだと思われます が、、 「音響モデルは依然として10年後もHMMが主流であるか、もしくはそうでない場合は 他の候補は?」という問だったんですが、これも、過半数の方がHMMだろうというこ とで、対抗馬があまり、なかなかないという現状、さっきのMFCC以上にないのかもし れないような気もするんですが、そうですねで終わってしまうとつまらないので。 武田: 質問というか皆さんにお聞きしたいのは、ニューラルネットというのは識別的には明 らかにHMMを越えていたと思うんですけれども、それが音声認識のシステムにうまく 取り込めなかったというのは、パターン処理のところが識別性能が強くても音声認識 というのがそれをうまく使えないような仕事なのか、それともまだニューラルネット に関する理解が足りないのか、というところ、どなたか考えがあったら教えてもらい たいんですが。 河原: じゃ、相川さん。 相川: ニューラルネットで、たぶん一番苦労したのは時間のアライメントをとるところだっ たと思うんですよね。アレックスワイベルなんかもタイムアライメントをとるようなニューラ ルネットを一番上の層でやったりするのを作ってましたけれど、確かにすごい短い区 間の音素認識なんかで音素識別をするようなレベル、ほとんど時間伸縮が関係ないレ ベルではすごく有効だったんですけれども、すごく長い音声を連続的認識して部分的 にいろいろ時間伸縮しながらマッチングするというときに、それがすごくやりにくく て、リカレントネットワークとかいろんなのもでてきたんですけれども、その辺がタイ ムアライメントとりながら学習して、使う時もそれをアライメントとるっていうの が、これが結構大変だったんじゃないかなという印象を持っていますけど。 河原: 確かに連続音声認識だったら、いわゆるHMMみたいな統計モデルのほうが適度にス ムージングかかっていていいような、結構そういう認識だったような気 もするんですが。 学習のアルゴリズム自体はどう、たとえばHMMのバウムベルチに比べていかがなん でしょうか。中川先生とか? 中川: 学習の面ではHMMの方がパラメータ推定はうまくいくと思うね。精度の関係から言え ばね。 能力的には、言語モデルとかとの整合性の問題かなと思いますね。個々の音素の 認識とかで勝負すればニューラルネットがいいとしても、全体のバランスや積み 重ねの確率で、ニューラルネットも事後確率に対応してますけども、やはりHMMずっ とやるのは言語モデルまで一貫して全部確率で押し通せるということが大きいかなと 思ったりするんですが。 武田: でもそれはある種の幻想ですよね。音響モデルと言語モデルでどちらも確率だから確 率モデルで統一されてるというのは、ある意味幻想というところがあると思うんです けども。 それで聞きたいのは、河原先生なんかも昔、対判別で、要するに非常に、一番プリミ ティブな要するに今、HMMでやってるところをニューラルネットに置き換えるというア イデアは当然ずっとあるわけですけども、そういうのが必ずしもうまくいかないとい うのはなぜなんですかね? 中川: いやだからそれはさっき言ったように。 たとえば河原さんがやった対判別と言っても、その音素の認識だけがよくなるとして もね、やっぱりそれを積み重ねて全体を認識していくときにそのメジャーというの が、本当にいいメジャーになっているかどうかとか、、、 武田: メジャー自身が確率ではないからだと。 中川: まあ確率の方が素直にずっと全体の判断の時に割と整合性うまくいくんではないか と。 言語モデルとの相性もいいとか。 武田: だけど、HMMのそのガウシアンミクスチャがでてくる値も確率だけど、それは確率では ありますけれども、もちろん事後確率ではないですし、ある意味ヒューリスティック なスコアというふうに見ることもできますよね。 鹿野: 中川先生の言うの正しいんですけどね、要するに同時確率を最大にするという意味で 連続音声認識も認識してるんですよね。で、個々の識別率を上げるというのと累積を どうするかという統計的な理論がないためにたぶんニューラルネットとか識別学習と かというのがうまくいってないので、で、あきらめる必要はない、なぜ同時確率が最 大というのでうまくいってるか、というのはまあそれは原理はあってるからね、非常 にイージーにやれるからうまくいってるわけで、例えば音韻の識別率上げて累積も上 がるというようなパラダイムを誰か作ればね、うまくいくはずだから。これから10年 がんばれば、識別学習でやってもディクテーションの精度が上がるかもしれない。だ から今、カテゴリーがすごく多いときにうまく動かないんですよね、識別学習という のはカテゴリーでやってしまえばそれでもう終わりだからうまくいくんですけども実 際ディクテーションだと全ての文章を識別学習するわけにいかないでしょ。だから細 かいところで識別学習したのが累積が全体の識別学習というか認識率を上がるように するという何かパラダイムをたぶん若い人が考えればいいと、私も考えたけれどよく わからない、難しいんですけどね。 武田: やっぱりその識別という点ではニューラルネットはあきらかにHMMというかそれが越 えているということはもうみんな、、、 鹿野: あるユニットでは高いんですね。音韻とか単語とかいうユニットでは高くできるけれ どもそれを蓄積した場合に高くなるかというパラダイムが解けていないという、だけ だと私は思いますけれども。 中川: これは僕の予想がちょっと外れた話ですけどね。MCE学習。MCE学習でHMMの学習してや れば、全体は良くなるわね。あれがちょっと僕は良くならないんではないかと思った けども。一応、個々の音素を上げといて、MCE学習で、HMM作っといても、全体として は良くなってるね。そういう可能性、識別学習の可能性あると思うんですけど。まあ しかし、そこらへんがよくわからないですけれども、まああれはHMMの範囲の中でだ からね。それをニューラルネットで識別学習やるとなんかやっぱり、メジャーのね、 整合性とかそこらへんがちょっと問題かなという気がしてるんですけどね。まあ、ど んどんやってもらったらいいですけど、僕はまあ、もういいですけど。 河原: じゃ、私も一言。 私が思ってるのは、さっき鹿野さんが言われたようにMCEとかああいうのはスケーラビ リティがないから要するに大量のコーパスによるのは大変だし、私自身がやったわけ じゃないですが、実際やってみた結果だと、データが多くなるほどMCEとMLの差はだん だんなくなってきちゃいますよね。ということはやっぱり、やるだけの意義があんま りないんではないかというのが実状じゃないかと。少量のサンプルしか集められないよ うなタスクだったら結構差は歴然とすると思うんですけど、あるいはモデルのコンプ レキシィがあがらないような、場合ですね。 だからデータがそもそもたくさん集められないようなタスクだったら MCEがきくんではないかと。 嵯峨山: 話を少し戻しますが、コメントの3番目に書いてあるのは私の意見なんですけれど も、皆さんに聞きたいのは、HMM、、私の考えですけどね、HMMというのは非常に単純 なモデルですよね。だけどもHMMはモデルとしていいかどうかという、そういう議論 ではないんじゃないか、というのが私の意見です。これはエレガントな付随したアル ゴリズム、つまりビタビアルゴリズムがあり学習アルゴリズムがあり、なんとかが あり、確率であるから、それらがかけ算をすれば全体がもとまるとか、そういう確率 という枠組みも含めてですけどね、そういったものを全部伴っているような一種の体 系である。HMMというのはモデルと言うより体系であるということですね。私が常々 考えるのは、音声のモデルとしてHMMは適しているかというと、適していない。とい うか、HMMはもっと他のものに使えるんじゃないかと、実は私考えているんですね。 音声が一番いい応用だなんて思ってない。 他のものにもっと使えるんじゃないか、音声の場合は例えばデュレーションというも のがあきらかにある文法があるわけなんで、マルコフモデルが必ずしもあってないん だけど、こういう具合ないろんなセットとして、システムとして、いろんな、エレガ ントなアルゴリズムやらが、学習法やらがそういったものがセットとして持ってるよ うなもので他に置き換えられるかというと、こんな単純なものは他にない。で、これ は一種の数学の進歩として次に何か期待ができるかという、そういう質問に近いと思 うんですよね。私はそれは簡単ではないだろうと、DPに変わるものが10年ごとにでき るかというとそんなことはないわけですよね。そういったものに深く根ざしてるもの だから、なかなか残念ながら振り捨てられない。しかしこれは音声の現象をモデル化 するものとしては必ずしもいいモデルではないことはあきらかである、しかしセット が全体としてあまりにも強力すぎてなかなか捨てられないんじゃないかと。私はま あ、もしこれをうち破るものがあればほんとに私脱帽しますけれどね、なかなかそう はいかないんじゃないかなと、これは私の希望とは別に予想としてそういう具合に思 いますけども。 河原: 次は言語モデルでして、今はN-gramが全盛なんですが、10年前はそうでは全然なく て、特に日本語の場合はN-gramでモデル化できないという意見の方がどちらかという と支配的だったような気がするんですが、実際やってみると結構うまくいったという ことで、では今後どうなるのかというところなんですが、一つの可能性としては昔か らよく言われているように文法的な、、今日もIBMの森さんの発表もありましたが、 構文とか、係り受け的な知識と統合されるのかとか、あるいはもっと高次、3-gram より長い距離であるとか、意味とか文脈を反映させたモデルが、もちろんたくさん研 究はあるんですが、「主流となるでしょうか」という問なんですが、主流というのは 実際の認識システムでディプロイされるという意味です。 予想外に、N-gramが主流でないと答えた人が多くて、私もその一人なんですが、意味 や文脈を反映したモデルというのが一番多かったんですが、これは、、じゃあ、西村 さん、いかがですか。 西村: 基本的なN-gramという今の枠組み非常にディクテーションみたいな世界ではうまく いってるんで、それは使われるところでは使われると。それではどうしてうまくいか ないところ、自由発話とかそういう話になってくるとどうしてもN-gramだけではうま くいかないのかなと思ってるんで、もっと複雑なこと、今日やってたパージングとか も統計的な方向でアプローチしていきたい、のが主流になるだろうから、ああいうよ うな枠組み、今日の話ではどうしても、皆さんお気づきになられたと思いますけれど も、コーパスがまたより一層手に入らないようなデータベースの構築に非常に大きな 問題のあるモデルなんですけども、それをまあ力ずくでやって本当に10年後になっ て、今揃えた分の10倍20倍のデータが揃ってもまああんまりうまく動かないでしょう から、あのままでうまくいかないんだけれども、そういう方向というのはこれから研 究されてだんだん発展していくんじゃないかと、ただのN-gramではなくなるんじゃな いかなと思ってます。 河原: これも10年前の討論と同じ疑問になるんですが、今結構言語モデルの研究で、レイテ ントセマンティックアナリシスとか、キャッシュモデルとかいろいろありますけど、 実際あんまり、まあパープレキシティではいくつか良くなってるんですが、あんまり認識 率はドラスティックとかそんなに、みんなが使いたいと思うほどよくなってない、 という感じなんですが。質問は、モデルがまだ不十分なのか、モデルはだいたいでき つつあるけれども学習、パラメータの自由度が大きいからデータが足りないのか、と いうのはいかがなんでしょうか。 嵯峨山: 皆さんに伺いたい。ご意見があれば是非伺いたいのは、私今考えてるのは、10年分の 新聞だとかそれとも限られた性能しか得られないとかいうような、そういったことと いうのは何かおかしいんじゃないか。それは思うに新聞などの大量のデータから情報 というか言語のモデルを取り込もうとするN-gramというフレームワークがザルなんじゃな いか、と私は思うんですよ。本当は人間だったらもっとそれから有効ないろんな多面 的な知識といいましょうか、いろんな形の情報、係り受けもたぶんおそらくそうな んでしょうけどね、そういったものがいっぱいあるんでしょうけど、それを係り受け だったら係り受けというのに注目してやるとか意味について注目するという、み んなまだぱらぱらと散発的にやってるに過ぎない。そうじゃなくてそういったもの、 がばっととってきてがっちりと情報をとりこんでしまうというような、統計的な方法 かもしれないし、何かもっとジェネリックな確率モデルかもしれないんだけれどもと にかく3-gramという本当にザルみたいな、ある情報しか残せないようなものでないも のが何か出てきてほしいなと思うんですけどね、これは私の考えです。そうではな く、まだまだデータが足りないんだとおっしゃる方もいらっしゃるかもしれない。私 はデータは10年分ぐらいの新聞があってほんとは大丈夫なんじゃないか、それは ひょっとしたらデータとして意味的なアノテーションがないから、だからできない のか、単にプレインテキストがずーっとあるだけだから、だからそれだったらやっぱ りしょうがないんだというのか、人間だったら教育するときに意味を付けなが ら教えますよね。だから人間は言語の獲得がもっと早いのかもしれない。とか、いろ んなこと考えられますよね。そういった具合に人間の言語獲得の方からちょっと考えて みるとか、あるいは純粋にモデリングという観点から、3-gramというのはザルである という私のまあちょっと暴言を皆さんどう受け止められるか、ぜひ聞かしていただき たいと思います。 河原: 今のを聞いてて思ったんですが、もし本当にアノテーションされたデータがないと学 習できないのであると、さっきのニューラルネットと同じ話になってしまって、結局 学習コーパスがスケールアップできないということになってしまいますから。そうす るとあんまり道はないなという気もしますが、やっぱり3-gramがここまで良くなった のはやっぱり、自動学習、ほとんど何もしなくても学習できるというところに大きな ところがあると思うんですが、それはいかがでしょうか。じゃあ、鹿野さん。 鹿野: たぶん、嵯峨山先生の質問は難しい質問で、明日から学生がどうしていいかわからな くなっちゃう質問ですよね。で、3-gramというのはものすごく強力なんですよ、パラ メータ数ものすごく多いでしょう、で、かなり強力な乱暴なモデルなんですよ、強 い。で、一番新聞記事ばっかりやってて思うのは、新聞記事っていうのはすごくきれ いだし誤りもないし、非常に特殊なんですよ。だから新聞記事だけたくさん与えれば いいっていったらたぶん、子供はしゃべれないでしょうね。新聞みたいな話し方した らおかしいでしょ。そういう意味では新聞記事は十分かもしれないけど10年分あれば ね、他のデータがないというのは事実だと思います。 新聞記事が十分あるから3-gramだとだめだっていうのはたぶん暴論で、もうちょっと 他のデータ汚いデータを集めて結論をだす必要があると、そういう気がします。 河原: 14番目は「タスクやドメインごとに言語モデルを用意する必要はなくなっている。」 と、例えば今、ディクテーションソフトというのは基本的に何しゃべっても入る、と いうことをしようとしていっている訳なんですが、そういう、だけど今例えば対話シ ステムだと普通ドメインごとに書いてますけど、その差がだんだんなくなってくるん ではないかと、私そう思った訳なんですが、答えを見ますと、そうならないという人 がやっぱりかなり多かったということでした。 これは例えば、人間の言語認知はどうしているんでしょうか、ということなんです が、これは本当にやってる人たちに聞かないとわからないんですが、たぶん直感的に は人間も話題を状況に応じて変えているような気も確かにしないではないですし、そ の場合でもたくさん用意しておいてぱっと選択するということであれば、今とは ちょっとかなり違うなという感じは確かにするんですが。 次が話者適用の方なんですが。不特定のモデルがどんどん良くなれは、話者適応はし なくてもいいんじゃないかという気もしたんですが、これもやっぱり聞いてみます と、58%の人はやっぱり必要だろうと。これもやっぱり人間の認識も参考になるかも わかんないんですが、確かに人間もしているような気もしますよね、特に方言がきつ い人とかあきらかにしていると思うんですが。 あと、コメントで興味深かったのはやっぱり、携帯端末が普及すると、要するに音声 認識機とういのはパーソナライズされて、言語モデルも音響モデルもその人のモデル に、放っておいたらチューニングされていくと、個人端末というか個人モデルになっ ていくんじゃないかと、言われている方が何人かおられました。 16番目は、既に先程議論があったところに関係があるんですが、マイクとの距離の問 題で、今は5メートルぐらい離れると全然だめなんですが、そういうのは人間だった らあんまり気にならないと思うんですが、人間の認識能力、我々が外国語を聞く場合 と同じような感じで考えていただいたらいいと思いますが、それと同様に問題ないレ ベルになっている、という問でしたが。 意外にそうなっているという人が多くて、中村先生もそうだったと思うんですが、た だコメントとして多かったのは、さっき中川先生が言われましたけど、マイクアレイ でやるのはちょっとやっぱり機械的すぎるとか、そういうネガティブな意見が多かっ たです。いろいろ立場があるということで。 私の当初の案では、ここからがパネル討論だったんですけど、3番目が社会状況とい うことで、最初は「「音声認識はできた」というのが世の中の認識になっている。」 ということで、これは今でもそうなっていると書かれた方が一番多かったんですけれ ど、実際、半分ぐらいですね、このいい例が、例えば機械翻訳なんですが、今、機械 翻訳システムというのはとてもできたとは言えないと思うんですけど、結構世間の人 はできたと思っているかもしれない、ところがありますよね。少なくとも大学で機械 翻訳やってるところは少ないですし。 次の質問が、「大学で音声認識をやってるところがはたして10年後にあるんだろう か、今より増えているんだろうか」と。 やっぱり今私が言いました状況、認識を皆さんお持ちでして、そうでないという人の 方が多かった、例えば、コンピュータアーキテクチャとかOSというのはかなり実用商 用化されてしまうと、まあほとんどやっぱり今、アーキテクチャやってるところは結 構あると思うんですが、OSやってるところはないに等しい、ですよね。そういう傾向 になるんではないかと。 そもそも大学自体が残っているのかという問題もありますけど。 次は企業。 認識をビジネスにしている企業は今より増えているか、と。 これはやっぱり、今の流れからみると、84%の人が「はい」ということでした。 次、20番目が、ここからが本当に議論の想定していたテーマだったんですが、 「携帯端末(i-modeのような)が広く普及した後も、電話音声による自動応答サービス は必要とされていると思いますか。」という問でして。 これは西村さんが興味を持っておられたんですが、今、何かありますか? 西村: さっきから話もあったと思うんですけど、どうも音声認識、期待はされるんだけれど も本当なかなか使われないというのがあって、一番便利なところに使われないといけ ないんだけれども無理矢理使ってもらってるという感じのところがずっと続いてたと 思います。 電話による音声認識のアプリケーションってずっと言われてるんだけども、どうして も使い勝手が悪くてか広まらなくて、一方で携帯端末がいっぱい出てきて、i-modeみ たいなのがどんどん広まってるんで、そうなってくるとどんどん使われなくなるのか なと、というのが。私は個人的に人間としゃべるの、電話するの嫌いなので、そうい う人間にとってはとてもi-modeとかうれしくていいんですけども、ただ一方で、相 手、オペレータが出ないと満足できないという人も確かに世の中にはおられるので、 そういう人に満足できるようなレベルの音声認識ができれば、そちらも残っていくの かなとは思うんですけども。皆さんどのぐらい音声認識を期待されているのかと。本 当に期待されているのかなと。電話の音声認識って、私は自分でも仕事でやっている んですけど、あんまり好きじゃなくてですね、あんまり未来がないような気がして しょうがないんですけれども。必要だ必要だって、企業の人間として、特にIBMみた いな会社はサーバを売りたいので、ディスクを売ったりマシンを売ったりするにはと てもいいビジネスになる可能性があるんですけれども、だけどなんだか研究者として はあんまり、ちょっと後ろ向いてるような気がしてしょうがない方向なんですよね。 その辺ちょっと、音声に関係しておられる方々、どれぐらい本気でこういう電話の世 界とかで音声を使った自動応答サービスみたいなもの、期待されているのか、本気で やられているのかと、ちょっと知りたいなと。 河原: ここにコメント整理してるんですが、だいたい予想されたとおりでして。 必要だという人はやっぱり、手操作がしにくい場面とか、語彙が大きいという場面で は要るだろうと。 必要ないという人は、ここ書いていますが、今西村さんが言われた通りだと思うんで すが。 あと考えられるのは、ハイブリッドな感じでi-modeの補助手段として残ると。いうよ うな感じですかね。 私はもう1つ違うファクタがあると思うんですが、それはやっぱり値段の問題で、ど うして、たとえば今携帯電話で子供がメイルをやっているかというと、電話だと3分 しゃべると100円かかるのがメイルだと1円で済むからだというところがありますよ ね。 つまり、例えばスポーツの結果を知りたい場合でも携帯電話でかけて聞いたら100円 かかるのがインターネットで見ると10円で済むんだったら、やっぱり結局、よほど キャリアががんばらない限り不可能なような気がするんですけど。 じゃ、武田先生。 武田: できるようになって不便になる人は誰もいないでしょうと。 河原: 使う人がどれぐらいいるかという、、 武田: それは全然わからなくて私には。要するにアミューズメントとかそういう見方もある し。 私はいまだに携帯でメイルをあのスピードで打ってコミュニケーションしているって 人達が信じられないし、そういう意味でもちょっと、わからない。ただ言えることは 不便になることはないでしょうとだけ。 河原: 「人間以外のもの(エージェント含む)に対して、人格を見いだして自然に話しかける ことが社会で一般的に受容されているでしょうか。」 これは結構そういう人が多かったです。コメントを整理しますと。 そうじゃないという人は、機械的なものは機械的という答えもあったんですけど、一 番多かったのは、ゲームみたいなところから徐々にそういう文化ができてきて、特に 子供とか若い人を中心にそういう人が増えてくるだろう。 今度IPAのプロジェクトでやるのもそういうところを狙ってられると思うんですが、 それは明日。 次、ここからが一番議論したかったところなんですけど、23以降、最後に研究目標に ついてと書いてあるところで、ここで、10年あるいはその以降の話を考えようかと 思ってたんですけど。 まず、私が妥当なターゲットとして考えられるのは、流暢な外国語話者と同程度の音 声認識、ということで、母国語話者並にするのは本当に脳の中まで全部やらないとい けないので大変だと思うんですが、工学的にはその辺が適当なターゲットだと思われ ますので、こういう問を作りました。 現状の認識なんですが、西村さんとかも書いておられましたけど、あきらかに丁寧な 読み上げ音声、クリーンなレッドスピーチであれば、これはできていると思われま す。 たとえば我々が英語のディクテーションソフトとか、英語の放送音声のデモを見る と、我々の聞き取り能力を確かに超えていますし、しかしながら話とか理解とかいう ところはもちろんあるんですが、そういうのは言語に関係ないような気もするので、 そういう能力はおいておいてここで聞きたかったのは、ロバストネスとか、ドメイン 非限定とか、認識だけなんですけど、そういうロバストネスとかも含めてという意味 だったんですが。 回答を見ますと、10年後ぐらいが3名ぐらい、10年か20年という人が5名ぐらい、20年 後が6名。感じとしては、バラバラという感じなんですが、 名回答としては「それなりの成果を出しながら、永遠の課題であってほしい」と。 私は、我々が実際に研究をやっている間は、これぐらいがターゲットじゃないかと考 えております。 あと2つが、研究課題として今後10年20年ぐらいもつんではないかと私が思っていた テーマなんですが。 話し言葉に対する、たとえば、Switchboardのコーパスなんかだと、今認識率は、こ れは確かDARPAでは、5年ぐらい前から始めてると思うんですが、最初からエラーレー トが50%ぐらいで、今も4割を切ったか切ってないかぐらいですよね。 なかなか進んでいないという印象なんですが、今後データを増やしてモデルを作って いけば解決されるかどうかということなんですが。 最初は、3名ぐらいの人は基本的に今のモデルを精密にすればできる、と。 その次が今のモデルは限界があるだろうと、いうことなんです。この辺を本当は議論 したかったんですが、時間が、、、また後で皆さんに議論していただくということに したいと思います。 じゃあ、何がポイントかというと、3名ぐらいか、あるいはもう少し答えられたの は、言語モデルがポイントだと言われた方が多かったです。 じゃあどこが、もう少し具体的に指摘されたのが、意外にたくさんの人、8名ぐらい の人が同じようなことを言っておられて私もびっくりしたんですが、一言で言うと 「意味や意図を理解する枠組みが必要ではないか」ということで、私自身も、今のデ コーディングの枠組みではたぶん解決されないんじゃないかと思っていまして、単語 にデコーディングするんじゃなくて、コンセプトとか、そういうのにデコーディング するような枠組みを考えないといけないと思われますし、ちょっと、どうやって学習 するのかというところもあるんですが、だいたいそういうことを考えられる方が一番 多かった。で、しかしじゃあ、どうやってやるかというのがなかなか難しいと思うん ですが、これはたぶん今後5年か10年かあるいはもっと、もつんじゃないかと思われ るテーマだと思います。 最後は、ロバストネスということで、「話者層や入力環境へのロバストネスが大きな 課題となっていますが、今後データを増やしていけば、現在考えられているような適 応の枠組みとあわせて解決されると思いますか。あるいは、どのあたりに抜本的な改 良が必要と思いますか。」 これは、10年前のパネルでも似たような議論もありましたけれど、10年前とはやっぱ り状況が変わっていて、10年前は手探りだったんですが今はかなりできるというとこ ろがわかってきまして、 これも私なりに意見をまとめたんですが、中村さんとかを始めとして、話者層に関し てはデータを集めればカバーできるだろう。もちろん子供とかご老人とかは、別の データを集めなければいけないと思うんですが、そういうのはそれなりにモデルセッ トを用意すればだいたいカバーできるだろうという意見が多かったです。 入力環境の方は、これはちょっと意見が分かれるんですが、入力環境の方はすんなり カバーできないという人がありましたし、実際に、音声認識が使われるような状況と いうのは車、車内とか電話とかにしてもある程度マーケットとしては絞れるので、そ ういう実用の範囲としてはカバーできるんじゃないかと、これも現実的な答えかもし れないんですけど。そうするとやっぱり、モデルがたくさんできるので、いかに組み 合わすかとか、いかに選択するかとか、あるいは適応するかとか、というのがポイン トになるであろうと、答えられた方がこれも一番多かったと思います。 もっと根本的にできないと答えられた方も何人かおられたんですが、そういうところ はやっぱり聴覚的なモデルがもっと必要ではないかと、これも予想されたところだと 思います。 それからこれはちょっと私は予想していなかったんですが、あと何名かの方はそうい う音響的なところだけではなくて文脈や状況の高次のところのモデル化も統合して考 えないと、本当の、人間がやっているようなロバストネスは実現できないんではない かと、これも確かに言われてみればなるほどというような感じでした。 何かありますか。 中村: さっきのSwitchboardのところにもう1回戻るんですけど、どういうデータベースが 必要かという議論はもちろん必要なんですが、やっぱり10年もつような難しいセット を考えて、それに向かって何かこう問題設定して研究していくというようなことが やっぱり必要で、散漫にやってても良くないような気がするんですけど。 河原: 10年たってもできないといっても、10年たってもずーっと50%では、それはそれで社 会から見放されるような気がするので、ちょっとずつ上がりながらというとこ ろ。 中川: 僕が言ってた課題として10年持つテーマ、なんであるかというのを言ってほし いんです。3人に。 中村: 10年もつかどうかはともかく、とにかく、ちょうど10年ぐらいです。じゃ あ私がゆっくりやるとして、10年かけてやるかどうかはともかく、、今重要だと思っ ているのは、広い意味でのロバストネスの問題、でして。 それと、やっぱり日本語だけやっててもだめだじゃないかという気がし ていて、ATRに来たっていうこともあるんですけどもそういうことも含めて、そうす るとどういうことかと言うと、先程嵯峨山先生おっしゃいましたように、言語 獲得とかそういうようなことも含めて学習ということを見ながら研究を進めていく必 要があるんじゃないかと、それは個人的な研究として考えています。 武田: 10年の研究テーマですか?あ20年。 まず今はもう非常に、マニュフェストデストニィというか我々は成功したも同然だと 私は思っていまして、IBMの人とかいらっしゃいますけども、これだけのものが動く というのはすごい技術で、本当に我々のコミュニティとしてはもう胸を張ってこれか ら生きていけるだろうと、でまあ、自信を持って次の10年生きればいいと思ってま す。 それでまあ10年ちょうどかどうかちょっと難しいですけれども私はやっぱりIBMのVia Voiceとかまあそういうものがどこでも誰でも使えるというふうなことで、一つは やっぱり音響的なバリエーションていうのが10年ぐらいやはりちょうどかかるだろう と、ちょっと離れててもいい、あるいは車の中でもいい、電話でもいいとか、そいう 入力のシチュエーションを全く選ばないで、どこでもこれぐらいのディクテーション が動くというものを作り上げるのにやっぱり10年ぐらいかかっちゃうんじゃないかな というのが、一つの考えです。 西村: 企業の立場として10年後とか悠長なことを言ってると怒られるんで、アンケートにあ りました講義音声とか国会議事録とか私は全部5年以内と答えておりまして、きっと HMMとかN-gramとかこういう枠組み批判もあるしザルのモデルかもしれないんです が、一つはやっぱりデータをたくさん、集められる範囲で集めて、一刻も早く、実用 化できるならば、このモデルで実用化できるならば、使えるところに企業としては 持っていきたいと、それはもうきっと10年なんて言ってないで、数年である意味でめ どを示せるんじゃないかと思います。やっぱりだめですということになるかもしれな いけれども、こういう分野はいけるし、こういう分野はだめですねと、このモデル じゃだめですねという話になって。そしてきっとそれをふまえて別のモデル、HMMの 音響モデルは難しいのかもしれないけれどそれの新しい枠組みとか、N-gramはきっと 別な枠組みが出てくるかもしれないんですけれども、そういうところへ向けて、力が 入るんじゃないか。やっぱりこの今のN-gramじゃだめだから、いくらデータを集めて も、どんなにタスクをいろいろ広げてもだめだから、やっぱり別の枠組みが必要だ と、いうことでそれが示されるときっと研究者みんな必死になって違うモデルを作ろ うという方向になるんじゃないかと思うんですけども、私はきっとそういうのには立 ち会えなくて、ここまでやったけどだめでした、と言えるかなと、それにぜひ貢献し たいなと、できれば、ここまでやったらできちゃいましたと言いたいんですけれど、 そのどちらになるかわからないけれども、そういう方向やっていきたいなと思ってい ます。 中川: ロバストネスという話を、2人ともされてるんですが、それは10年とか以上かかるの は当たり前というかずっとかかるんですけれども、僕の言わんとしてるのは、こうい う音声の百人とか二百人とか何百人という人が、予算を獲得したり、堂々と大学の中 で、大学ではないけどね、やっていくための大きなチャレンジング的なテーマはない かという。 武田: すみません。誤解していました。 みんなが同じことをやる必要はない、これから音声認識はどんどん広がる。すごいス ピードで広がる。いろんな問題がたくさん出てくる。それでみんな食っていける。 もっともっと食っていける。 というのが私の考えです。 河原: 私も最後に一言。今のに答えるというのも兼ねて。 私はやっぱりレベルをもう一段上げないといけないと思ってるんですけど、つまり、 理解とか概念とか、それがどれだけ商品になるかというとならないと思うんですが、 自然言語の人が今も研究をやってるというのはそういうところだと思うんですけど、 最近は情報検索というバブルがあるんですが、それを除くともう少し、言語とかそう いうところだといつまでたっても人間に近づくのは、坂井先生も言っておられました が、最後はやっぱり残ると思いまして、今は単語レベルでデコードしてるんですがそ れを概念レベルでデコードするところをやりたいと私は思っていまして。 これは最後の半分余興なんですが、今年科学技術で世界で一番ニュースというとたぶ ん、ヒトゲノムが解読されたというニュース、先月だと思うんですが、そこでクリン トンと一緒に記者会見していたベンチャーのセレーラ社。皆さんテレビでご 覧になったと思いますが、彼の仕事について記事を読むとおもしろい人で、研究コ ミュニティでは、評判がよくない、はっきり言って嫌われ者みたいな感じなんです が、彼は非常に若いと思うんですが、大御所の人は彼の仕事をどう言ってたかという と、「彼の仕事はサイエンスではない」と、これはアメリカの国会の場で言ったんで すよ。「彼のマシンはサルでも動かせる」と。HTKが動かせるかどうか、ちょっとわ かんないですけど、N-gram 学習だったら動かせるような気も確かにしますね。 私が思うにはゲノムというのは音声でいうと音素列みたいなところで、 デコードするのは確かに機械的に結構できるんですけど、だけどその段階では特許に はならなくて、という話に今なってると思うんですが、遺伝子のところを解明するに はもう少し、そこからが、バイオの方はこれから勝負だと思うんですが、音声の方も たぶん概念レベルの解明というか理解のところがこれからと私は思っております。 では以上で。