2000年 7月14日
								SLP研究会資料

                      音声認識技術の今後の10年について
                                  調査結果
							編集：河原達也 (京大)
							全回答者数: 50名

  ------------------------------------------------------------------------

(1)  応用面での展開 

  5年後あるいは10年後において、音声認識を用いた以下のアプリケーションが
  できていると思いますか。 

   * Q1  講演音声の自動書き起こしが実用化されている

      (a)5年後               	18人
      (b)10年後              	18人
      (c)10年後もされていない	14人

        o 70～80%程度の認識率でも、最初から人手で書き起こすより効率がよい
        o 話し言葉の認識は難しく、それほど進まない
        o 個々の話題や話者への対応／適応が困難である
        o 技術的にできても、ビジネスとして成立しない
             + 書き起こしよりも有用なメディアができているかもしれません

   * Q2  裁判所や国会の記録に、速記の代わりに音声認識が導入されている

      (a)5年後               	 3人
      (b)10年後              	11人
      (c)10年後もされていない	36人

        o 速記官のなり手不足という要因からも望まれる
        o 話し言葉の認識は難しく、それほど進まない
        o 個々の話題や話者への対応／適応が困難である
        o 技術的にできても、法的・制度的な整備が遅れる
             + USのように速記者が認識装置を使って代読するのが現実的かも
               知れない．

   * Q3  駅の券売機やコンビニの端末での音声入力が一般的になっている

      (a)5年後               	 7人
      (b)10年後              	20人
      (c)10年後もなっていない	23人

        o 騒音などへの対応ができない (発話の検出を含む)
        o 語彙外発話への対応ができない
        o 人々は公衆の面前では音声入力を使いたがらない
        o 新たにコストが生じるので導入されない
             + 駅の券売機は(c)、コンビに端末は(a)、技術的理由ではなく利便
               性の観点 から。

   * Q4  家電製品(照明やエアコン)の音声操作が標準的なオプションになっている

      (a)5年後               	14人
      (b)10年後              	20人
      (c)10年後もなっていない	16人

        o 遠隔マイクでの認識ができない
        o 語彙外発話への対応ができない
        o 最初は面白がられても、コスト面を含めて結局は使われない
             + 遠隔マイクでの認識とリジェクション対応は宅内利用に使えるレベ
               ルに達しつつあり、しかも安価に実現可能。宅内の音声／話者同時
               認識も５年後にはかなりできているのではないか。

   * Q5  電話による情報案内は音声認識が主流になっている

      (a)5年後                	13人
      (b)10年後               	16人
      (c)10年後もなっていない 	21人

        o 語彙外・文法外発話が多すぎて、対応できない
        o 日本のサービスでは不完全な技術は好まれない
        o WWWや携帯端末が普及すれば電話音声サービスは使われない
             + 10年後には、オペレータとインターネットと音声認識が、
               3分の1づつといったところか？

   * Q6  電話による商品の注文やバンキングも音声認識が主流になっている

      (a)5年後                	 8人
      (b)10年後               	12人
      (c)10年後もなっていない 	30人

        o 語彙外・文法外発話が多すぎて、対応できない
        o お金の決済を伴う場合は音声認識は使用されない
        o WWWや携帯端末が普及すれば電話音声サービスは使われない
             + 実用化例は少し増えると思うが，主流になるとは思わない．WWWの普
               及により音声サービスは確実に減る．ただ，音声を好む，あるいは
               音声サービスしか使えないユーザー層は残るのでそれに対する24時
               間サービスなどとしては意味がある．

   * Q7  旅行の相談や法律の相談が音声対話システムでできるようになっている

      (a)5年後               	 3人
      (b)10年後              	16人
      (c)10年後もされていない	31人

        o わかるものに答えられるだけでも、有用である
        o 内容が多岐にわたりすぎて、対応できない
        o ビジネスとして成立しない
             + 旅行はともかく、法律相談は無理でしょう。むろん認識の問題では
               なく対話の問題ですけど。

   * Q8  携帯電話／端末において音声入力によるE-mail作成が標準装備されている

      (a)5年後              	24人
      (b)10年後              	19人
      (c)10年後もできていない	 7人

        o 騒音や入力系に対応できない
        o 計算パワー(CPU・メモリ)が足りない
        o 人々は公衆の面前で音声入力を使いたがらない
             + 定型文を入力するには便利でしょう。

   * Q9  日常会話の音声翻訳システムができている

      (a)5年後               	 7人
      (b)10年後              	15人
      (c)10年後もできていない	28人

        o これくらいには、できていて欲しい?
        o そんなに早くできると困る?
             + 日常会話ほど難しいものはないですよね。
             + 性能は程度問題だが、需要あるので、５年後には簡易型が出てくる

   * Q10  特定のタスクでは、機械と話しているのがわからない程度の音声対話シス
     テムができている

      (a)5年後                	11人
      (b)10年後               	17人
      (c)10年後もできていない 	22人

        o 今でも存在している!? → そのシステム名は?
        o 認識はできても合成が難しい??
             + どれだけ進歩しても、人間と機械の高次の差が見えて来るでしょう。
             + 人間の方がだまされれば、（事実上実現してなくても）実現してる
               ように見せかけられると思います

  ------------------------------------------------------------------------

(2)  技術面での展開

  10年後において、音声認識の基本的な技術はどのようになっていると思いますか。

   * Q11  依然として、MFCCもしくはLPCのパラメータが主流である。そうでない場
     合、他の候補は？

      (0)はい                                   20人
      (1)RASTA, PLP                              0人
      (2)聴覚モデル                              8人
      (8)何かはわからない／言えないが別のもの	13人
      (9)わからない                              7人
      (7)その他:                                 2人
        o 両耳受聴を参考にしたパラメータではないか？また、同一話者のトラッキ
          ングができる特徴量が使われているだろう。
        o 話者性を正規化したパラメータ

       音響特徴量については様々な研究が行われているものの、世の中の認識シス
     テムで採用されているものは10年間変わっていません。むしろ、以前より画一
     化されてきた様相です。フロントエンドをよくしなければ、という意見もあり
     ますが。

     コメント欄:
        o 認識率というより，クライアントサーバ型認識も考慮して標準化されるの
          では

   * Q12  音響モデルは、依然として現在のようなHMMが主流である。そうでない場
     合、他の候補は？

      (0)はい                                   28人
      (1)セグメントモデル,トラジェクトリモデル	 4人
      (2)ニューラルネットのようなモデル          4人
      (7)その他                                  3人
      (8)何かはわからない／言えないが別のもの	 7人
      (9)わからない                              4人

       10年前には現在のHMMの枠組み・アルゴリズムはできていました。ただし、10
     年前は離散HMMが主流だったような気がしますし、ニューラルネットも全盛で
     した。なおニューラルネットのようなモデルとは、サポートベクトルマシンな
     どの識別型モデルを包含します。

     コメント欄:
        o ハイブリッドなタイプになっているのでは。
        o HMM は、単にモデルと言うだけでなく、エレガントな付随したアルゴリズ
          ムや学習法を伴っている極めて巧みなモデルです。音声のモデルとして適
          しているとは言えないけど、これほど長所を多く持った単純な体系を他の
          枠組でもう一つ作り上げるのは困難でしょう。

   * Q13  言語モデルは、依然として現在のようなN-gramが主流である。 そうでな
     い場合、他の候補は？

      (0)はい                                    5人
      (1)文法モデルと統合されたモデル            7人
      (2)意味や文脈を反映したモデル             30人
      (7)その他                                  1人
      (8)何かはわからない／言えないが別のもの	 4人
      (9)わからない                              3人

       10年前は、日本語はN-gramでモデル化できないという意見が多数でした。言
     語学(文法)的な知識が見直される時は来るのでしょうか。また、3-gramモデル
     を有意に向上させる意味や文脈のモデル(LSAやキャッシュモデル?)は実現され
     るのでしょうか。これもデータ量の問題でしょうか。


   * Q14  タスクやドメイン毎に言語モデルを用意する必要はなくなっている。

      (0)いいえ    	30人
      (1)はい      	14人
      (9)わからない	 6人

       音響モデルの性能が向上し、汎用的な言語モデルが構築できれば、こうなる
     かもしれません。なおメモリの制約は考えないことにします。話題を制御する
     場合も動的であれば、汎用的としましょう。人間の言語認知はどうしているの
     でしょうか。

     コメント欄:
        o 現時点でも不特定話者と特定話者の音声認識があり得るように、タスクや
          ドメインについても同じような状況になるでしょう。
        o 人間も状況に応じ、使用する言語モデルを変更しているような気がします
        o 携帯端末などの普及により、個人対応の言語モデルが一般的になると思い
          ます。Ｖｏｉｃｅ　ＸＭＬなどが、かってに個人の利用履歴などを利用し
          て（夜中に）言語モデルを構築するようになるかもしれません。

   * Q15  話者適応はもはや不要(手間の割に効果がない)となっている。

      (0)いいえ    	29人
      (1)はい      	15人
      (9)わからない	 6人

       非母国語話者や極端な方言はとりあえず除きます。また、モデルの選択は適
     応には含みません。音響モデルがあらゆる話者層をカバーしてしまえば、こう
     なるかもしれません。これも人間の認識はどうしているのでしょうか。

     コメント欄:
        o 人間においても初対面の人間に対してはある程度の話者適応が行われてい
          ると思われるからです
        o 携帯端末が普及し、話者適応が一般的になるかもしれません。

   * Q16  人間と同程度に、マイクとの距離は問題ないレベルになっている。

      (0)いいえ    	19人
      (1)はい      	22人
      (9)わからない	 9人

       マイクロフォンアレイあるいはスペースダイバシティ型の音声認識で実現さ
     れるのでしょうか。

     コメント欄:
        o 人間と同程度なら比較的容易。認識部は人間よりむろん下等。
        o 人間でも距離や環境は問題で、マイクロフォンアレイはむしろ機械的すぎ
          る気がします

  ------------------------------------------------------------------------

(3)  社会の環境

  10年後において、音声認識を取り巻く社会環境はどのようになっていると思いますか。

   * Q17  「音声認識はできた」というのが世の中の認識になっている。

      (a)はい      	25人
      (b)いいえ    	17人
      (c)わからない	 8人

     コメント欄:
        o すでに、できたという風潮がある。
        o 現在の機械翻訳程度にはなっている．できたという認識をされるが，実際
          はまだ問題点が多数残ったまま．

   * Q18  音声認識の研究を行っている大学などの研究室は現状より増えている。

      (a)はい      	12人
      (b)いいえ    	27人
      (c)わからない	11人

     コメント欄:
        o コンピュータのアーキテクチャやOSや計算機言語の研究と同様に、実用／
          商用段階になってしまうと研究としての関心が薄れ、大学の研究室では危
          機を迎えるかも知れません。
        o ４０歳以下の方、次の飯の種を考えた方がよい。
        o 少子化から大学自体が減る

   * Q19  音声認識技術をビジネスにしている企業は現状より増えている。

      (a)はい      	42人
      (b)いいえ    	 6人
      (c)わからない	 2人

     コメント欄:
        o コンピュータのOSと同じく、音声認識エンジンは淘汰され寡占状態に
          なるかも知れません。その一方で、多種多様な音声認識応用システムが高
          付加価値のシステムとして実現されるでしょう。

   * Q20  携帯端末(i-modeのような)が広く普及した後も、電話音声による自動応答
     サービスは必要とされていると思いますか。

      (a)はい                                  32人
      (b)いいえ                                	8人
      (c)端末での単語認識ですむようになっている	7人

     コメント欄:
        o i-modeの補助的手段として音声は生き残る．音声のみというのは少なくなる
        o 音声によるサイトやサービスの探索には音声認識が有用。（小さい画面で
          は難しい）

   * Q21  人間以外のもの(エージェント含む)に対して、人格を見いだして自然に話
     しかけることが社会で一般的に受容されているでしょうか。

      (a)はい  		26人
      (b)いいえ		21人

     コメント欄:
        o まずはゲームから受容される。
        o あくまで親しみのある（生身の人間ではない）キャラクタとして。
        o 一般的ではないでしょうが、若年層を中心に受け入れられつつあるように
          思えます
        o 生身の人間と付き合えない人も増えるでしょうし。

   * Q22  音声言語情報処理研究会は、この名称で存続していると思いますか。

      (a)はい      	27人
      (b)いいえ    	10人
      (c)わからない	13人

     (b)の場合、その名称は？
        o 結局、最初と最後をとって、音声研究会となるのでは？
        o 希望ですが，より広い対話環境を含む名称になっている。

  ------------------------------------------------------------------------

(4)  最後に、研究目標について

  自由回答でお願いします。今後10年の話と限りません。

   * Q23  流暢な第二言語(外国語)話者と同程度の音声認識はいつ頃実現できると思
     いますか。

     [コメント] TOEICでは800～900点以上でしょうか。英語のディクテーションや
     放送音声認識のシステムをみると、我々を上回っているような気もします。た
     だしここでは、ドメイン非限定で、環境へのロバストネスも含みます。母国語
     話者なみというと気が遠くなるほど先ですし、工学的にはこのあたりが目標と
     思われます。
     (注) 高次の理解や対話の能力は含みません。

(河原)  o 生きているうちに実現したいものです。
(中村)  o これは、非常に難しい問い。分野を限定すれば、ATR-MATRIXはTOEIC500点
          は達成している。流ちょうというのをTOEIC800点以上、ドメインを限定し
          ないとすると、１０年以上かかると思う。
(武田)  o ちょっと難しい質問ですね。人間並みの対話能力という意味では、道のり
          は遠いでしょう。人間なみの聞き取り能力という点では、（条件の良いデ
          ィクテーションでは）すでに達成されているに近いですよね。
(西村)  o TOEIC800-900点くらいじゃとても流暢とは言えないでしょう．(^^;それは
          さておき，現状の英語のdictaionはそれより性能が高いのでは? 話し方が
          「読み上げ」なら既に出来ているということではないですか?

        o 10年後には出来て欲しい．
        o １０年後
        o １０年後には実現できると思います。
        o １０年後くらいではないでしょうか。
        o １０年後以降
        o １０年はかかる．
        o １０年か１５年ぐらいで出来るのでは？ちょっと不得意の話題の分野があ
          ると思いますが。（人間でもそうですよね）
        o １０年では無理。理解抜きの認識だけなら、十数年後で可能。今後の１０
          年で音声認識の技術は成熟し、１０年以上前の文字認識研究と同じ状況に
          なるでしょう。但し、音声理解が必要とする、通訳や議論のような認識
          は、依然として困難だと予想される。
        o 15～20年後くらいでしょうか．ただし，内容理解はもっと先の話
        o 20年？
        o 20年後．テストでは900点取るくせに実際には全然話せない人ぐらいのレ
          ベルなら，10年で実現可能かも．
        o 20年後
        o 20年後にはできるのではないかと思います
        o ２０年後。
        o ２０年後
        o ドメイン非限定となると、見当もつきません。20年は先だと思います。
        o 20ー30年後だと思います。
        o ３０年後。
        o ３０年位先
        o 一般的な内容では10年後と言えども難しい。強いていえば、30から40年後
        o 30年後、５０年かもしれない、問題がまだ明らかではない。１０年は短す
          ぎる期間である。
        o 当分の間はできないと思う
        o かなり将来で、予想もつきません。
        o できない。
        o 音声研究者にとっては、それなりの成果を出しながら、永遠の課題であっ
          てほしいです。

   * Q24  話し言葉(Switchboard DBなど)に対する認識率は依然として低いですが、
     今後データを増やしていけば、現在のHMMと単語N-gramの枠組みで解決される
     と思いますか。あるいは、どのあたりに抜本的な改良が必要と思いますか。

     [コメント] 話し言葉は読上げ音声に比べてバリエーションが大きすぎて、単
     にデータが足りないのか、モデルの自由度が足りないのかが明らかではありま
     せん。前者であれば回答はYesです。

(河原)  o そもそも、p(W|X)=p(W)p(X|W) (W:単語列,X:音声)でデコードするという
          前提がおかしいような気がします。
(中村)  o 音響モデルのミスマッチも大きいが、非常に自由度の大きい対話の認識に
          はかなりかかると思う。基本的には、言語モデルを、かなり変えないとい
          けないと思う。やはり、文法や意味、文脈などの高次の情報を使う方向に
          進む。また、柔軟かつ統計的な対話のモデルが出現するだろう。
(武田)  o いかにHMMやN－グラムといえども、モデルの大規模化には限界がある。
          （どれだけデータがあっても、電話とマイクで同じモデルというわけに
          はいかないでしょう。）様々なモデルを適宜切り替えながら利用する情報
          統合の原理が必要ではないか。
(西村)  o 現状の枠組みで解決される保証はないが，やってみる価値はある．

        o 基本的にはそうだと思いますが、少ないデータで有効に訓練できるような
          原理的に新しい方法の開発が重要になってくると思います。
        o 基本的にはデータベースの問題だと思う。もちろんモデルの自由度を上げ
          ることは必要。
        o 話し言葉の認識は、言語モデルの精密化と音響モデルの精密化によるスポ
          ッティング性能の向上の合わせ技でかなり行くでしょう。

        o なかなか難しいのではと思っている。話し言葉の認識を追及していくと違
          ったモデルのあり方とかが数年後には、追求されているような気がする。
          あと音響モデルと言語モデルに加えて韻律モデルは絶対必要と思う。
        o 話し言葉は、根本的に考え方を変えて取り組まないと、従来のモデル（言
          語、音響）では限界があるように思います。

        o 音響的にはHMMの巧妙な枠組は維持されると思います。一方、言語
          モデルは現在のN-gramはあまりに原始的で、学習効率が極めて低く、人間
          の言語能力に比べて乖離が大きいと思います。ここに抜本的な改良が必要
          となるでしょう。
        o 言語モデルに関して、画期的なアイディアが必要と思う。
        o 韻律を使う様にしたい。また言語モデルに何らかの発展が必要でしょう。

        o 意味主導型の解析手法が大切。N-gramのみでは難しい。
        o 意味理解が必要。 
        o 意図理解の枠組みが必須です。
        o Ｎ－ｇｒａｍだけでは、解決は不可能だと思う。意味処理に基づいた言語
          モデルが必要だと思う。
        o 解決できるとは思いません。トップダウン的な文脈・意図理解の処理が必
          要と思います。
        o 思いません。言語で表せるものの後ろにある情報を的確にモデル化する必
          要があると思われます。
        o たとえ話者が言い間違えても、本当は話者がなんと言いたかったのかが推
          定できるくらい知識処理と融合できるようにならないと無理だと思います。
        o 翻訳で用いられるような意味理解の枠組みを進展させることで、話し言葉を
          ディクテーションしたもの以上の「話し言葉の書き起こし」を構成できる
          のではないでしょうか。話し言葉の意味理解には、音響信号レベルからす
          でに重要な情報があると考えられますので、ある程度認識手法全体を見直
          す必要があると思います。

        o 音響情報、言語情報、韻律情報 (、マルチメディアシステムであれば画像
          情報) など、個別の情報の取捨選択 (どこには何が有効か) および統合が
          やはり今後の課題の一つになりそうです。
        o 個々の発話の内容を精度よく理解する方向の研究と並行して，社会的な相
          互行為やコンピュータなどとのインタラクションそのものの意味や捉え方
          に対する新しい枠組みが提案されてくると思います．もはやコミュニケー
          ションを情報伝達的な視点だけから追いかける時代ではない．

   * Q25  話者層や入力環境へのロバストネスが大きな課題となっていますが、今後
     データを増やしていけば、現在考えられているような適応の枠組みとあわせて
     解決されると思いますか。あるいは、どのあたりに抜本的な改良が必要と思い
     ますか。

     [コメント] 10年前のパネルでも、6年前の討論でも、「ロバストネスが問題で
     ある」と言われました。パターン認識の本質ともいえますが、音声認識の使用
     される状況に限れば、ほぼ対応される日が来るのでしょうか。

(河原)  o 今後データベースが蓄積されればかなりのバリエーションがカバーされる
          と思われる。その際に、入力にマッチしたモデルを高速に選択する手法が
          要求される。すべてのモデルを適用してからROVER法に頼るということも
          ありうるが、芸がない。
(中村)  o 話者について、年齢や静的な差は解決される。方言などの問題は残る。入
          力環境への頑健性は、音声以外の情報の利用、環境のデータベースの整備
          で研究が進むと思う。このあたり、すこし人間の情報処理を学んだ方が良
          いかもしれない。
(武田)  o 上と全く同じ答えです。様々なモデルをいかに上手に組み合わせるかを考
          えることが必要だと思います。
(西村)  o これも十分な規模のデータベースが構築されれば，特定の環境下なら，か
          なりのレベルで対処できそうに思う．

        o 話者層の違いについては、多数の話者の声を集めて、話者の広がりを統計
          的にモデル化できると思います。話者層の広がりは有限で、普遍であると
          いう考えです。つまり、誰かが一回調べればよい。一方、環境は無限にあ
          ると考えるので、適応するあるいは、個別にモデル化する必要があること
          になります。実際には、環境が変化して予測できないような環境でも使わ
          れることはないと考えて、個々の環境で対策を考える方が現実的な気がし
          ます。
        o 話者層の問題に関しては学習データの話者数を増やすことでほぼ解決する
          と思います。多種、多様な雑音に対するロバストネスは現行の方法だけで
          は達成は困難であると思います。
        o データを増やしてモデルを作り、各モデル間の切り替えと適応を適切に行
          う機構があれば、現在の技術で解決されるのでは。
        o 少ないデータで適応する方法の開発がポイントになると考えます。

        o マイクや雑音対策でかなりの程度は解決できると思う。しかし、根本的な
          解決には、人間の聴覚モデルを模倣した特徴量などの検討も必要だと思う。
        o 特徴抽出段階へのフィードバックも必要かもしれない。
        o 音声パラメータの実質的な見直しが必要と思われます。
        o CASA的なアプローチをもっと取り入れていくことが必要でしょう。また聴
          覚以外の他の情報も積極的に使っていくような枠組みが必要だと思います。
        o データを増やせば現在の枠組みでもある程度は対応できるかも．しかし入
          力環境のバリエーションは多いので人間なみというのは難しいのでは．フ
          ロントエンド，モデル，さらに高次の処理など，様々な角度からの努力が
          必要

        o 十分な情報量を処理出来る計算機があれば性能は飽和すると思います。
          より高度な文脈判断、状況判断と組み合わせることで解決すると思います。
        o システムの状況の把握などによる自動適応など、単にデータ量に頼るので
          はなく、新しい観点からのアプローチが必要では。
        o データを増やすだけでもある程度解決されるでしょう。計算処理能力の向
          上とともに、そのような物量作戦もそれなりに有効と思われます。一方、
          限られたデータ量でもロバストネスが得られるような着想、モデル、アル
          ゴリズムの研究は今後も必要でしょう。そのようにして、音響的な面での
          ロバストネスは徐々に解決されると思います。しかし、最も大きな問題は
          言語能力でしょう。状況や常識や意味などを適切に処理して、ロバストに
          理解する仕組みができなければ、人間の持つロバストネスには近付けない
          でしょう。