マイクロホンアレイデモ

ベイズモデルによるマイクロホンアレイ処理のデモページ

もどる
Go back

概要

音声認識や話者・音源種類識別は，計算機やロボットが音を聴いて知的に振る舞うための重要な技術ですが，これらの技術の多くは入力音が 1 つの音であるという仮定に基いてデザインされています．一方，実際に音を聴くという場面では，屋内であればテレビや洗濯機などの音や周囲で話をしている人がいたり，屋外では雑踏や車の音などの存在で，多様な音が目的音と混じって聞こえるため，音声認識や音源識別精度が劣化するという問題があります．
そこで，観測した混合音を聞き分ける音源分離機能の実現のために，複数のマイクロホンを組み合わせたマイクロホンアレイがよく用いられます．マイクロホンアレイを利用することで，観測混合音から各音源の分離や，音のやってきた方向の推定 (音源定位) が出来ますが，従来の手法は音を観測した環境の未知要因を対処する能力が限られていました．ここで紹介する研究では，次の 3 つの環境中の未知要因をノンパラメトリックベイズという 1 つの枠組みに基いて定式化を行っています．

未知音源数: 多くのマイクロホンアレイを用いた音源分離手法は，観測音に含まれる音源の数を与える必要がありました．この研究では，ノンパラメトリックベイズという統計的枠組を活用し，理論上音源が何個あってもモデルやパラメータなどを変えずに音源分離できる手法を開発しました．
残響: 屋内で観測した音は，壁や床などで反射音である残響を含みます．多くの残響を含む観測音に対する音源分離処理は性能が低下するため，残響除去を併用するマイクロホンアレイ処理がよく用いられますが，従来の残響除去の枠組みでは，利用するマイク数 M に対し，M-1 個の音源までしか対応出来ませんでした．この研究では，残響除去の枠組みにもノンパラメトリックベイズのアイデアを組み込むことで，任意の音源数に対する残響除去手法を開発しました．
動的環境: マイクロホンアレイを用いた音源分離や残響除去手法は，各音源とマイクロホンアレイの相対的な位置関係は不変という仮定に基いて設計されています．ここでは，移動ロボットに搭載したマイクロホンアレイを使って，ロボットが移動しながら観測した 2 つの音を分離する例を紹介します．

1. 未知音源数

2. 残響

3. 動的環境

1. 音源数未知状況における音源分離

ここでは，4 つのマイクで (i) 2 音源を分離，(ii) 5 音源を分離した場合の結果を示します．従来の手法のように音源数に応じたパラメータ設定をすることなく，いずれの場合も同様の設定で処理しています．
音再生は Chrome にて動作確認しています．分離音等の聴取はヘッドホンの利用をお勧めします．

2 音源の分離

混合音
分離音 (女声)
分離音 (男声)

5 音源の分離

混合音	分離音 (60 deg.)	分離音 (0 deg.)
	分離音 (-90 deg.)	分離音 (-60 deg.)
	分離音 (90 deg.)

2. 残響除去と音源分離の統合

残響を含む環境では，音源分離性能が劣化します．残響除去を行う場合は，残響は過去に観測した音が現在の観測に伝播したものとしてモデル化し，除去しています．ここでも，4 つのマイクで (i) 2 音源，(ii) 5 音源のそれぞれの場合について，残響除去なし/ありの結果を示します．

2 音源の分離
- 残響除去なし: 音の響きや，他音源の反射音が混入する．
  
  混合音
  分離音 (女声)
  分離音 (男声)
- 残響除去あり: 反射音の抑圧が確認できる．
  
  混合音 (上記「残響除去なし」と同じ)
  残響除去+分離音 (女声)
  残響除去+分離音 (男声)

5 音源の分離

残響除去なし

混合音	分離音 (60 deg.)	分離音 (0 deg.)
	分離音 (-90 deg.)	分離音 (-60 deg.)
	分離音 (90 deg.)

残響除去あり

混合音 (上記「残響除去なし」と同じ)	残響除去+分離音 (60 deg.)	残響除去+分離音 (0 deg.)
	残響除去+分離音 (-90 deg.)	残響除去+分離音 (-60 deg.)
	残響除去+分離音 (90 deg.)