English / Japanese
研究のデモ等.
Links
=== 前置き === (Introduction)
ロボット (システム) に雑音環境下で目的音声を聞き分けさせて,
自動的に認識させることが目的です.
本研究では,
「ロボット(システム)の声がマイクに入り, 他の音源と被ってしまうかもしれない」
ということも想定しています.
目的音声以外の音には, ロボットの発話, 他の雑音源, 部屋の反射音(Ghost, 残響) などがあります.
そして, これらは自動音声認識(ASR) の性能を著しく低下させる原因となっています.
私は, いわゆるブラインド音源分離が可能な 独立成分分析 (ICA) という手法に着目して,
これらの問題の一括した解決を試みています.
この手法に目を付けた理由として, 仮定がほとんどない点があげられます.
これは, ロボットが未知環境で動作することを考えた場合,
音源に対してあまり前提を置けないという点で, 非常に重要な性質といえます.
計算コスト(残響時間の線形オーダ), 音声認識が前提, といった面を考慮し,
ICA を設計・応用しています.
以下のデモは, ロボットの声が入っていない状況 のものです.
# ロボットの声が混っていても分離は可能.
=== ICA === (Independent Component Analysis)
基本的には, ソースの統計的独立性を利用して,
N ch の観測信号のみから互いに独立な N ch 信号を出力する手法.
ソースが互いに独立であれば, 観測した信号がそれらの混合であっても, ICA を通すと分離される.
音声や音楽(非定常な音)などは統計的な独立性が高いため, ICA を用いることで分離できる.
音源分離においては, 基本的にマイク数まで音源を分離することができる.
つまり, 音源数 = マイク数 or 音源数 < マイク数 が仮定される.
もし, マイク数が音源数よりも多い場合, 余ったチャンネルには別の独立な信号が出力される.
マイクで録音したデータのみを用いて, 混合音を個々の音に分ける処理.
# 厳密には, ある統計的なモデルは仮定している.
ビームフォーマといった手法とは, 音源の方向情報や空間伝達関数などが不要, という点で異なる.
/*-- 独立成分分析(ICA)を用いた音源分離例 (残響抑圧付き) --*/
* 音声認識における技術で対応可能な, 初期反射や最後部残響分に関しては対処していない.
条件 (conditions) :
1. インパルス応答を用いたシミュレーションデータ (残響時間 約0.9[s])
2. 無雑音
3. バッチ処理
4. 反復30回 (学習係数適応あり)
5. Permutation は正解を利用 (純粋な分離結果を見るため & 検討中なため)
6. フィルタ長は約 0.4-0.5 [s] 相当.
音源 (sound source): 男性話者A + 男性話者B (two speakers case, A & B)
* 合成音の例
-- 観測音 (Observed signal of 1st ch); wav
*[従来法 (baseline method)] マイク4本 利用時の周波数領域ICA による分離結果 (with 4 microphones)
オーソドックスな FD-ICA による分離.
2音源4マイクなので, 4-2 = 2音源分は有力な反射音が別音源として出力される.
-- 分離音A (Separated signal of speaker A); wav
-- 分離音B (Separated signal of speaker B); wav
*[提案法 (Our method)] マイク4本 利用時の分離結果 (with 4 microphones)
残響を扱えるように, FD-ICA を拡張. 後処理がないと, 低域がちと厳しい.
-- 分離音A (Separated signal of speaker A); wav
-- 分離音B (Separated signal of speaker B); wav
*[提案法(Our method)] マイク8本 利用時の分離結果 (with 8 microphones)
やや改善されるが, 計算コスト大.
-- 分離音A (Separated signal of speaker A); wav
-- 分離音B (Separated signal of speaker B); wav
別パターンの分離例はこちらへ.
マイクで録音したデータのみを用いて, 音声の残響(エコー)を抑圧する処理.
エコーキャンセラとは, 元の信号が分からない(明示的な教師信号がない), という点で異なる.
/*-- 独立成分分析(ICA)を用いた残響抑圧例 --*/
* 音声認識における技術で対応可能な, 初期反射や最後部残響分に関しては対処していない.
条件:
1. インパルス応答を用いたシミュレーションデータ (残響時間 約0.9[s])
2. 無雑音
3. バッチ処理
4. 反復30回 (学習係数適応あり)
5. フィルタ長は約 0.4-0.5 [s] 相当.
* 合成音の例
-- 観測音 (Observed signal of 1st ch); wav
*[baseline] マイク4本 利用時の周波数領域 ICA による抑圧結果
単純に FD-ICA で分離. 多少, 残響が分離される.
-- 抑圧音 (Dereverberated); wav
*[提案法(Our method)] マイク4本 利用時の抑圧結果
全体的にそこまでよくないが, 低域がやや改善.
(発話区間がもう少し長ければ多少は改善される...かも)
-- 抑圧音 (Dereverberated) ;wav
Copyright (C) 2009-2010 Ryu Takeda All Rights Reserved.