SIGMUS94の発表(スペクトル変化量のピーク間隔・F0・MFCCを用いた歌声と朗読音声の自動識別システム)で,会場・ニコ生視聴者から寄せられた質問とそれに対する回答です. 2012年2月5日編集 Q. 自動識別の意義は? A. シームレスな音声サービスを実現するためです. 発表スライド冒頭でも述べましたが,現在では朗読音声(話声)検索サービスと歌声検索サービスを手動切り替えしなければなりません. これでは音声操作の大きな利点である「音声さえあれば,画面を見なくてもいいし,手で操作する必要もない」が大きく損なわれてしまいます. 別の方法として,「サービス切り替え命令」を発話するという手段がありますが,機能を切り替える度に命令語を発話するのは煩雑です. 将来の音声サービスは,音声のみでスムーズに操作できるようになるべきだと考えています. Q. なぜ扱う話声が,自由発話じゃなくて朗読音声なの? A. 一般に人が機械に対して話しかける場合,自由発話より朗読音声に近い話し方をすると考えられるからです. Q. 識別特徴量にΔパワー(歌声と朗読音声の識別ではないが,関連する識別研究で利用されている)を用いないのは何故? A. 人が歌声と朗読音声を識別する際に,パワーはほとんど影響しないという報告がされているため,その時間変動成分であるΔパワーも有効でないと判断したためです. Q. アクセント(スペクトル変化量)ピーク間隔はどんな特徴があるのか? A. 音響変化の激しい時刻を検知する特性があり,その時刻を音素開始時刻に見立てて識別特徴量として利用しています. この特徴量は我々が提案したもので,より詳細な特徴を検証する必要があります. Q. モーラ長を利用したほうが識別精度があがるのではないか? A. 精度向上する見込みがあり,今後モーラ長を導入した識別についても取り組む予定です. 今回の実験では,アクセントピーク間隔がモーラ長の代わりとなるような特徴量だと考えおり,またモーラ長の算出に時間がかかる可能性があるため(実時間抽出可能な処理のみ利用している),導入しませんでした. Q. 識別結果を連続値で与えているが,人間の定量的尺度(例えば6割歌声っぽい等)に合わせた結果を表示すほうが直感的だと考えられるが,どう思うか? A. 不可能でないにしろ,難しいと考えられます. 人によって話声らしいと考えるか,歌声らしいと考えるかが異なるためです. 我々の先行研究で,歌声の特性と話声の特性を混ぜた様々な合成音を被験者14名に聞かせたところ, そのうちの一部の音声で,被験者の判断が分かれたという結果が得られています(2011年に情報処理学会全国大会で述べた内容に関連する内容であるが,この点については現時点で発表していない). 平均的な判断結果を提示することであれば,可能だと考えられます. Q. (今回用いたスキャット音声が話声側に識別されたことについて)スキャットは歌声として識別されるべきではないのか? A. そうは思いません.私の判断では,今回用いたスキャットは比較的話声に近いと考えています. このように,音声によっては歌声か話声かの意見が分かれることがあります. 今回実装した識別器は,音響的な立場(つまり,楽曲に用いられるかどうかに依存しない)から,1つの統計的回答を与えるツールであると考えています. Q. 歌声と話声の違いを教えて A. 音響的な定義は困難であり,本報告はその違いを探求するものであると位置づけられます. 音響的なものに依らない定義の一つは「発声者が歌声を意図した音声」が歌声であり,「発声者が話声を意図した音声」が話声です(今回用いた学習データは,そのようにして作られたものです). しかし,これは必ずしも聞き手の判断に一致するとは限りません. 実装したシステムは,歌声か話声(朗読音声)かの判別がつかない音声に対し,1つの統計的回答を示すツールであると考えています. Q. 日本語以外の音声に対して正しく識別できるか A. ある程度は可能だと考えられますが,精度を高めるにはその言語の学習データが必要だと考えられます. 今回識別に用いた特徴量は,言語によってその特性が変わるためです(特に朗読音声の場合). Q. アクセントピーク間隔で,細かいピーク(ノイズ)はどのようにして無視しているのか A. これより小さいピークは無視するという閾値を,事前に決定(約20段階の中から最も精度が高くなるよう決定)しました. Q. 生主(ニコニコ生放送で放送経験がある人のことを指す)ですか? A. いいえ.声質に関して指しているのであれば,歌唱訓練を受けています. Q. (発表時に利用した曲が古いけど)何歳ですか? A. 25歳になりました.今,最も嫌いな言葉は「四捨五入」です.