2020/04/09

バイノーラルプロセッシングプラグインを知る




ゲームは以前からそうでしたが、最近は音楽制作用途でもAmbisonicsを取り入れたソフトウェアが多くなりました。
そこにはバイノーラルプロセッシングのツールも用意されていますが、何も知らずにそれらを使うことはキケンです。

どのソフトウェアのバイノーラルも信号処理は同じだと思っていませんか?
それは大きな間違いです。

Ambisonics用のバイノーラルプラグインには、Ambisonicsからデコードする技術とその後バイノーラル化する技術の2つが絡んでいます。
数種類あるAmbisonicsのエンコードからいかに信号を受け継ぎバイノーラルプロセッシングを行うか?
またどの程度のバイノーラルの技術があるか?
各ソフトウェアがここ数年での取り組みであることから、その完成度はまだ浅いことが想像できます。
自分の使っているソフトウェアのバイノーラルプロセッシングの質はどの程度なのか、それを知ることにより、例えばバイノーラルプロセッシングだけ他のソフトウェアを使うと言った、より良い制作のための判断が出来るようになります。


もちろんバイノーラルプロセッシングにはHPLをお薦めしたいところですが、今日現在誰もが使えるツールではありません。(近々ハードウェアが発売されますが)

そこで今回は、誰でも使用することが出来るAmbisonics用の2つのバイノーラルプロセッシングプラグインについて、自分が思う問題点を解説しますので、皆さんが使用しているソフトウェアのバイノーラルの音と比較してみてください。


では、まずはNOISE MAKERSのAmbiHeadです。

AmbiHeadはHRTFを選択できますが、今回はNeumann KU100のHRTFを使います。
それが一番良いので。(その他がダメなので)
Bass BoostはもちろんOffです。
InputはとりあえずAmbixにします。

下記の無響室で録音された女声アナウンスのモノラル音源をバイノーラル化して見ましょう。

※目的上音質を考慮し音源はWAVファイルとしています。そのためプレーヤーの動作は重たいです。(モバイル端末では再生出来ないと思います)音質面を考えてもダウンロードしての試聴をお勧めします。




IEM Plug-in SuiteのMultiEncoderを使いAmbisonics化(1次)し、その出力にAmbiHeadを接続しバイノーラルプロセッシングしました。

AmbiHeadの問題は、Widthの初期設定が100%になっていることです。
これが実はワイド過ぎるのです。




Width 100%の設定のまま、MultiEncoderで音声を0度(正面)に定位させ、数秒してから左30度に切り替えた音を作りましたので聴いて見てください。
立体感とかは考えず、注目ポイントは何度くらいに聞こえるか、だけです。




いかがでしょうか?
左過ぎませんか?
左90度と言われても疑わないかも知れません。


次にWidthを50~55%に設定し、同じく0度から左30度に切り替えた音です。





まず0度の音に少し芯が出ているのが分かりますか?
Width 100%だと中抜けしているわけです。
30度の音は「まぁこの位かな」と言う定位ではないかと思います。

左回りに音を1周させてみましたので、音の繋がりも聴いて見てください。
音が周っているか分からないかも知れませんが、ここでの注目ポイントはそこでは無く、音像移動が自然かどうかです。



Width 100%では、すぐに音が左右どちらかへ大きく動き、左右90度に近づくにつれ音が極端に大きくなります。
この様な設定だと、特にヘッドトラッキングを行った際には、頭を回したときの音が左右に行き来するだけの立体音場とは言えない空間表現となり没入できません。


Widthと言う機能が、空間を前後左右上下ともに拡げると思っていませんか?
この機能は左右を拡げる機能です。
左右を拡げると、Ambisonicsのアルゴリズムでは前後が狭まります。

このWidth設定は、100%にしてしまうと「前後の奥行きを捨てて左右の広がりをとにかく重視した音」になってしまいます。
これではマイクで全方位を録音していたとしても全く再現されません。
前後にとても薄っぺらな空間が生成されるだけです。

ちなみにWidth 50%で1周させた音はこのような感じです。
音像移動が自然なのは分かると思います。



AmbiHeadにはこうした設定があるのでまだ良いのですが、次に説明するIEM Plug-in SuiteのBinauralDecoderには設定が何もありません。




IEMのBinauralDecoderも、HRTFは同じNeumann KU100のHRTFが使われていますので、IEMの方が低域がスッキリしてはいますが音のキャラクターはほぼ同じです。

同様にしてIEMのMultiEncoderからBinauralDecoderへ接続し、0度から左30度に切り替えた音を作りました。



AmbiHeadのWidthを100%近くにした様な音と非常に似ています。

ただ、それを変更する設定は何もありません。

唯一設定できるのが、ノーマライゼーションのSN3DとN3Dの切り替えのみ。
試しにN3Dにして同じ録音を行うと、過度なワイド感は無くなりますが前後は少し狭いと思います。




なぜか現在では、Ambisonicsフォーマットの基本がAmbixのSN3Dらしいのですが、その理由は分かりません。

Ambisonicsをスピーカー再生してみても、SN3DはN3Dよりも左右の広がりが出ます。
バイノーラルプロセッシングほどでは無いのですが、自然な音からは離れていく感じがするのであまり使いません。 追記(2020.05.18):一概にそうとは言えずアプリとその設定にもよる。

SN3DやN3Dのことを知りたい人は、以下のページに説明がありますので参照してください。

https://en.wikipedia.org/wiki/Ambisonic_data_exchange_formats


Ambisonicsでは、ソフトウェアによってアルゴリズムが微妙に違うことがあるため、調整の出来ないバイノーラルプロセッシングは要注意です。
Ambixに対応しているからそれを選択しておけば安心と言う話では無いのが難しいところで、SN3DでエンコードされたものはSN3Dでデコードした方が良さそうには思いますが、しかしそれが正解かは分かりません。 追記(2020.05.18):その後のテスト結果からそうすべきと思っています。
ですので耳で判断してください。



ここまでは単純な定位感について試聴しましたが、ここからは空間表現について考えてみます。

A-formatマイクは1ポイント録音であるため、Ambisonicsのスピーカー再生の音は空間表現が豊かです。
「空気感」などと言いますが、そうした感覚が得られれば得られるほど没入感は増していきます。
それをヘッドフォン内でもなるべく実現したいところです。


ではまず、ザワザワしている体育館の録音素材がありますので、それを聴いて見ましょう。

マイクはSoundField SPS200です。
A-formatからB-formatへの変換プラグインは、今回AMBEO A-Bフォーマットコンバーターを使いますが、この変換プラグインに何を使うかでも音は変わります。
しかし今回はそこには触れずに進みます。
そしてバイノーラルプロセッシングはHPLで行いました。
この音をレファレンスとします。


ここでの注目ポイントは「空間」を聴くことです。
数か所での会話やシューズのキュっという音の響き方から、空間的な存在感(定位では無い)や前後左右上下の奥行きなどを聴きます。
ここからはとても繊細な音の試聴になりますので密閉型ヘッドフォンをお勧めします。
短い音源なのでまず10回くらいは繰り返して隅々まで聴いてください。





では、AmbiHeadのWidthを100%に設定した音を比較してみましょう。
1回聴いてすぐに、先ほど書いた「前後にとても薄っぺらな空間」と言うのが分かると思います。




これをWidth 55%にすることで空間が生まれてきます。





さらに、AmbixをFuMaに変えてみました。




いかがでしょうか?
違いが分かりますか?


いずれにしてもWidthを100%では、録音されているはずの空間が失われていることが分かったと思います。
Width 55%でも、若干ですが全方位の奥行きがレファレンスよりも弱く、高域も少ないことが分かります。
この辺りが音質の違いです。


さて、IEMはどうでしょうか?




SN3D設定ではAmbiHeadのWidth 100%と同じく、前後にとても薄っぺらな空間になってしまいます。



N3D設定の音も聴いてください。
SN3Dよりは前後の空間が生まれています。




いかがでしょうか?

AmbiHeadとIEMでは同じHRTFが使われていますが、Ambisonicsとそこに加えられる機能のアルゴリズムにより、また今回だとAMBEOのAmbixのSN3D(恐らく)との相性などにより、バイノーラル感は変わることが分かったと思います。

これらの音は皆さんの環境でも同じプラグイン構成にすれば再現出来ますので試してみてください。
その音をレファレンスとすれば、他のソフトウェアのバイノーラルプロセッシングの良し悪しを判断できるようになります。


もう一つ、滝の音を試聴したいと思います。
川や滝の音はそれだけ聴くとザーっと言うノイズみたいなものです。
しかし自然の音なので、必ず空間があるはずです。
はじめ枝を踏む音も聞こえます。それらと共に空間を探してみてください。
前方の奥行きと上下の広さが比較的わかりやすいかも知れません。
マイクはRODE NT-SF1です。


まずは、AmbiHeadのAmbixでWidth 100%です。



AmbiHeadのAmbixでWidth 50%です。



AmbiHeadのFuMaでWidth 50%です。



IEMのSN3Dです。



IEMのN3Dです。



最後はHPLです。





いかがでしたか?
今回は環境音でしたが、音楽素材で比較すると音質によりまた新たな違いが見えてきます。が、今回はここまでにします。
音楽を配信するようなケースでは、音質に気を配る必要があるのは当然。
それはまた別の機会で。




0 件のコメント:

コメントを投稿