2020/04/09

バイノーラルプロセッシングプラグインを知る -Part1-




ゲームは以前からそうでしたが、最近は音楽制作用途でもAmbisonicsを取り入れたソフトウェアが多くなりました。
そこにはバイノーラルプロセッシングのツールも用意されていますが、何も知らずにそれらを使うことはキケンです。

どのソフトウェアのバイノーラルも信号処理は同じだと思っていませんか?
それは大きな間違いです。

Ambisonics用のバイノーラルプラグインには、Ambisonicsからデコードする技術とその後バイノーラル化する技術の2つが絡んでいます。
数種類あるAmbisonicsのエンコードからいかに信号を受け継ぎバイノーラルプロセッシングを行うか?
またどの程度のバイノーラルの技術があるか?
各ソフトウェアがここ数年での取り組みであることから、その完成度はまだ浅いことが想像できます。
自分の使っているソフトウェアのバイノーラルプロセッシングの質はどの程度なのか、それを知ることにより、例えばバイノーラルプロセッシングだけ他のソフトウェアを使うと言った、より良い制作のための判断が出来るようになります。


もちろんバイノーラルプロセッシングにはHPLをお薦めしたいところですが、今日現在誰もが使えるツールではありません。(近々ハードウェアが発売されますが)

そこで今回は、誰でも使用することが出来るAmbisonics用の2つのバイノーラルプロセッシングプラグインについて、自分が思う問題点を解説しますので、皆さんが使用しているソフトウェアのバイノーラルの音と比較してみてください。


では、まずはNOISE MAKERSのAmbiHead HD です。

AmbiHeadはHRTFを選択できますが、今回はNeumann KU100のHRTFを使います。
それが一番良いので。(その他がダメなので)
Bass BoostはもちろんOffです。
InputはとりあえずAmbixにします。

下記の無響室で録音された女声アナウンスのモノラル音源をバイノーラル化して見ましょう。

※目的上音質を考慮し音源はWAVファイルとしています。そのためプレーヤーの動作は重たいです。(モバイル端末では再生出来ないと思います)音質面を考えてもダウンロードしての試聴をお勧めします。


Anechoic source
download link


IEM Plug-in SuiteのMultiEncoderを使いAmbisonics化(1次)し、その出力にAmbiHeadを接続しバイノーラルプロセッシングしました。

AmbiHeadの問題は、Widthの初期設定が100%になっていることです。
これが実はワイド過ぎるのです。




Width 100%の設定のまま、MultiEncoderで音声を0度(正面)に定位させ、数秒してから左30度に切り替えた音を作りましたので聴いて見てください。
立体感とかは考えず、注目ポイントは何度くらいに聞こえるか、だけです。




いかがでしょうか?
左過ぎませんか?
左90度と言われても疑わないかも知れません。


次にWidthを50~55%に設定し、同じく0度から左30度に切り替えた音です。





まず0度の音に少し芯が出ているのが分かりますか?
Width 100%だと中抜けしているわけです。
30度の音は「まぁこの位かな」と言う定位ではないかと思います。

左回りに音を1周させてみましたので、音の繋がりも聴いて見てください。
音が周っているか分からないかも知れませんが、ここでの注目ポイントはそこでは無く、音像移動が自然かどうかです。



Width 100%では、すぐに音が左右どちらかへ大きく動き、左右90度に近づくにつれ音が極端に大きくなります。
この様な設定だと、特にヘッドトラッキングを行った際には、頭を回したときの音が左右に行き来するだけの立体音場とは言えない空間表現となり没入できません。


Widthと言う機能が、空間を前後左右上下ともに拡げると思っていませんか?
この機能は左右を拡げる機能です。
左右を拡げると、Ambisonicsのアルゴリズムでは前後が狭まります。

このWidth設定は、100%にしてしまうと「前後の奥行きを捨てて左右の広がりをとにかく重視した音」になってしまいます。
これではマイクで全方位を録音していたとしても全く再現されません。
前後にとても薄っぺらな空間が生成されるだけです。

ちなみにWidth 50%で1周させた音はこのような感じです。
音像移動が自然なのは分かると思います。



AmbiHeadにはこうした設定があるのでまだ良いのですが、次に説明するIEM Plug-in SuiteのBinauralDecoderには設定が何もありません。




IEMのBinauralDecoderも、HRTFは同じNeumann KU100のHRTFが使われていますので、IEMの方が低域がスッキリしてはいますが音のキャラクターはほぼ同じです。

同様にしてIEMのMultiEncoderからBinauralDecoderへ接続し、0度から左30度に切り替えた音を作りました。



AmbiHeadのWidthを100%近くにした様な音と非常に似ています。

ただ、それを変更する設定は何もありません。

唯一設定できるのが、ノーマライゼーションのSN3DとN3Dの切り替えのみ。
試しにN3Dにして同じ録音を行うと、過度なワイド感は無くなりますが前後は少し狭いと思います。




なぜか現在では、Ambisonicsフォーマットの基本がAmbixのSN3Dらしいのですが、その理由は分かりません。

Ambisonicsをスピーカー再生してみても、SN3DはN3Dよりも左右の広がりが出ます。
バイノーラルプロセッシングほどでは無いのですが、自然な音からは離れていく感じがするのであまり使いません。 追記(2020.05.18):一概にそうとは言えずアプリとその設定にもよる。

SN3DやN3Dのことを知りたい人は、以下のページに説明がありますので参照してください。

https://en.wikipedia.org/wiki/Ambisonic_data_exchange_formats


Ambisonicsでは、ソフトウェアによってアルゴリズムが微妙に違うことがあるため、調整の出来ないバイノーラルプロセッシングは要注意です。
Ambixに対応しているからそれを選択しておけば安心と言う話では無いのが難しいところで、SN3DでエンコードされたものはSN3Dでデコードした方が良さそうには思いますが、しかしそれが正解かは分かりません。 追記(2020.05.18):その後のテスト結果からそうすべきと思っています。
ですので耳で判断してください。



ここまでは単純な定位感について試聴しましたが、ここからは空間表現について考えてみます。

A-formatマイクは1ポイント録音であるため、Ambisonicsのスピーカー再生の音は空間表現が豊かです。
「空気感」などと言いますが、そうした感覚が得られれば得られるほど没入感は増していきます。
それをヘッドフォン内でもなるべく実現したいところです。


ではまず、ザワザワしている体育館の録音素材がありますので、それを聴いて見ましょう。

マイクはSoundField SPS200です。
A-formatからB-formatへの変換プラグインは、今回AMBEO A-Bフォーマットコンバーターを使いますが、この変換プラグインに何を使うかでも音は変わります。
しかし今回はそこには触れずに進みます。
そしてバイノーラルプロセッシングはHPLで行いました。
この音をレファレンスとします。


ここでの注目ポイントは「空間」を聴くことです。
数か所での会話やシューズのキュっという音の響き方から、空間的な存在感(定位では無い)や前後左右上下の奥行きなどを聴きます。
ここからはとても繊細な音の試聴になりますので密閉型ヘッドフォンをお勧めします。
短い音源なのでまず10回くらいは繰り返して隅々まで聴いてください。





では、AmbiHeadのWidthを100%に設定した音を比較してみましょう。
1回聴いてすぐに、先ほど書いた「前後にとても薄っぺらな空間」と言うのが分かると思います。




これをWidth 55%にすることで空間が生まれてきます。





さらに、AmbixをFuMaに変えてみました。




いかがでしょうか?
違いが分かりますか?


いずれにしてもWidthを100%では、録音されているはずの空間が失われていることが分かったと思います。
Width 55%でも、若干ですが全方位の奥行きがレファレンスよりも弱く、高域も少ないことが分かります。
この辺りが音質の違いです。


さて、IEMはどうでしょうか?




SN3D設定ではAmbiHeadのWidth 100%と同じく、前後にとても薄っぺらな空間になってしまいます。



N3D設定の音も聴いてください。
SN3Dよりは前後の空間が生まれています。




いかがでしょうか?

AmbiHeadとIEMでは同じHRTFが使われていますが、Ambisonicsとそこに加えられる機能のアルゴリズムにより、また今回だとAMBEOのAmbixのSN3D(恐らく)との相性などにより、バイノーラル感は変わることが分かったと思います。

これらの音は皆さんの環境でも同じプラグイン構成にすれば再現出来ますので試してみてください。
その音をレファレンスとすれば、他のソフトウェアのバイノーラルプロセッシングの良し悪しを判断できるようになります。


もう一つ、滝の音を試聴したいと思います。
川や滝の音はそれだけ聴くとザーっと言うノイズみたいなものです。
しかし自然の音なので、必ず空間があるはずです。
はじめ枝を踏む音も聞こえます。それらと共に空間を探してみてください。
前方の奥行きと上下の広さが比較的わかりやすいかも知れません。
マイクはRODE NT-SF1です。


まずは、AmbiHeadのAmbixでWidth 100%です。



AmbiHeadのAmbixでWidth 50%です。



AmbiHeadのFuMaでWidth 50%です。



IEMのSN3Dです。



IEMのN3Dです。



最後はHPLです。





いかがでしたか?
今回は環境音でしたが、音楽素材で比較すると音質によりまた新たな違いが見えてきます。が、今回はここまでにします。
音楽を配信するようなケースでは、音質に気を配る必要があるのは当然。
それはまた別の機会で。




2020/04/01

サラウンドの座席配置の考え方



スピーカーを使用したマルチチャンネル再生のイベント等で、座席を隅までパンパンに並べているのを見かけますが、通常のチャンネルベースで制作された作品の場合、正しく音を聴けるのは中心の1席だけです。
それは22.2chのようにスピーカー数が増えようとも一緒です。

そうならない様に色々と工夫をする訳ですが、すでに完成された作品を再生している場合はそれも難しく。
とは言え客席の中央で音を確認して、あとは席を並べるだけで「端の席は仕方ない」と考えてしまうのは、作品に対してのリスペクトが掛けていると思います。

自分の関わる作品もやはり中心が最も良い席ではありますが、座席位置による極端なミックスバランスの変化が起きない様に注意を払い、中心から端に行くに連れ少しずつ音が変化する様な調整を心がけています。
そして作品が成立しなくなるほどミックスバランスの崩れる位置には座席を設けません。
設けなくてはいけない場合も「いやだー」と主張します。

当然中心と端とではミックスバランスはかなり変わりはしますが、その席なりに楽しめるサウンドにすることは出来ます。

これはミックスの仕方とスピーカー配置、音響調整など総合的な工夫となりますので、それに関わる全ての人にその意識が無いと達成されません。
そのことについては簡単に書ける内容では無いので、今回はサラウンド作品の試聴位置について考えたいと思います。


スピーカーに囲まれた中心が最も良いリスニング位置と言う考えは皆さん持っていると思いますが、謎なのがその中心から椅子を横に並べ始める行為です。

4席であればこの様に。




8席の場合はどうでしょうか?
前列4席、後列4席、と並べられていると思います。



なぜ?

自分の場合、4席ならこう。



8席ならこう並べます。




均等にスピーカーが4隅にあり、そこから同じ音が出ていたとするなら、すべての音が同じ大きさで聞こえるのは中心です。
そして放射状に広がりを見せると思いがちです。

しかし人は左右に敏感です。
左右のズレは誰でも気になるもの。
そして前後は左右に比べて曖昧だったりします。
なので、出来る限りリスニングエリアは横に広げない方が良いです。

また広がっていった先にスピーカーが有るか無いかも関係します。
出来るだけスピーカーには近づかないこと。


インビジブルシネマ「Sea, See, She - まだ見ぬ君へ」evala(See by Your Ears)を例にとると、この様になっていました。


120席の配置


中心の最も良い位置から、外に行くにつれて徐々に変化するようにサウンドを調整したいので、座席はスピーカーに対し均等な距離を保つことが重要です。


スピーカー配置に対するサラウンドの有効な範囲のイメージ



さらに言うなら、50名に対し100席用意するのも良くありません。
何故なら端に座りたがるからです。
ちゃんと聴いてもらいたいなら、なるべく無駄な椅子を置かないこと。

座席が多すぎた場合、安易に前後の1列を削ろうとせず端を削ります。

まずは両端1列


両端1列を削り100席に


次に削るのはここ。


角の席を削り88席に


実はSea, See, Sheの上映では、少しでも良い音体験をしてもらおうと、スタッフにより毎回椅子の数を調整し対応していました。
そうしたチーム一丸となっての作品を扱う姿勢は本当に素晴らしいと思います。

今後椅子を並べる際は、作品の事、聴く人の事をよく考え並べてみてください。




ここまで考えたとしても、端になればなるほど左右のバランスが悪くなることに代わりません。
席が前や後ろになっても出来る限りセンターの軸に近い席に座った方がバランスの取れたサウンドを楽しめます。


こうしたことを改善していく一つの考えとして、「センタースピーカーを重視したサウンド作り」があります。
これは音響だけでなく、作品としてセンタースピーカーを中心に考えて作ることからはじまります。

図のaの位置に座った場合、L/Rのステレオ作品ではセンター定位であるはずの音がLスピーカー寄り聴こえてしまいます。
ボーカルやベース、キックと言ったサウンドの芯となる音がLスピーカー側へ寄ってしまうことで、サウンド全体が左よりになってしまう。
その上でどんなにスピーカーをサラウンド配置したとしても、左寄りのサウンドであることには変わりありません。


サウンドの芯がLスピーカー側へ



しかし実際にセンタースピーカーを置き、そこからセンター定位の音を出せば、どの座席から聴いてもセンターは同じ1か所に固定されます。
当たり前ですね。


サウンドの芯をセンターへ


しかしこれが当たり前に出来ないのです。
普段2chステレオでしか音楽制作をしていなければ、センタースピーカーを核としたミックスをする経験はありません。
センターチャンネルをボーカル専用に使ったり、L/Rの音を多少混ぜたりと言った程度の使い方をしがちです。

その一つの理由が、センタースピーカーから音を出すと、センター定位が明確になり過ぎ左右に少しでもずれると気持ち悪くて動けなくなるのです。
音場の中心で聴けるなら、センタースピーカーは無い方が良かったりするのです。

しかし、センタースピーカーの軸上に座れない人が多い場合、逆にセンター定位を明確にした方が良いと思います。


サウンドの芯を音場のセンター軸に据え、そこから左右そして後方へと音を広げる意識でサラウンドミックスを行えば、より多くの人に同じサウンドイメージを共有してもらえると考えます。
もちろん左右のバランスは聴く位置によって異なりますが、センター定位がきちんとあるためセンター+サラウンドの音場となり、違和感はかなり軽減されます。


あくまでもセンター定位を軸としたサラウンドミックス


これらは一つの案ですが、ライブ、パブリックビューイングはもちろん、サイネージに至るまで、そうしたサウンドのサービスは当然の様に工夫されなければならないものだと思います。