2021/12/25

3DXが立体音響制作ツールの”基準”となり得る理由



NovoNotes 3DXを立体音響制作のツールとして”基準”となる製品だと言ってきました。
それはどういうことでしょうか?

UIを見てわかるように簡単そうなので”基準”に出来そう、というのも一つの答えですが、ここではちょっと深く解説したいと思います。

3DXは、3Dパンナー、Ambisonicsエンコード&デコード、バイノーラルプロセッシング、の3本柱で構成されたプラグインです。
(本当はここに残響が加わると完全なのですが、残響は複雑で難しい)


3DXはプラグインです。
挿したらすぐに音が出て欲しいです。
まず、何か作ろうとしたとき、やはり直観的に扱いたいもの。
立体音響のツールは何故か小難しく、音が出るまでに時間が掛かるものが多いです。
音が出たとしても、これで正しい設定なのだろうか?となってしまいます。
簡単に音が出て、触ったら素直に反応する、それは”基準”となるための最初の一歩だと思います。


さて、個別に解説しましょう


3Dパンナー

3Dパンニングの”基準”とは何でしょうか?
パンナーというと音を動かすイメージがあるかも知れませんが、音を定位させることがまずあります。

左90度にパラメーターで指定したら、左90度に音像が生まれる。
任意の位置に音が定位するのは”基準”としての基本条件です。
スピーカー配置が、4chスクエア、5ch、7.1.4ch、8chキューブ、いかなるフォーマットにおいても。

しかしツールによってはそれが”条件付き”での実現であったりします。
どういうことでしょうか?

Ircam Spat Revolutionで検証してみましょう。

Cycling ’74 Max を使っている人にとって、立体音響と言えばIrcam Spatです。
その豊富なパラメーターをMax上で自在に組み合わせ立体音響システムを構築できるのは素晴らしいですが、使いこなすにはかなりの知識が必要です。
音のシミュレーションプログラムの色が強いので、音楽制作で使うにはそこまで必要のないと思われる機能も備わっています。
それをFLUXが音楽制作でも使えるようにUIを整備したのがSpat Revolutionです。

パラメーターが多いからスゴイというのは安易で、目的に応じてある程度機能をまとめたり、必要なパラメーターを扱いやすく表示させるなどし、シンプルにすることの方が難しくスゴイことです。
3DXのUIが非常にシンプルなのは、立体音場を表現できる最低限必要な機能に絞り、その調整幅を経験則に基づいて無駄無く設計されているからです。

Spat RevolutionlはあのSpatをUIとしてよくまとめていると思います。
ただ、別のアプリをコントロールしていることには変わりないので、その点でどうにもならない扱いにくさはあります。


話を定位に戻します。

分かりやすく話すために、8chキューブのスピーカー配置で話を進めます。

Spat Revolutionには基本セットアップに3DXと同じ様に8ch Cubeが含まれています。
すばらしい。

実はこれ立体音響ツールとしては当然のことで、特にAmbisonicsを扱える立体音響ツールでは基本と言えるスピーカー配置です。
DAWに8chキューブが用意されていないのは、それが音楽制作ツールだからで、立体音響ツールでは無いからです。
立体音響にルーツがあるなら8chキューブは当然あるべき配置なのです。

その8chキューブ配置でSpat Revolutionを設定し、スピーカーエリア中央のリスニング位置に対し方位角-90度、つまり左真横に音を定位させてみましょう。

Spat Revolution Essential(機能が絞られたバージョン)ではパンニングアルゴリズムを以下の3つから選択出来ます。

VBP Dual-Band:ベクトルベースのパンニング
KNN:K Nearest Neighbourのアンプリチュードパンニング
LBAP:レイヤーベースのアンプリチュードパンニング

さぁ表現したい音にもっとも適したパンニングアルゴリズムを選んでください。

選べないですよね?
それぞれどんなアルゴリズムなのか、マニュアルには書いてありますので興味のある人は確認してください。

しかし知りたいのは仕組みではありません。
実際にどんな音になるのか、です。
これらのパンニングは、その時のスピーカー配置によっても表現が変わります。
それらを知るためにかなり使い込む必要があり、そして使い込むと一長一短であることが分かります。

最低限必要な表現力を持ったアルゴリズムを一つだけ提供した方が、ユーザーはそれを”基準”にしやすくなります。


では一つずつ解説します。

VBP Dual-Band

VBPはベクトルベースパンニングの略です。
このベクトルベースのアルゴリズムは、3点から一つの仮想点を計算するアルゴリズムなので、最大3台のスピーカーからの出力で任意の位置に音像をつくります。

8chキューブ配置のように、下層に4台、上層に4台のスピーカーで6つのスクエアの面を作っている場合、-90度に音を定位させるのであれば、左の下層2台上層2台の4つのスピーカーを同じ音量で鳴らせばその面の中央つまり-90度に音が定位することは想像がつくと思います。
しかしベクトルベースでは最大3台のスピーカーなので、こうなります。


-90度の定位を対角の#1, #7スピーカーだけで作るSpat


スピーカー#1と#7、対角の2台のファンタムセンターに音を定位。
これはかなり大問題で、リスニングポイントがスピーカーエリアの中央から少しでも外れると定位しなくなるだけでなく、音を動かしていったときのスムースな音像移動の妨げになります。
中央から全く動かないリスニングポイントはヘッドフォンでのバイノーラル再生であれば成立しますが、しかしそれでもすまされない欠点があります。

これは先ほどの位置から仰角を+20度にしたときです。


3台のスピーカーで方位角-90度仰角+20度を作るSpat


計算上は、方位角-90度、仰角+20度に定位しているのでしょう。
しかし現実では、#1, #5の方へ音像は引っ張られてしまいます。
上層のスピーカーと下層のスピーカーでは周波数特性は完全に一致することはありません。
なので、片側は上下層、もう片側は上層のみ、と言う明らかなバランスの違いを聴きとれてしまいます。

次は仰角+45度です。


仰角+45度では上層2台スピーカーでの定位となる


#5と#7の上層スピーカーが同じ音量で鳴り方位角-90度の軸上へ戻ります。

仮に方位角-90度で下から上に音像を移動させたとしたら、前後に波打ちながら移動することとなります。
実際には作品内でその様な定位に気付くことは難しいです。
だから問題にはならないかも知れませんが、Mixしていく段階では困ることも多いと思います。

Mix時のみならず、例えば様々な広さの空間やスピーカー配置で作品をインストールする人にとって、この様な複雑なアルゴリズムからなる音を現場で修正することは不可能なので扱いにくいです。

またVBPでは、計算が出来ないからだと思いますが、スピーカー配置の中央、つまり座標で言うとx,y,z = 0,0,0は無音になります。
音像=リスナー位置の音は作れないです。

ちなみに7.1.4chなども、上層に4chスクエアがあるので、このパンでTop Center(真上)に定位させると、Top Front LeftとTop Back Rightの2つのスピーカーだけが出力します。
想像出来ると思いますが、真上になど決して定位しません。


LBAPはどうでしょうか?

LBAPなどのアンプリチュードパンニングは#1, #3, #5, #7の4台のスピーカーで中央に音を定位させるのでベクトルベースの様な問題はありません。
よって直観的に扱えます。

LBAPは水平4chがベースになって高さ方向の階層をクロスフェードで行き来しているそうですが、そうとは思えない自然な上下の音像移動を実現しています。
しかし、水平方向に関しては中心を通る時に極端に音がスイッチします。
どういうことかと言うと、こちらはスピーカーエリアの中心x,y,z=0,0,0から横軸に極僅か動かした時のレベルメーターです。


x,y,z=0,0,0から方位角-90度方向へ極僅か動かした出力

x,y,z=0,0,0から方位角+90度方向へ極僅か動かした出力


動画で実際の音像移動を聴いて見ましょう。
HPLで8chキューブをバイノーラル化していますので、ヘッドフォンで視聴してみてください。





この様に上層、下層でも中心を通る時に音がスイッチしてしまいます。

こうした欠点を補うのがKNNです。
KNNではより多くのスピーカーで補間しながら音像移動できるため、スイッチは起きません。
しかし定位は甘くなり、音像を遠くにすることも苦手です。





また、KNNでも中心x,y,z=0,0,0に音を置くこと、つまり8台すべてのスピーカーが同じ音量で鳴ることはできません。


x,y,z=0,0,0への定位を試みてもどちらかへズレる



いかがですか?
いずれの問題も設定を調整すると、ある程度問題点を緩和することは出来るのですが、それは使い込んで知ってから出来る調整なので、”基準”となりえる性能とは言えません。

今回はSpat Revolutionで検証していますが、他の3Dパンナーも同様のパンニングアルゴリズムが採用され、それをベースに開発されていますので、同じ問題を含んでいる可能性があります。
Spat Revolution Essentialのパンニングアルゴリズムは3つだけですが、上位モデルのSpat Revolutionでは多くの基本パンニングアルゴリズムが備わっていますので、興味のある人は購入して検証してみると面白いです。

Spat Revolutionは音像に対する細かなパラメーターを備えており、かつ残響を伴う表現が可能ですので、音像のシミュレーターとして実力を発揮するツールだと思います。


さて、こちらは3DXのx,y,z=0,0,0です。


3DXのx,y,z=0,0,0はすべてのスピーカーが同じ出力となる


すべてのスピーカーの出力レベルが揃います。
普通です。予想通りです。解りやすいです。
実際の音像移動です。





滑らかです。距離感も出ています。
想像を裏切らない表現です。

”基準”とは作り手が想像する様な結果が得られることではないでしょうか?

ちなみに、空間系パンナーでは無いSony 360RAやAmbisonicsのパンナーは、球面で音を定位あるいは移動できるだけで遠近の操作が出来ないので、3Dパンナーの”基準”にはなりません。


3DXの二つ目の”基準” Ambisonics

昔から高次Ambisonicsはありましたが、今の様に実用はされていませんでした。
高次になってAmbiXが主流になる前はFuMaの1次のみです。
使いみちとしては現在も主流のテトラ型の4chマイク(A-format)を1次Ambisonics(B-format)へ変換し、それをスピーカーデコードして聴くというもの。

2000年ころだったか、当時入手出来たあらゆるAmbisonicsスピーカーデコーディングプラグインを試し、その中でもっとも音質と空間再現性に優れ没入感のあったプラグインの音を基準とし、3DXのスピーカーデコードは開発されています。

どこかで書いたか話したと思いますが、Ambisonicsのスピーカーデコードには様々なアルゴリズムがあり、どれが正しいという定義がありません。
好きな音のものを選んで使う、なのです。

つまり”基準”がありません。
初めてAmbisonicsを聴いた人はそれがそのものと思ってしまうはずですが、そうであるかは分からないのです。

仮にその時のスピーカー配置が7.1.4chであったなら、その音は僕の知るAmbisonicsの音の特長が60%程度の立体音場感でしかありません。

Ambisonicsアルゴリズムでは、スピーカーを前後左右上下に均等配置することが最も正しいデコード結果が得られるので、そのミニマムなシステムとなる8chキューブという存在が立体音響では当たり前と言ったのはこのことです。

3DXは、8chキューブで当時の最も優れたデコーダープラグインと同等の音を生成します。
それが”基準”となります。

立体音響ラボで、いくつかのAmbisonics音源を8chキューブで試聴していますのでヘッドフォンをしてご覧ください。



開始位置 50:30 あたりから

この時はまだ3DXが発売前。
開発途中のAmbisonicsデコーダーが使われています。



最後に
バイノーラルプロセッシングの”基準”についてですが、

これはHPLです。
HPLはヘッドフォン内でスピーカーフォーマットの音場が正しく鳴っている感が最も高いバイノーラルプロセッシングです。

このページのデモ動画はすべてHPLでバイノーラル化しています。

他のバイノーラルプロセッシングとの比較は、前回のブログで書いている通りです。

3Dパンニング、Ambisonics、”基準”を見据えた場合どちらも共通して言えることはシンプルな設計、シンプルなアルゴリズムです。
やはり色々やってしまうとその分音に影響がでます。

HPLもシンプルなバイノーラルプロセッシングであるがゆえに音は素直で、それが例えL/Rスピーカーで再生しても違和感が少ないことにも繋がっています。
何ならアドバンテージとなることも。
テレビの主音声でバイノーラル放送することが許されるバイノーラルプロセッシングは他にはありません。


音を定位させる
音像を移動させる
Ambisonicsを正しくデコードする
正しくバイノーラル化する

NovoNotes 3DXはそれらを備え、且つ誰でもすぐに使えるUIを持った”基準”と成り得るプラグインです。
それを”基準”とすれば、必ず他のツールの良し悪しや有効的な使い方を探ることができます。
立体音響制作には大切なステップです。




2021/12/06

空間オーディオ制作のためのバイノーラル比較



Dolby Atmosの作品制作が増えてきました。

しかし当面最も多い視聴環境はヘッドフォンやイヤホンによる空間オーディオではないかと思います。
ソニー 360 Reality Audio(以下360RA)もヘッドフォンが主戦場です。

そうした中、制作の段階でヘッドフォンでモニターするケースが増えています。
なんならイマーシブオーディオ再生環境の整ったスタジオに入る前のプリMixを、ヘッドフォンで行う人もすでに沢山いる事でしょう。

そこで問題となるのが
今回はAtmosだから、360RAだから、とそのフォーマットで用意されているバイノーラル機能を何も疑うことなく使用してMixしてしまうことです。
それまで触れたことの無い人にとっては、バイノーラルというものはすべて同じ音と思っているのかも知れません。
空間オーディオのための納品として、Atmosも360RAもバイノーラルの設定を細かくする必要があるなど、そのフォーマット付属のバイノーラル機能を使わざるを得ないケースはありますが、少なくともプリMixの段階ではその必要はありません。

360RAのMixをAtmos RendererのバイノーラルモニターでMixしてもいいのです!(いいのかなぁ?w)

必要なのは、仮想スタジオ環境です。
つまりヘッドフォンに、出来る限り良い試聴環境を構築したい。
音響特性の優れた部屋に、特性の良い、あるいは音の良いスピーカーを並べてMixしたい願望。(本当のスタジオのIRを使ったバイノーラルモニタープラグインのことではありません)
それをヘッドフォンに構築することを目的とするならば、バイノーラルプロセッシングが何でもいいわけはありません。
上手くするとリアルスタジオ環境よりも良い環境をヘッドフォンに構築できるかも知れませんよ。


また各フォーマットのバイノーラル機能の特徴を知ることで、空間オーディオを納品する際のバイノーラル設定にも役立つかも知れません。


そこで今回は、Dolby Atmos Renderer、360 Reality Audio Creative Suite(以下360RACS)の両バイノーラルプロセッシングを、HPLと比較しつつ基本性能とその特徴について検証しようと思います。

基本性能を見極めるということで、声とピンクノイズの音源だけで行います。
仮想モニター環境としてのスピーカーフォーマットは、AtmosのBedに合わせて7.0.2にしています。

Front L/C/R
Side L/R
Back L/R
TopSide L/R

それぞれの角度に関しては、各社で微妙な違いはあるものと考えますが、基本的にはFrontは30度、Sideは90度、Backは135度に左右開いています。
Topは360RACSでエレベーション45度にしています。
Atmosも同じくらいだと思います。
HPLは40度くらいかも知れません。

NovoNotes 3DXのUIを借りて見るならこの様なスピーカー配置です。




今回の検証では角度の違いはあまり重要ではなく、空間のMixに重要となる奥行きや空間性などの立体感を知ることを重視しています。


ではまず使用する元音源を聴いてみましょう。

ヘッドフォンまたはイヤホンをご用意ください。
Front Leftから順に時計回りでスピーカー配置を読み上げ、短くピンクノイズを入れました。モノラル音源です。

※ブラウザのプレイヤーで再生される音源ファイルはMP3(320kbps)です。
download linkの音源ファイルはWAVファイルとなっています。
MP3は空間情報が削られてしまいます。
より正しい比較はダウンロードしたWAVファイルで行ってください。







それではバイノーラルで試聴していきましょう。

この後の音源はすべて同じですが、
Atmos、360RA、HPLの順で再生されます。

Front Leftから時計回りに7か所、そしてトップの2か所で1周。
それを、Atmos、360RA、HPLと順番に計3周します。
ここではなんとなく、元音源との違いや、立体感(空間)などを漠然と聴いていただければよいかと思います。







Atmosは比較的音色の変化が少なく思えます。
Atmos Rendererにおいて自由に配置されるオブジェクトに対し一つずつバイノーラルプロセッシング行うために軽い処理が強いられ、そのため空間までを付けようとはせず、なるべく軽い計算で行っていると推測します。
軽い処理にすると音が悪くなると思いますが、それは空間のIRを畳み込む場合の話で、そうでなければ音色変化が無くかつ軽い処理でのバイノーラル化はできます。
ただその場合はリアルに近い空間を持たせることが出来ないので、結果前後の奥行きが無く、空間としては左右に広いだけの音場になってしまいます。
推測なのでAtmosのバイノーラルがその手法なのかは分かりません。

360RAは特徴的な音です。
Atmosよりも奥行きの距離感を感じることが出来るので、ヘッドフォン再生環境のみをターゲットにしている360RAとしては、音が変わっても立体空間であることを重視したのかも知れません。
ただ、奥行きはありますが空間が無い、そんな印象を持ちました。

HPLは、最初に書いたような音響特性の優れた部屋に特性の良いスピーカーを並べてモニターする状態を目指しているので、空間が加わりその分元音源からの変化があります。
そもそも音源をスピーカーから再生した音は音源とは変わりますし、ヘッドフォンで再生した音とも異なるので、HPLでは自然な変化であればそれを良しとしています。
それよりも空間的なバランスを重視しているため、前後の奥行きと左右の奥行き、そして高さに関しても他の2つより整っています。
全部のスピーカーが鳴り音楽となった時には空間でのバランスが重要なのです。
Atmosは変化が少ないと言いましたが、この試聴では空間の無いヘッドフォンで元音源と比較しているので、元音源のスピーカー再生と比較したら変化して聴こえるはずです。

とりあえずこの3つの違いを何となく感じておいてください。
この後、細かく比較します。


次はFront Leftの音にだけ注目してみます。

やはり同じ順で、Atoms、360RA、HPLと今度はそれぞれ4回ずつ繰り返します。
ここからはループ再生にして何度も繰り返し繰り返し連続して聴いて見てください。
それぞれの特徴がどんどん見えてくると思います。








Atmosが殆ど前方に奥行きを作れていないのに対し、360RAは奥行きを感じることが出来ます。
何か凄くフォーカスを絞って距離を作っているような不思議な音です。
一旦残響を付けておいて奥行きを出したあとで残響を取り除いたかのように、奥行きはあるけど空間は無い? と言った感じ。
HPLは空間があるから奥行きがある、という自然な感覚がありますが、360RAはそれとは種類が違うようです。

距離が作れている360RAとHPLの横軸の定位が似ているのに対し、距離を作れていないAtmosはより左に定位して聴こえます。


次にFront Centerを聴いてみましょう。

よくバイノーラルで真正面は難しいと言われています。
実際はどうなのでしょうか?

この試聴では、最初に元音源を4回、その後でAtoms、360RA、HPLと再生します。








元音源、つまり普通のモノラルとAtmosの定位、あまり変わりませんね。
何度もループ再生して聴き込むと、僅かに奥行きを作れていることに気付きます。

360RAとHPLはAtmosより奥行きがありますが、HPLはより音像がスッとセンターに整うと思います。
360RAの音は不自然な印象です。
奥行きはありますがセンターの芯が無いと言うか...


さてここで、先ほどAtmosは音色変化が少ないと言いましたが、実際に周波数特性を見て見ましょう。

一つ目は、元音源のピンクノイズ部分です。



音源自身の周波数特性なので当然フラットです。

それではAtmosです。



空間が無いので元音源のように低域から1kHz位までフラットです。
バイノーラル処理後の音としては不自然なくらいフラットですw
5kHzあたりから緩やかに下がりはじめ、音も実際にそうした傾向なのですが、なぜか10kHz過ぎてから不自然に持ち上がっています。
これは何でしょうか?
高域が劣化していると思わせないための対策でしょうか?


続いて360RA



360RAは1kHzから下が弱く、そのため2kHzから上の音が目立って聴こえます。
300Hz以下が安定しないのはHPLも同じですが、360RAの方がその傾向が強く、全体的にバイノーラルのための処理を色々とし過ぎているのではないかと推測します。
もしかしたら推奨ヘッドフォンに合わせたチューニングなのかも知れません。
360RAもHPLも10kHzより上にいくつかのディップが出来ますが、これはバイノーラルの特徴です。


最後にHPL



HPLは300Hzより上は大変安定していると思います。
これがリアルな部屋で測定した結果だったら、結構いいと思います。
高域が5kHzより緩やかに下がっていくのも自然です。
ヘッドフォンの中に良いスピーカーサウンドを作ろうと言うコンセプトが見て取れます。
リアルな部屋だったら、高域がもう少し伸びていて欲しいかも知れませんが、ヘッドフォン再生はスピーカーよりも音がよく聴こえるため、これくらいで丁度よい高域特性だったりします。


試聴に戻りまして

続いてSide Leftです。








360RAだけ90度に聴こえません。
100度~110度くらいに聴こえます。
360RACSで設定を確認したのですが、その理由が分かりませんでした。
90度にしているのですが、何故か音は90度ではありません。

AtmosとHPLは真横から聴こえます。
Atmosは少し上に定位していますね。

360RAはAtmosに比べて奥行きがあるのが分かります。
HPLも同じ奥行きでさらに真横にビシッと定位しています。

この360RAの傾向はBack Leftでも同様で、AtmosとHPLは135度っぽい定位なのですが、360RAは150度くらいに聴こえます。







何かの設定に誤りがあるとしたらすみません。
始めに言った通り、今回の検証では角度の違いはあまり重要ではなく、奥行きや空間性などの立体感を知ることを重視しています。
とはいえ、360RAのBack Leftはズレ過ぎだと思いますが。
 

最後はTopSideLeftです。








Atmosは高さが出ていません。
AtmosのSide Leftが少し上に定位してしまっているので、それと比較して違いがないです。
AtmosのBedのTopが仰角何度なのか?
Mix時、高さを出したいのであれば、Topの音はすべてオブジェクトにした方が良さそうです。
ただバイノーラルの仕組みが変わるわけではないので、高さは出ないかも知れません。
前方や後方にずらしたり、左右を狭めたり、高く聴こえように錯覚させるMixの工夫をすれば良いかと思います。

360RAはTopSideLeftも少し後方にずれています。
そのせいもあり、より高い位置に定位して聴こえます。

HPLは真横の上に定位しています。
Atmosと同じ位の高さに聴こえる人もいる思いますが、HPLのSide LeftはAtmosよりも低い位置になるので、それとの比較で高さがあります。



一通り聴き込んでみました。
色々と分かってきたと思いますので、ここであらためて最初の音源を聴いて見ましょう。
Front Leftから時計回りに7か所、トップに2か所。
それを、Atmos、360RA、HPLと順番に計3周します。








いかがですか?
だいぶ印象が変わったのではないでしょうか?

まず、
恐らくすべてのフォーマットにおいて立体的に聴けるようになっていませんか?
自分が立体音場に対峙する準備が整ったのだと思います。

Atmosのバイノーラルと360RAのバイノーラルでは、Mixする際にかなり音の印象は異なりそうですね。

360RAのキャラクターで作っていいのか?
Atmosの立体感の少ない音場で作れるのか?

いかがでしょうか?

今回は1音源での比較を行いましたが、これがマルチチャンネルになれば小さな違いもとても大きな違いとなって作品に現れます。
特に空間の生成は各chからの音の総合的なバランスなので、大きな差となります。


さて、最後にオマケ

Atmos Rendererのバイノーラル設定にある、モードのNear/Mid/Farについて試聴してみたいと思います。
モードを切り替えた時に、反対側からの反射を聞き取りやすいBack Leftで試聴してみます。








聴いて分かると思いますが、モードの切り替えによって奥行き感が変わることはありません。
Near/Mid/Far、音の定位はどれも同じで、後付けで空間系リバーブを足しているような音です。
ですので、近い、中間、遠い、と音像が変わるのではなく、部屋が、小、中、大、と変わるだけです。その部屋も空間感はあまりありません。

これをMix時に使うと言うのは、他のリバーブと喧嘩することになるので止めた方がよいように思えますが、どうなんでしょう?

そして初期設定がMidになっています。
必ずリバーブが掛かってしまうので、Nearにして使うことを僕はお勧めします。


以上ですが、いかがですか?

今、イマーシブオーディオの制作をされる方は、恐らくAtmosも360RAも両方試されているのではないでしょうか?

今回は僕の思う一つの検証方法を実行しました。
皆さんも各々のやり方で検証してみてください。

知っていればなんとかできるのがエンジニア。
あとはお任せして、僕はこの検証が良い作品作りに役立てば嬉しいです。