2018/08/19

バイノーラルの音楽制作に足りないもの

バイノーラルの音楽制作を考えた場合、今最も必要とされているのが使いやすい3Dパンニングです。

某VRシステム向けに開発した8ch 3D Panner
某VRシステム向けに開発した8ch 3D Panner


立体音響制作では、一般もプロも同じ市販のツールを使い制作するしか他に方法がありません。(一部の人を除き)
しかし実際に制作をした人からは一様に「良くなかった」と言う感想を耳にします。(音が変わってしまう、残響が付き過ぎてしまう、立体に聴こえない、etc.)
アーティストやエンジニアの技量以前にツールによる表現力の限界が先に来てしまっています。
また、使い手がそうしたツールの音しか知らなければ、「こういう音」なんだと思ってしまい可能性を見出せないですし更なる向上も臨めないでしょう。

一つは立体的なパンニング、もう一つはバイノーラルプロセッシング、そのいずれも未成熟であることが原因です。
パッケージ化されていると一つの信号処理として考えがちですが、内部プロセスとしては2段階あるのです。

3Dパンイングとバイノーラル化の2プロセス
3Dパンニングとバイノーラル化の2プロセス

プロもDAW依存でプラグインが無いと制作出来なくなってしまっています。
しかし現状DAWだけで立体音響制作は出来ません。
その意味ではDAWを立体音響制作に対応するよう進化させない限り、本格的なプラグインも開発されて来ないことでしょう。
それにはDAWの開発者が3Dサウンドの制作のノウハウを身に付けなければなりません。
(ちなみに一線のサウンドアーティストは良い道具があれば使いこなす、または自らプログラムすると言った柔軟性を持つ)

2006年の作品「渋谷慶一郎+池上高志 / filmachine」では
コンボリューションシステム「Huron」にインストールされた
SonicAnimatorで音像の全軌道が作られ(プログラムはevala氏)
同時に24音源がリアルタイム処理されていた


ソフトウェア設計者がバイノーラル3Dサウンドとガッツリ向き合い、音の「研究」では無く「感覚」を身に着け磨いていかない限り、今後良いツールは開発出来ないと思います。
まずビジネスを忘れ、ひたすら良い物を追求し開発して欲しいものです。


ではまず、信号の流れの順から3Dパンニングのプロセッシングを考えてみます。

実験用のVRでも無ければ正しいシミュレーション(何度とか距離何mとか)を行う必要は無いので、音楽の中でより効果的な音を表現出来ることが望ましくなります。
例えば距離減衰のパラメータも、リニア(距離の二乗に反比例)だけではなく、減衰カーブを調整でき、同様に周波数特性の変化量も調整できる他、ある距離からは音が近付いても音量が上がらない様に設定するミニマムディスタンス機能等が必要になってきます。
この3つの機能は、ダイナミックな音像移動を表現する上で必要不可欠です。

皆さんご存知のSPATを見ると解るように、3DパンにはVBAP, DVAP, Ambisonicsなど様々な処理方法があり音の表現力が違います。
それぞれ表現に得意不得意があるので、使おうとしているソフトウェアが何をベースにしているのか知っていた方がいいです。
どれが良いかは作品にもよる所なので色々と試すしかありませんが、ここで手を抜くとこの後の処理がすべて台無しになりますのでとても重要です。
もし、試そうとするソフトウェアが、バイノーラルだけでなくスピーカー出力にも対応しているのであれば、バイノーラルで試聴する前にスクエアに4台のスピーカーを配置し、その表現力をテストするのがよいでしょう。
音質、移動感、距離感、など、スピーカーで聴いてダメなものはバイノーラル化してもダメです。あたりまえですが。

より定位が明瞭な方が音の動きはダイナミックになりますが、単にスピーカーをコントロールすると、スピーカー間での単純な受け渡しとなるため、スピーカーの間隔が広ければ音がジャンプして聴こえてしまい、空間で音が移動している様に聴こえず、単にスピーカーを順に鳴らしているだけの音になります。
それを防ぐためにスピーカーの台数を増やし音を繋げていくのが一般的ですが(3mに1台必要と考えられている)、その分コストが掛かるのはもちろん、設置も困難になりますし、スピーカー間での受け渡しである以上スピーカーが鳴っている感覚は否めず遠近の表現も上手く出来ません。
やはり空間に音像を作れないと立体音場では無くなってしまいます。

バイノーラル化するに当たっては、ch数(仮想スピーカー数)が増えればその分処理能力を必要とするため、負荷を減らすために音を犠牲にする設計がされることがあります。
そうなると当然立体感が失われたり、音色が変わってしまったりするわけです。

プロセスがパッケージ化されたソフトウェアでは、仮想スピーカー数がいくつなのか想像する事は難しいと思いますが、少ないにも関わらず音像移動の繋がりが滑らかな処理であれば、バイノーラルのプロセスも負荷が少ないので音に有利に働きます。
そうしたソフトウェアを見つけることが出来るかどうかです。
仮想スピーカー数が多いから良いとは限りません。


残響のシミュレーションはとても大切です。
音像の位置に応じて、残響もシミュレーションされれば空間演出は向上します。
そうした機能は多くあるのですが、逆に残響を付けずに空間表現を行うことが苦手なケースが殆どです。
残響は音の明瞭度を下げ、音色に変化も付けてしまいます。
ドライでありながら空間表現豊かな移動音を作れる空間系パンナーが理想です。
それに加えて残響を自在にシミュレート出来たら最高です。


良い3Dパンニングプロセスが行なえるとして、次はバイノーラルプロセッシングです。
多くのバイノーラルプロセッシングは空気感や存在感を表現するのが苦手です。(本来それが得意で無ければならないのに)
反射や残響により部屋を付加する事での空間演出ではありません。
リアルで極わずかな反射は残響感が少なく、自然な空気感を作り出してくれます。
残響の少ない空間シミュレーションが出来ないと、ドライな音の3Dパンニングが作れませんし、Ambisonics録音の様な環境音をバイノーラル化する事が出来なくなります。
環境音に残響が付加されたらおかしいですよね。
音が変わってしまうモニタースピーカーを誰が買うでしょうか?

もう少し空間に着目して話をすると、市販のバイノーラルプロセッシングでは特に前後が潰れたサウンドになりがちです。
バイノーラルで前後の表現は難しいと言われていますが、簡単な左右にだけ頭外定位をワイドにしてしまい、比較して前後を狭くしてしまっている、とも言えます。
この不均等が人に「空間」を感じさせない要因となるのです。
左右を多少狭くしてでも全方位に出来るだけ均一に音場を作らないと、人は空間として捉える事が出来なくなります。
逆に空間を感じさせる事が出来れば、脳は自然と全てを立体的にイメージし始めます。
なぜなら空間=立体だからです。

横に広いバイノーラル空間
横に広いバイノーラル空間

横に狭くても前後左右に均一なバイノーラル空間
横に狭くても前後左右に均一なバイノーラル空間


すぐにHRTFの個人適応云々と考えがちですが、それ以前に全方位のバランスを整える事の方が重要です。
どのくらい前方に、あるいは後方や左右に音が定位するかなど部分的に着目するのではなく、全体としてどうか、まず空間を感じとれるかどうかに注目すべきです。

どの方位に対しどの位の奥行きを感じるかには個人差があります。
そうした聴こえ具合は、日常生活において個人が自然と補正しているものです。
全方位に均一な立体音場を作っておけば(空間を感じさせれば)、例えば音を左前から右後へ移動させたらそれが自然と感じ取れる能力があります。
例えハッキリそう聞こえなくても、空間での連続した音の繋がりが少なくとも立体的なイメージを人に与えます。
それがまず第一歩です。

極端に左右にワイドなバイノーラルにおいて、音像を頭部から等距離で360度周回させたと思ってください。
真横に向かうにつれ極端に広がって行くため、左右の動きが強調され音が周っているという感覚は逆に得られなくなります。
それでは空間と言う感覚にも至らず、全方位にダイナミックな音像移動(空間パンニング)は作れません。
横に広い事で左右のパンニングの様な音に
横を狭くしても立体感はある


まずは横に狭くてもいいので立体音場をヘッドフォン内に作る事を意識し、次のステップとして空間を広げていく事を考えた方が発展性があります。


質の悪い3Dパンナーは、音が非常に狭い範囲でしか動かない、音が悪く音像が小さい、と言った特徴があります。
その逆が良いツールになるわけですが、音が十分広範囲に移動し、且つ音像が小さくならない性能を出すのは中々大変ことです。
今現在、これとお奨めできるツールはありません。
過去に使って来た優れた3Dパンナーは、すべて強力なDSPを持った専用PCまたはハードウェアベースの製品でした。
ソフトウェアで同等の物を実現するには、かなりのCPU負荷を覚悟しないとなりません。
「プラグインでないと」とか「重すぎる」とか、言っている場合では無いです。


以上の様に、表現豊かな3Dパンナーと、その空間音像をヘッドフォンに生成するバイノーラルプロセッシング技術の向上。
それらが3Dの音楽制作では求められるべきものです。

音がヘッドフォンの外から聞こえる、右から聞こえる、左から聞こえる、後ろから、とか。もう数十年前から言われているような事を今喜んでいては、この先何の進歩も望めません。
もっと違ったレベルで立体音場を捉え制作するべきです。


2018/08/17

AES国際コンファレンス2018後記

8月7日~9日に開かれたAES国際コンファレンスにて、アコースティックフィールドでどの様なデモをしていたのかをまとめておきます。




【協賛企業展示ブース - ヘッドフォン再生でのデモ】

① HPL音源作品の試聴
UNAMASレーベル最新作「Touch of Contra Bass」のHPL9版をはじめとするイマーシブサラウンド作品や、3Dサラウンド野球中継の音源などの試聴。


② ヘッドトラッキング+HPLの試聴
高性能なヘッドトラッキングシステムとHPLを組み合わせ、なめらかで自然なバイノーラルプロセッシングシステムを実験的に構築。22.2ch音源で体験。


③ 3Dパンニングシステムの試聴
極力残響が付加されない、音が変わってしまわない3Dパンナー+HPLのシステムを体験。


【デモルーム - スピーカー再生でのデモ】

① 8k 22.2chのインスタレーション作品、3Dサラウンド作品の試聴。
スピーカー配置のフォーマットや立体音響技術の種類に捕らわれず、トップアーティストが作る最先端の立体音場を体験する作品展示。

② Soundfield SPS200マイクでの録音源を、1次のAmbisonics(B-format)で上層下層4台ずつのキューブ配置と言う最もシンプルにスピーカーデコードし試聴。
基本となる1次Ambisonicsの音を知るためのデモ。





以上のように、かなり自由に多種多様なデモ展示となりました。
一部同様のデモを11月のInterBEEでも行います。
作品を考えればスピーカーの配置や数量に決まったフォーマットは必要ないですが、InterBEEでは分かりやすくフォーマットに沿った展示をするかも知れません。