2018/06/19

エンジニアにとっての立体音響制作

今各方面で立体音響制作へのチャレンジが始まっていますが、どの様にして作るのか、よく分からず手探りで進むケースが殆どの様です。

映画やゲームにはサラウンドでのサウンド制作に歴史があり、その制作環境も整っていると言えます。
専用のソフトウェア&ハードウェア、そしてスタジオがあり、すでに多くの作品が世の中に出ています。

では、
VR音響はどうか?
サウンドインスタレーションはどうか?
そして音楽制作は?

それぞれのフィールドの間に明確な垣根はありません。
しかし求められるサウンドは大きく異なります。
極端な言い方をすれば、ゲームやVRで求められるのは"効果"。「後ろから物音がする」とか。
音楽制作ではそれよりも"音質"。「心地よい」とか。

きっと立体音響と聞いて連想する音も各々違うはずです。

自分がどのフィールドに向け、何を作り、どう聴かせたいのか?
目的を定め適切なツールを使い制作していく必要があります。

スピーカー再生にすべきかヘッドフォン再生にすべきか。
そこからです。


立体音響と聞いて、それならバイノーラル録音としか思いつかない人はもはや居ないと思いますが、それに近い状態で、制作に用いることのできるハードウェアやソフトウェアに対する知識は、身についていないのではないでしょうか?

何を作るのか、何が必要で適しているのかを知らなければ、良い作品など出来るわけがありません。


今回はまず、各フィールドにおける立体音響制作の概要をおさらいします。


VRと言ってまず想像するであろう、昨今のYouTubeやFacebookでの360°映像に付加するVRサウンド。
Ambisonics対応のマイクロフォンで収録した立体音場を付加するためのAPIが用意されており、簡単に実現することが出来ます。
プロとして、より質を求めるのであれば、マイクのクオリティには十分気を使いマイク選びをするのは当然の事です。

SOUNDFIELD SPS200
SOUNDFIELD社マイクのエントリーモデル
http://www.acousticfield.jp/product/soundfield_sps200.html

マイクで録音すると言うことは実環境音となりますが、ミックスで音を作りたい場合は、3Dパンナーとモニタリングシステムが必要となります。
Ambisonicsに対応したソフトウェアでは、パンニングからAmbisonicsエンコード、そしてそのバイノーラルモニタリングがオールインワンとなっている製品があります。
結論を言うと、B-formatはパンニングに向きません。3次くらいのAmbisonicsにはする必要があると思います。
いずれにしても、パンニングはチャンネルダイレクトの方がいいです。
また、バイノーラルモニタリングについても、Ambisonicsの音を正しく生成出来るものはありません。(スピーカー再生ですら、ちゃんと生成出来ているシステムは少ないです)
もちろん、YouTubeにアップした場合もそれは同じ事が言えます。
Ambisonicsを調整されたスピーカーシステムで再生した時の、3割程度の音場しか再現出来ていないと思ってください。
パンニングやバイノーラルモニタリングの話はまた別の機会にします。


アミューズメントのVRアトラクションになると少し複雑になります。
非インタラクション系のアトラクションであれば、完パケを再生するだけになるので映画等に近い制作方法になりますが、インタラクションが加わるアトラクションとなれば、リアルタイムのサウンド制御が必要となります。

シーンによって多くの音をリアルタイムに扱う事や、マルチチャンネルでのスピーカー再生への適応、またコンテンツによってはバイノーラルプロセッシングでヘッドフォン再生と、ハードウェアを含め総合的にシステムから構築することとなります。
その場合、市販のソフトウェアは柔軟性に欠けます。
映像など外部システムとの同期をする場合は、その制御信号に対しスレーブで動作するのでソフトウェアの開発も必要となります。
弊社ではCycling'74のMAXを使用し、案件ごとに最適な仕様のシステムを構築する事にしています。
https://www.mi7.co.jp/products/cycling74/

MAX用のAmbisonicsや3Dパンニングのオブジェクトを使い構築するわけですが、代表的なのはambidecodeとSPAT。
パンナーとしてSPATを組み合わせる人が最も多いと思いますが、アルゴリズムの種類とパラメータは比較的豊富に用意されているので、音像を数値的に合わせ込むのは楽ですが、プラスアルファの表現力を求めようとすると融通が利かない所もあります。


VR音響は企業や大学の研究開発用途として古くから納入されてもいます。
こちらはかなり大掛かりなシステムが多く存在しますが、使用するツールは基本的に同じです。
ただし仕様は複雑な物が多く、完成まで数年を要するケースもあります。

R&DではT社「ドライビングシミュレーター」を代表とするインタラクションのVRが多く、アミューズメントではハウステンボスの「ナイトメアラボ」「VRホラーハウス」など、完パケを制作する事が多いように思います。(予算的な理由が大きいと思いますが)
これらの制作についても、いずれ別途触れたいと思っています。)


Toyota's Driving Simulator




ACOUSTIC FIELDで、あらゆるシステム作りに際し常に意識して取り組んでいるのが音質です。
オーディオ的な意味合いでは無く、音質による臨場感や没入感の向上は1ランク上の立体音場をもたらすからです。
よって制作環境も再生環境も音質には十分注意しています。

条件がそろったサウンドインスタレーション程音質を高められる制作は他に無いかも知れません。
なので可能な限り音には拘りたい。その結果作品の質があがるのであれば大変やりがいのあることです。


インスタレーションにおいても制作環境はMAXが多く使われます。
インスタレーションではアーティスト自らサウンドプログラムを行うことが殆どなので、3Dパンニングについてはアーティストが一つのツールに拘る事は無く様々なソフトウェアを併用、あるいは音の軌道自体をプログラムし表現していく事が多い様です。
システム構築の面から見ても、サウンド生成やシステム開発のバランスを考えると今の所MAXがベターです。

Ambisonicsの他、高性能のコンボルバーVSTプラグインを使い、残響やバイノーラルのIRを作品毎に設計し、最適な信号処理を行なうシステムを構築します。
そこが立体音場生成の質に繋がる核となる所です。
高性能なコンボルバーだけでもダメ。IRだけでもダメ。ハードウェアの選定も重要。そしてアーティストのスキル。
すべてが揃った時、最高の立体音響作品が生まれます。

evala / hearing things #Metronome(2016年)は、アーティストのサウンドプログラムとエンジニアの信号処理技術、そして音響システムが高いレベルで融合し3Dサウンドデザインがなされた数少ない作品の一つだと思います。


evala "hearing things #Metronome" (WIRED Lab., 2016)



アーティストのインスピレーションがつくる「音のVR」
https://wisdom.nec.com/ja/technology/2017011001/index.html



そして音楽制作。
数十年かけてハイレゾやサラウンドを熟成させようとしている世界。
ここ数年で、水平だけでなくハイトchが加わり、ようやくスピーカー配置が立体的になりました。
音楽制作では古くからある水平の5chサラウンドに対し、高さのある4chを加えた5.1.4chと言ったフォーマットが今後主流になりそうです。
音楽制作を行う人の考え方として、まず水平で基本の音作りを行い、ハイトには例えば響きを加える、と言ったチャンネル毎に役割を持たせる考え方があります。そこはVRと異なる所です。
正面にサウンドステージがあることを前提とした世界なので、5.1chにしても前に3台後ろに2台、角度も違えばスピーカーの種類も違う、立体音場を生成するには始めから不利な環境と言えます。
また、多くのスピーカーを配置する22.2chを見ても分かる通り、前方にはボトムに3台のスピーカーがあるにも関わらず、サイドと後方には1台も有りません。
要するに、音楽制作では耳の高さより上の世界だけの立体音響制作が行われています。
VRやインスタレーションでは、立体音場を作るためにスピーカー配置を考えますが、音楽制作ではスピーカー配置が先に決まっており、その中でどう制作するかを考えます。


Dolby Atmosの登場で知られるようになったオブジェクトベースと言うスピーカーの配置を意識しない音像定位の考え方も、VRやインスタレーションの制作では古くから当然の事としてやって来ました。
音楽制作ではこれまで、ダイレクトにスピーカーをコントロールするパンナーを使っていたため、空間系のパンニング技術が追い付いていません。
スピーカーコントロールでは、そのスピーカーの距離で音が移り変わるだけなので、立体的な表現力にかけます。
立体とは、前後左右上下だけでなく、遠近が加わる表現を指すからです。
音楽制作においては、3Dパンニングに関して現在これと言ったツールが無く困っている状況です。
VRやインスタレーションの様に、MAXで3Dパンニングのオブジェクトを使い、作品ごとに環境を構築する事は出来ません。
SPATの様なツールが音楽制作の業界でも紹介され始めましたが、サウンドエンジニアには扱い辛いと思います。
3Dパンの音像に思ったような表現力を持たせるのには、かなりの慣れが必要です。慣れたとしても音質には不満が残ることでしょう。

ACOUSTIC FIELDでは、HuronやXite3Dと言った高性能なDSPによる3Dパンナーを使用して来ましたが、その音を知っていると、妥協して今一歩のツールをシステムに組み込むのはモチベーションが下がります。
高性能なハードウェアが生産終了してしまっている今、ソフトウェアベースで色々と工夫をし対応していると言うのが現状です。


Huronが使われたサウンドインスタレーション作品
[Installation]filmachine(フィルマシン) / Keiichiro Shibuya + Takashi Ikegami(渋谷慶一郎+池上高志)




よって、音楽制作ではこれまで培った録音技術やミキシング技術を総動員して制作する方法となります。
それはそれでノウハウが豊富にあるため、それを活かすことは十分に有効です。
臨場感や没入感には音質が重要と話した通り、録音から綿密に計画されたハイレゾサラウンドの作品は大変素晴らしいものがあります。


A.Piazzolla by Strings and Oboe - UNAMASレーベルが描くタンゴの巨匠ピアソラの新たな一面
https://synthax.jp/user-artists/articles/unamas-piazzolla.html

高音質録音がなされた9.1ch等のハイレゾ3Dサラウンド作品は、ACOUSTIC FIELDのHPL技術でヘッドフォン用音源として発売されています。
https://www.hpl-musicsource.com/music


このように、各フィールドは立体音響に対するアプローチ、歴史、目的、そして技術など、様々な違いがあります。
よって、すべてに万能な制作ツールや環境と言った物は存在しません。

ただし、各々のフィールドを知ることで、それを少しずつ取り入れるなどして発展させる事は出来ると思います。
自分のフィールドだけで手探りしていても、新たな事を始めた時にそれまでと同じアプローチでしか行動も思考も出来ず、結果良い作品が出来なかった、と言うことにならないためにも、たまには他の畑をリスペクトしつつ覗いて見ることをお勧めします。