立体音響ラボ Vol.7
立体音響ワークショップ #7
「バーチャル・オーディオ・リアリティの世界」
6月11日に約2時間、ワークショップを配信。VRの立体音響とはどの様なもので、何を目指せばよいのか、どう作ればよいのか。
実際の作業ではなく、没入=VRに向けての音響心理といった内容の話をしました。
そして翌12日に、その考えを元に制作したウォークスルーのVR音響デモをRITTOR BASEに設置し、参加希望者にご体験いただきました。
このブログでは、2日に渡る立体音響ラボのまとめとして、そのデモがどの様に作られたのかを解説しようと思います。
まず、ヘッドホンをして、こちらの動画をご視聴ください。
これは12日に公開したデモを体験者目線で録画(iPhone)したものです。
音はPC内で実際に体験者が聴いていた音を同時にRECし、後から映像と合わせています。
いかがでしたか?
この様なデモ体験でした。
これは視聴体験なので、”見せられている”し、”聴かされて”いますが、実際のデモは、”見にいく””聴きに行く”体験なので、より音の定位感や空間の広がりや空間自体の存在を感じることが出来ます。
音質自体も実際のデモ体験では圧縮されていない32bit floatの音源を使用しているので空気感が削られずに有ることも大きいです。
この動画では水音や雨音が圧縮されて綺麗な音ではなくなってしまい残念です。
その点もご了承ください。
さて、まずはシステムです。
何より体験者の位置と向きをセンシングするハードウェアの進化が素晴らしいですね。
今回は、VIVEのトラッカーとベースステーションを使用しました。
https://www.vive.com/jp/
https://www.vive.com/jp/
オーディオインターフェースにRME MADIface Proを使っていますが、こちらは生産終了しています。
信号処理の部分で3次Ambisonicsの16chをループバックする必要があり、チャンネル数が豊富なMADIは必須でした。
信号処理の部分で3次Ambisonicsの16chをループバックする必要があり、チャンネル数が豊富なMADIは必須でした。
その要となっているのがヘッドホンアンプとしても優秀なMADIface Proです。
替わりのシステムを考えるとなると、MADIかDanteのオーディオインターフェースを使ったうえで、音の良いDACを用意しないといけません。
機器点数が多くなり、リュックが重くなりますね。
あとは、ソフトウェアでのループバックを行い信号処理、出力には小型のUSB DACを使うという方法。
それからループバックせずにCycling'74 MAX8でバイノーラル化まですべての信号処理を行うか。
ループバックでも遅延が増えますから、その必要が無ければしない方が良いです。
なぜループバックするかと言えば、MAX8の音がマルチチャンネルの音を得意としていない点にあります。
特にAmbisonicsは苦手で、A-formatの録音素材をMAX8上でAmbisonicsエンコードしスピーカーデコードした立体音場は、他のプラットフォームで処理した立体音場に比べ、空間の再現性が弱いです。
定位はしますが、きちっと空間を再現出来ていないので没入感がありません。
そうした事がなければすべてMAX8で完結してしまいたいところ、わざわざBiduleを使ってA-formatの録音源の再生からAmbisonicsへのエンコードとデコード、そしてHPLバイノーラル化と、空間生成の処理に関わる部分はなるべくBidule側で行うようにしています。
特にAmbisonicsは苦手で、A-formatの録音素材をMAX8上でAmbisonicsエンコードしスピーカーデコードした立体音場は、他のプラットフォームで処理した立体音場に比べ、空間の再現性が弱いです。
定位はしますが、きちっと空間を再現出来ていないので没入感がありません。
そうした事がなければすべてMAX8で完結してしまいたいところ、わざわざBiduleを使ってA-formatの録音源の再生からAmbisonicsへのエンコードとデコード、そしてHPLバイノーラル化と、空間生成の処理に関わる部分はなるべくBidule側で行うようにしています。
BiduleはBiduleでOSCの受信を大量に行うとフリーズしてしまうという欠点があります。
なので今回は、体験者との相対的な音像定位を行うために大量のOSCを受け取ることとなる水滴とカエルの音を扱う3DXはMAX8側に置き、質の高い立体音場生成が必要となる環境音再生やAmbisonicsのデコードを行う3DXはBidule側へ置く、と言った工夫をしています。
なので今回は、体験者との相対的な音像定位を行うために大量のOSCを受け取ることとなる水滴とカエルの音を扱う3DXはMAX8側に置き、質の高い立体音場生成が必要となる環境音再生やAmbisonicsのデコードを行う3DXはBidule側へ置く、と言った工夫をしています。
すべてに完璧なソフトウェアはなかなか見つからないものです。
なるべくシンプルにしたい、しかし音は妥協したくない。そのバランスを上手く取った音響システムプランニングを心掛けることは大切です。
一つのアプリですべての信号処理が行えるのが理想 |
音を考慮すると2つのアプリを跨ぐことに |
水滴とカエルの音像定位に3次Ambisonicsを使い、A-formatからの環境音生成には8chCubeを使っていますが、これは聴いた感じで良かった方のフォーマットを採用しています。
Ambisonicsが3次なのは、音像定位を重視しているためです。定位は高次が有利です。
A-formatの環境音をB-fromat変換したあとは、一つの3DXでHPLバイノーラル化まで出来ますが、一旦8ch Cubeにすることで、後段の3DXでScale機能を使い空間の広さを微調整しています。
さて、ようやくデモについての解説を始めます。
まず、デモを制作する前の決まりごとを整理しますと
・場所はRITTOR BASEである
・2001年に展示会で公開したデモのリメイクである(ウォークスルー型のVRデモ)
・技術展示である
以上3点です。
それを踏まえ、
まず、RITTOR BASEで生成する疑似環境選びから考えました。
2001年は、環境が展示会のブースであったため、かなりガヤガヤした環境がベースにあり、それを変えることは難しいですし、逆にその環境を利用することにして、その環境音を下地としてヘッドホンを装着した時だけ聴こえるオブジェクト、”電話””時計””ラジオ”、の3つの音をAR,MR的に加え、ウォークスルーしてもらいました。
ガヤガヤした環境下に、”電話””時計””ラジオ”の3つの音は溶け込みやすい音です。
ガヤガヤした環境下に、”電話””時計””ラジオ”の3つの音は溶け込みやすい音です。
今回のRITTOR BASEは静かで、残響も少なく"無"に近いことから、環境も加えて空間を変えることができます。
その"無"を高めるため、予め全方位を吸音カーテンで囲い、視覚的にも"ある場所"をイメージさせない様にもしています。
視覚で言えばもう一つはスピーカーです。
2001年には、実際にダミーの電話、時計、ラジオ、を置いていました。
その方がガヤガヤした環境下では、体験者がオブジェクトと音とを紐づけやすいからです。
あの環境下で今回の様にスピーカーを置いたとしたら、体験者は3つの音を見つけることが出来ないかも知れません。
ガヤガヤの中で時計の音がウソであることに気付かない、あるいは気付くまでに時間が掛かる、スピーカーが何故置いてあるかが分からない、などの状況が生まれます。
今回は視覚的にも聴覚的にも"無"の環境なので、あえてオブジェクトをスピーカーにしています。
仮にカエルの鳴き声のする位置にカエルのオブジェを置いたとしたら、ちょっと断定し過ぎてしまうかな?とも思いました。
他の音も鳴るのかもしれない、もしかしたら本当にスピーカーから音が出ているかもしれない、というあやふやな感覚も少し残そうと考えたからです。
そうした感覚を持たせるのも没入への良いアプローチです。
そしてライトでスピーカーだけを強調し、逆に分かりやすさも演出しています。
環境音選びに話を戻します。
仮にカエルの鳴き声のする位置にカエルのオブジェを置いたとしたら、ちょっと断定し過ぎてしまうかな?とも思いました。
他の音も鳴るのかもしれない、もしかしたら本当にスピーカーから音が出ているかもしれない、というあやふやな感覚も少し残そうと考えたからです。
そうした感覚を持たせるのも没入への良いアプローチです。
そしてライトでスピーカーだけを強調し、逆に分かりやすさも演出しています。
環境音選びに話を戻します。
RITTOR BASEが静かな環境であるため、空間を何にでも変えることが出来るのですが、それが街の雑踏だと、RITTOR BASEに来る皆さんが道中体験してしまっているので、街中→無音→街中という環境の変化となり、最後の人工的な街中の印象が薄くなることで没入度が低いと判断。
また、静かなRITTOR BASEを徐々に変えたいと思ったので、静寂もイメージできる環境音が馴染むかなと思いました。
また、静かなRITTOR BASEを徐々に変えたいと思ったので、静寂もイメージできる環境音が馴染むかなと思いました。
そうした中、フィールド録音した音源をHPLバイノーラル化して公開されているmidunoさんが、YouTubeチャンネル「Nature Sound Effect : miduno」で今回のベースとなる音源を丁度のタイミングでアップされ、それを聴いてRITTOR BASEに合いそうだなと。
その音源がこちら。
《 水音とシュレーゲルアオガエル(四季の森公園 - カエル)06:53PM【HPL】》
森の公園という広い空間で、様々な距離感のカエルの鳴き声。
遠くのカエルには奥行きを感じる残響感が強く広さも有りますし、水音は近い。
距離のレイヤーが多く含まれています。それでありながら静寂さもある。
そして、この音源はRODE NT-SF1によるA-format録音をNovoNotes 3DXでHPLバイノーラル化されていますので、今回のウォークスルーVRシステムでも同じ信号処理を行うことから同じ音が出せるだろうと想像出来ました。
そして、この音源はRODE NT-SF1によるA-format録音をNovoNotes 3DXでHPLバイノーラル化されていますので、今回のウォークスルーVRシステムでも同じ信号処理を行うことから同じ音が出せるだろうと想像出来ました。
早速midunoさんに連絡を取り、HPL化する前のA-formatの4chファイルをお借り出来ないかを相談。ご快諾いただきました。ご協力ありがとうございました。
ちなみに今回は技術展示と位置づけていることもあり、音源を新たに収録することをしていません。
既存の音源を組み立てることで、どの様に作られたが分かりやすくなると思いますし、どなたでも同じ様なデモを作れると感じていただきたいと思っています。
ベースの環境音が決まれば、あとは個別の音を決めやすくなります。
”電話””時計””ラジオ”に代わるものです。
今回の音源レシピです。
・カエルと水音の公園環境音 → miduno氏のA-format(4ch)
・水滴 → evala氏のモノラル音源
・カエル → miduno氏の環境音からの切り出し
・女声 → evala氏のモノラル音源
・雷雨 → 自分で録音したバイノーラル音源
・雨音(強) → evala氏のステレオ音源
・水滴 → evala氏のモノラル音源
・カエル → miduno氏の環境音からの切り出し
・女声 → evala氏のモノラル音源
・雷雨 → 自分で録音したバイノーラル音源
・雨音(強) → evala氏のステレオ音源
evala氏の音は、立体音響ラボの配信で本編が開始される前の待機画面の時に流れるサウンドで使われている音源からのセレクトです。
これらの組み合わせで作った疑似空間をウォークスルーします。
では実際に組み立てましょう。
まずデモの入りです。
デモの始めは、技術展示らしく説明深い聴かせ方をしています。
最初に視聴していただいたデモ動画の時間経過と共に見ていきましょう。
00:00~00:40
体験者がヘッドホンを装着すると、まず視界に入っているスピーカー定位の音が1つだけ再生されます。
水滴です。
ここで体験者は”デモシステムの仕組み”と”体験すること”を理解します。
使われている音源はこちら
(バイノーラル化する前のモノラル音源です)
(バイノーラル化する前のモノラル音源です)
00:40~02:10
その後カエルの声が別の場所から、そしてさらに別の場所から2匹目のカエルの声が聴こえだします。
その後カエルの声が別の場所から、そしてさらに別の場所から2匹目のカエルの声が聴こえだします。
使われている音源はこちら
(バイノーラル化する前のモノラル音源です)
(バイノーラル化する前のモノラル音源です)
体験者はこの時間で
・各音源の定位感
・近づくと大きく、離れると小さくなる音
・3つの音の聴こえ具合の変化
・近づくと大きく、離れると小さくなる音
・3つの音の聴こえ具合の変化
などを確認します。
人によっては上下感を確かめるためにしゃがんでみたりして、システムや表現の精度を細かく探る人もいます。
こちらもそうした時間として2分儲けています。
時間をかけて探ってもらうことで体験者は空間を認識し始めます。
この時間を定位探りだけに使ってもらうため、前日の配信でカエルと水滴の音源を使うことを告知し、”何の音なのか?”という余計な探りの時間を排除しています。
ワークショップで話した通りVRは没入してこそなので、この段階では体験者は探っているだけで没入の可能性が見えているに過ぎません。
この3つの音源の定位作りにはNovoNotes 3DXを使用しています。
センシングにより常に体験者の位置と角度のデータが更新されており、部屋の中心をx,y,z=0,0,0とした3つの音源位置のx,y,z値を予め計測しておくことで、そこから体験者とのx,y,z相対値が求められます。
センシングにより常に体験者の位置と角度のデータが更新されており、部屋の中心をx,y,z=0,0,0とした3つの音源位置のx,y,z値を予め計測しておくことで、そこから体験者とのx,y,z相対値が求められます。
(この辺りのセンシング値を3DXのコントロール値へ変換していくプログラムはMAX8を使用しています)
その値を各音源の3DXへOSC(OpenSoundControl)で送り、実際は体験者が動いているのですが、ソフトウェア上では音源を動かし、”自分が音源へ近づく”=”音源が近づいてくる”表現に置き換えています。
ここで重要な音表現のための調整は、音源へ近づくにつれてどの様に音を変化させるかです。
こちらの動画をヘッドホンをしてご視聴ください。
左耳を音源に向けて、横歩きで音源に近づいたり離れたりしていると考えてください。
センシングのデータは実際に移動が3mであれば3mという数値を取得しますが、それをそのまま3DXに渡すわけではありません。
3DXのロケーターのマス目の距離が決まっていたら、常にその距離の表現しか出来なくなってしまうので当たり前ですね。
センシングのデータは実際に移動が3mであれば3mという数値を取得しますが、それをそのまま3DXに渡すわけではありません。
3DXのロケーターのマス目の距離が決まっていたら、常にその距離の表現しか出来なくなってしまうので当たり前ですね。
よってスケール調整が必要です。
設定で一番重要なのは音源に近づいた時です。
動画では一度、音が中心に来るまで近づいていますが、これでは音が頭内にまで入ってしまい、左右の判断がつきません。
ですので、どんなに音源に近づいても左側に音が定位していないといけません。
動画で最終的に止まった位置が左に定位するギリギリの位置かと思います。
音像の位置を上から見ている左側のロケーターで見ると、3DXには3つのサークルがあると思いますが、最終的にその一番内側のサークルの半分くらいのところで止まっていると思います。
仮に受信するOSCの位置データに対し3DXのサークルが1m間隔のスケールだったとしたら(外側3つ目のサークルが3mということ)、音源と体験者の位置は約50cmです。
つまり50cm以内に近づくと音が左にあると認識しづらくなります。
しかしデモではもう少し近づきます。
仮に25㎝としたら3DXでは2倍スケールです。
サークルの間隔が50cmになるので大外が1.5mに。
その距離に対し、音量と周波数特性の減衰をDistance Attenuationで調整していきます。
聴感というか体験として丁度よい調整を、現実を無視して行うことになります。
多少過度な表現に調整しないと、体験としてはつまらないものになってしまいます。
聴感というか体験として丁度よい調整を、現実を無視して行うことになります。
多少過度な表現に調整しないと、体験としてはつまらないものになってしまいます。
今回は、3つのスピーカーで囲われた中心にいた時に3つの音がバランスよく聴こえ、どれか一つの音源に近づいた時、それ以外の音源が丁度よく小さく聴こえる移動感。
そして近づいた時に音が頭の中に入ってこない様3DXに与えるデータのスケールと、3DXのDistance Attenuationで調整しました。
それにしても3DXの近い距離の表現は精密ですね。
02:10~03:30
ここからゆっくりとカエルと水音の公園環境音がフェードインしてきます。
3つの音源が”聴かせる音”だったのに対し、この環境音は”聴こえる音”です。
midunoさんのYouTubeの元音源を聴くのであれば、適正な音量で聴きたいですが、このデモでの役目は環境音として”聴こえている”状態を作ることです。
RITTOR BASEを徐々に忘れさせる大役になります。
カエルが一斉に鳴いているところ、鳴き止んで静かなところの2シーンを元音源から切り出しループ再生しました。
聴いて見ましょう。
(A-formatの元音源をバイノーラル化した音源です)
この音源の調整は、
距離のレイヤーとして、最初の3つの音源の方が近くないとおかしいので、カエルが一斉に鳴いた際にも最初の3つの音源は聴こえる、あるいは探せば聴こえる音量に調整しました。
そうすると、鳴き止んだときに3つの音源が自然と聴こえてくるように感じます。
距離のレイヤーとして、最初の3つの音源の方が近くないとおかしいので、カエルが一斉に鳴いた際にも最初の3つの音源は聴こえる、あるいは探せば聴こえる音量に調整しました。
そうすると、鳴き止んだときに3つの音源が自然と聴こえてくるように感じます。
A-formatの音源ですので、Ambisonics化し体験者のYaw,Pitch,Roll情報をOSCで3DXに与えることで、この環境音がRITTOR BASEの空間に固定されます。
この時点で、”スピーカーから出るカエルの鳴き声”という不自然なものが、カエルが沢山いる公園の一部へと多少仲間入りし、つまり意識なく少し没入状態へ入っていきます。
03:50~05:05
デモは時間が限られています。
体験者が没入していくのをのんびり待っているわけにはいきません。
ここで豪雨→雷の音でちょっと強引に展開させます。
ここまで、配信で解説した没入に必要な”聴きに行く音”を聴いていた体験者に、”聴かせる音”を投入します。
バイノーラル録音素材です。
A-formatの素材でも構わないのですが、聴かせる効果の高い、しかもよい音のバイノーラル素材があったので使いました。
配信では「バイノーラル録音は没入しにくい」などと言っていたくせにです。
ここで重要なのは聴かせることです。
ちょっと圧倒するくらいの音が効果的です。
実際に体験した人の感想では、ここで一気に音場が広がったと言う人が多かったです。
RITTOR BASEという地下空間。
ヘッドホンという密閉空間。
それを感じさせない音がベターです。
この音はこちらのsoundcloudにアップしていた音なので、聴いたことあると思った人もいたかも知れませんね。
05:05~06:10
ちょっと強引なフェードアウトで豪雨が終わり、現実世界へと戻ります。
いえいえ、現実世界ではありませんね。カエルと水音のする公園と言う人工的な音空間です。
豪雨と雷が圧倒してきたことで、ちょっとホッとする感覚がこの人工音空間を受け入れてしまいます。没入状態を完成させる1分間です。
豪雨と雷が圧倒してきたことで、ちょっとホッとする感覚がこの人工音空間を受け入れてしまいます。没入状態を完成させる1分間です。
06:10~END
仕上げです。
仕上げです。
ここまでどちらかというと下への音像定位が多かった空間に、メロディを持った女声の音源を上から聴かせることにしました。
最終的に3方向から、時間をずらして同じ音源を再生しています。
ここのずらしはあえて適当にずらし、音楽っぽくならないようにしています。
同じ意味で音像は空間に固定していて動かしていません。
自分が動くことで空間にある歌声が揺らぎ、それが心地よく、そうして空間を楽しむだけの時間にしています。
体験者はこの辺りではもう音を探ろうとはせず、部屋の中央付近で周りを見渡すような動作になります。
空間を受け入れているので没入状態と言えます。
実際殆どの体験者が、このデモの前半は大きく動き回り、後半に行くに連れて部屋の中央で辺りを見渡す様な動きとなっていました。
外から見ていると、全く音がしない中での体験者の動きは面白いです。
最後はちょっと不自然に、近くて強い雨音をフェードインさせ終了への導線を作っています。
ここの音には意味はありません。意味の無い展開で没入を解くようなイメージ?と言ったら良いでしょうか。
そしてデモのスタート同様に水滴だけの音にして終了です。
今回はこの様なデモの構成でVRを演出してみました。
普段インスタレーションの技術担当をしていることもあり、ただ聴かせるだけでなく演出を加え、VRとして体験してもらうことを心掛けています。
そうすることで、体験者は「この製品やシステムを使うとこの様な音空間が作れる」と理解し、製品システムや技術の導入を検討しやすくなります。
そうすることで、体験者は「この製品やシステムを使うとこの様な音空間が作れる」と理解し、製品システムや技術の導入を検討しやすくなります。
音は聴かないとわからない。
また、アーティストが体験した場合は、この技術を活かしたり、全く違う使い方のイメージを膨らませたりして、1つも2つも上のステップで”作品”にします。
このデモは、新たに音源を作ることなく既存の音源を利用し、システムのエンジニアが組み立てただけなので技術展示ですね。
今回の立体音響ラボはいかがでしたでしょうか?
配信、体験、ネタばらし、全部見て読んでいただけたら嬉しいです。
体験するのと動画を見るのとでは感覚が異なるので、また体験会の機会を作れたらいいですね。
0 件のコメント:
コメントを投稿