Oculus如何为VR创建逼真音频，兼具直接声、反射声、混响声

编辑：刘余欣 | 分类：快讯 / 精选 | 2018年10月29日

文章相关引用及参考：映维网

大多数房间的反射和混响声远远超过直接声。

（映维网 2018年10月29日）人们常说眼见为实，但在OC5大会上，Oculus首席科学家迈克尔·亚伯拉什表示准确的声音渲染对创建可信VR体验而言十分关键，而声音渲染的关键地方是模拟环境及其声学效果。

在题为“Oculus Quest的声音设计”的OC5主题演讲中，音频设计总监汤姆·斯默顿（Tom Smurdon）和软件工程师彼得·斯特林（Pete Stirling）探讨了如何为Oculus Quest和Rift创建高保真度的音频体验，并分享了一些即将登陆Audio SDK的未来技术。Oculus日前向我们分享了Facebook Reality Labs的幕后工作，以帮助我们进一步了解这些最新进展。以下是映维网的具体整理：

1. 深入问题

当声音在现实世界中产生时，它以复杂的方式与环境相互作用。物体的振动导致声波在空气中传播，而墙壁，地板和天花板等表面会散射它们。所以声音在到达我们耳朵之前就已经发生了改变。我们听到的声音实际上是原始信号源在不同时间点传来的一系列回声总和。如果声源可见，我们听到的第一个声音是直接声，它沿着从声源到听者的最短路径传播。接下来，从附近表面反射的声音将从各个方向到达听者。我们将其称之为早期反射声。声音的其余部分则是混响，它由一系列的延迟回声（随时间而平滑地衰减）组成。

在以前，大多数用于VR和游戏的音频渲染系统只能准确渲染直接声。但令人惊讶的是，大多数房间的反射和混响声远远超过直接声。为了获取更逼真的音频，声音设计师必须手动将混响区域添加到虚拟环境中的每个位置。这是一个耗时的过程，需要大量的参数调整，手动作业，以及专业知识才能实现好的结果。

Facebook Reality Labs（FRL）在17年一直在努力创造高质量的声学模拟技术，令其可以根据环境的几何形状自动生成反射和混响。今天，映维网想向大家分享FRL音频团队的研究人员是如何解决这个问题。

2. 研究团队

Facebook Reality Labs音频研究团队（从左右到）：菲利普·罗宾逊（Philip Robinson）, 塞巴斯蒂安·加里（Sebastia V. Amengual Gari）,卡尔·席斯勒（Carl Schissler）和拉维什·梅赫拉（Ravish Mehra）

四年前，当研究团队经理拉维什·梅赫拉在FRL创立音频团队时，他设想过创建一个虚拟音频在感知上与现实音频无法区分的虚拟世界。他知道为了实现这个未来，他必须解决的第一阶研究问题是高质量的空间音频和高效的房间声学。在接下来的几年里，他开始进行大量的研究工作以解决空间音频问题，同时寻找合适的人才加入以解决房间声学问题。

梅赫拉表示：“解决房间声学问题的计算成本非常高，我知道准确模拟环境的声学效果仍然不够。我们提出的任何方法都需要满足实时VR应用程序提出的严格计算和内存限制。”

2017年夏天出现了一个独特的机会，当时卡尔·席斯勒刚刚完成了他在北卡罗来纳大学教堂山分校的博士学位。席斯勒曾在FRL音频团队度过了两次暑期实习（梅赫拉是他的实习导师），而他非常适合成为开放式房间声学首席研究员。

席斯勒解释道：“我是去年开始在Facebook Reality Labs工作，当时我接受的任务是创建一个可以实时模拟所有这些复杂声学的系统。从我很小的时候起，我就想为游戏创建更好的音频。那时候，我会通过在声音效果中添加混响来修改我最喜欢的游戏。多年后，我很高兴现在终于有机会研究这种可能会对VR音频质量产生巨大影响的技术。”

由研究科学总监菲利普·罗宾逊领导的心理声学小组也在项目中发挥了关键作用。博士后研究科学家塞巴斯蒂安·加里进行了一项实验，以确定声学模拟的什么方面对准确模拟而言最为重要。凭借扎实的心理声学基础，FRL音频团队能够对新音频技术进行感知评估，从而为未来的研发提供信息。

3. 计算资源挑战

对于声学的真实模拟而言，最大障碍是其所涉及的计算复杂性。行业存在一系列基于数值波解算器或几何算法的现有模拟技术，但它们都不支持在当前硬件上实时运行。它们需要快速的多核CPU或GPU，但即使是这样，它们一次也只能模拟少量声音源。添加一个游戏引擎并执行各种图形，物理，AI和脚本，你可以看到获取必要数量的资源是多么困难。

避免这个问题的典型方法是：进行长时间预计算以模拟每对听者与声源位置的声学响应。在运行时，可以向该数据插值每个声源的响应，并用于过滤声源的音频。实际上，这为复杂场景增加了大量数据。另一个缺点是，由于所有声学响应都是预先计算，因此不能出现改变声音的任何动态场景元素。这意味着关上门都无法阻止你听到声音源，而可破坏的环境或用户创建的环境则是完全不可能实现。

在FRL，我们面临的挑战是开发这样一种方法：使用尽可能少的计算和内存资源，并且同时能为复杂场景渲染高质量音频。标准很高，典型的游戏可能有数百个并发声源需要模拟，所以计算预算非常紧张。另外，模拟需要是动态进行，以便能够实现最广泛的沉浸式音频体验，同时不受长预计算时间的影响。

4. 音频创新

为了解决这一挑战，席斯勒花了将近一年的时间来完善模拟引擎。他指出：“我必须利用我能想到的所有技巧和优化方式来构建具有所需功能的系统。”

为了有效计算声音在3D环境中的传播，研究人员利用了先进的射线追踪算法。传统的声线追踪需要每秒追踪数百万条射线，而这需要大量的计算。

席斯勒开发的优化功能可以在保持高质量和动态场景元素的同时大幅减少射线数量。使用随机射线追踪时最大的问题是，存在可能导致伪音的噪声。为了解决这个问题，研究人员开发了巧妙的降噪算法来滤除模拟结果中的噪声。

当场景中的声源数量增大时又会出现另一个大问题。在一个简单的实现中，计算时间将根据声源数量成比例地增加。令新技术可行的关键进步之一是，感知驱动的动态优先级与声源集群系统。通过开发能够将不重要或远距离声源集中在一起的智能启发式算法，研究人员能够在非常复杂的场景中显著缩短计算时间。

5. 提升沉浸感

利用FRL开发的创新方案，研究人员能够实现项目的最初目标，并且为由空间音频技术（Spatial Audio Tech）负责人罗伯特·海特坎普（Robert Heitkamp）领衔的Oculus Audio SDK团队提供工作原型。在OC5大会上，音频设计总监汤姆·斯默顿和软件工程师彼得·斯特林介绍了这个系统。在演讲期间，浸淫游戏音频行业多年的斯默顿谈到了这一原型：“即便什么都看到，你都会知道自己什么时候站在墙边。你可以感受到一切，这非常不可思议。我对他们现在所取得的进展感到非常兴奋和高兴。”

席斯勒补充说：“当你第一次在VR中听到逼真的音频模拟时，你将会为它对沉浸感的提升程度感到惊讶。真实的音频渲染甚至可以发挥协同作用，令视觉效果看起来更好。”

6. 灵活创造性

团队在开发这项技术时的主要目标之一是，为声音设计人员提供支持，帮助他们能够轻松地在VR中创建逼真的音频体验。他们还希望为美术提供参数，帮助他们实现创作愿景。席斯勒指出：“有时候你不希望它听起来100％真实。在对话过程中，你可能希望降低混响的数量，从而确保可以理解角色的意思。这项新技术拥有如此灵活性。”

现在，设计师不必为每个房间设置复杂的参数集，只需要为几何图形指定材质属性即可。模拟的动态特性也有利于内容创建者：美术可以在模拟运行时调整参数，与预计算的声学模拟相比，这大大减少了迭代次数。

7. 未来任务

随着FRL音频团队已经实现了开发高效仿真引擎的目标，现在他们正致力于改进技术以模拟其他声学现象。有一系列的声学现象目前难以模拟，如衍射和透射。团队接下来的目标是研究能有效计算这些效果的新方法。席斯勒表示：“我希望我们能够继续推进发展音频领域的先进技术。我为所有游戏都能拥有这种级别音频保真度的那一天感到兴奋。”

在OC5的主题演讲中，迈克尔·亚伯拉什描述了为VR和AR生成逼真音频而必须解决的问题。除了房间声学模拟之外，空间音频的另一个挑战是头相关传递函数（HRTF）的个性化实现，以针对每位用户定制3D空间线索的方式生成音频。亚伯拉什解释说，HRTF的个性化问题可能需要比预期更长的时间才能解决。从好的方面来说，在实际可用的HRTF个性化能够实现之前，纳入对环境的声学模拟可能有助于提升沉浸感。