雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

研究员提出AVR技术实现物理级VR音频合成,相位精度提升60%

查看引用/信息源请点击:映维网Nweon

捕获精确声学现象的逼真音频合成

映维网Nweon 2025年04月15日)捕获精确声学现象的逼真音频合成对于在虚拟现实和增强现实中创造沉浸式体验至关重要。合成在任何位置接收到的声音依赖于脉冲响应(IR)的估计。在一项研究中,宾夕法尼亚大学和华盛顿大学团队提出了Acoustic Volume Rendering(AVR)。

这是一种采用体渲染技术来模拟声脉冲响应的新方法。尽管体渲染在为图像和神经场景表示建模辐射场方面取得了成功,但作为时间序列信号,体渲染提出了独特的挑战。为了应对这一情况,团队引入了频域体渲染,并使用球面积分来拟合红外测量结果。

所述方法构建了一个编码了波传播原理的脉冲响应场,而实验表明它在合成新姿态的脉冲响应方面达到了最先进的性能。另外,研究人员开发了声学模拟平台AcoustiX,以提供比现有模拟器更准确、更真实的模拟。

从走廊里回荡的清脆回声到音乐厅里交响乐的分层共振,我们的声学环境塑造了我们听到的每一个声音。空间特征不仅定义了我们的日常听觉体验,而且对于创造令人信服的元宇宙至关重要。

空间特征的核心是脉冲响应(IR),它捕获了所发出声音和我们所听到声音之间的复杂关系。就像独特的声纹一样,脉冲响应在不同位置变化,编码声波如何通过反射、衍射和吸收与环境相互作用。

我们可以通过将相应的脉冲响应与任何期望的声源进行卷积来重建任何位置的声学体验。鉴于其在空间音频合成中的基础作用,理解和建模声环境中脉冲响应的空间变化已成为一项关键挑战,并引起了越来越多的研究关注。

目前的方法构建了一个神经脉冲响应场。为了模拟脉冲响应的高空间变异性,现有方法要么拟合神经网络直接学习场,要么依赖视听对应从视觉中学习映射。

尽管相关方法可以近似一般的能量趋势,但它们难以捕获脉冲响应的详细特征,导致脉冲响应的空间变化不正确。

宾夕法尼亚大学和华盛顿大学团队认为,实现更好性能的一个关键障碍是缺乏物理约束。如果没有,网络往往会过度拟合训练数据,表现出较差的泛化能力。接收到的脉冲响应基本上来自于声波在空间中传播,结合了直接传播和环境反射。这种物理洞察力促使研究人员开发一个框架,内在地将波传播原理编码到脉冲响应场的建模中。

他们引入了AVR来模拟声脉冲响应场。所述方法从神经辐射场中获得灵感,后者通过体渲染表示光传输,并在建模3D场景方面取得了显著的成功。然而,声波提出了数个基本的挑战,并需要适应体渲染框架。

首先,声脉冲响应与光传输不同,本质上是时间序列信号,来自不同位置的声波以不同的延迟到达听者。当处理在现实世界中采样的离散脉冲响应时,这个问题进一步复杂化。其次,脉冲响应表现出高度的空间变化,与相邻像素显示出强相关性的图像相反。这一特点使得网络优化特别具有挑战性。最后,与摄像头捕获精确方向信息(即像素)的光不同,麦克风捕捉来自所有方向的组合信号。

为了解决上述问题,团队使用傅里叶变换将脉冲响应从时域转换到频域,并在频域进行体渲染。他们对频域脉冲响应应用相移来解释时间延迟,绕过有限时域采样的限制。频域表示同时表现出较小的空间变异,便于网络优化。

为了考虑来自所有可能方向的信号,在一个球体均匀地投射光线,并使用球面积分来合成脉冲响应测量。同时,设计通过在推理时将单个头相关传递函数集成到球形集成中,以实现个性化音频体验。

评估结果表明,AVR在模拟和现实数据集都大大优于现有方法,并且可以zero-shot渲染双耳音频。与AVR并行,研究人员开发了声学仿真平台AcoustiX。与现有模拟器相比,它可以产生更精确的物理脉冲响应。尽管目前的模拟器在信号相位和到达时间方面经常会出现明显的误差,但AcoustiX产生的脉冲响应更符合真实声学的物理特性。

另外,现有的模拟器在产生脉冲响应时分配随机相位,这不能反映真实的声学行为。由于目前脉冲响应合成的研究严重依赖于模拟数据集,模拟的不准确性会阻碍领域的进展。

为了解决这个限制,研究人员开发了一个基于Sionna引擎的全新仿真平台,并结合了声传播方程来解决上述问题。与SoundSpaces 2.0类似,AcoustiX支持用户提供的3D场景和各种现有3D场景数据集的声学模拟。

相关论文Acoustic Volume Rendering for Neural Impulse Response Fields

总的来说,团队提出了AVR来重建固有编码波传播原理的脉冲响应场。他们引入频域信号渲染和球面信号集成来解决脉冲响应建模中的独特挑战。实验结果表明,AVR算法明显优于现有算法。另外,他们开发了AcoustiX。这个开源仿真平台可提供准确的到达时间测量。

本文链接https://news.nweon.com/129138
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯