Meta提出NVAPE技术,革新VR声学建模
新视图声学参数估计方法
(映维网Nweon 2025年04月21日)新视场声学合成(NVAS)的任务是正在获得业界关注,特别是考虑到它与增强现实和虚拟现实发展的相关性。然而,大多努力都存在类似的局限性:它们推断时域的RIR,这证明了优化的挑战性;专注于简单、单房间的场景;只能推断出单通道、方向无关的声学特性;而且需要输入,例如具有材质属性的3D几何网格。
另一方面,研究表明,在AR和VR中的感知合理性不需要RIR的采样精度。诸如C50或T60等标准声学参数已证明能够描述RIR的相关特性,特别是后期混响。
为了解决相关差距,芬兰阿尔托大学和Meta团队提出了一个新的任务:新视图声学参数估计方法。他们使用单个随机选择的RIR作为校准输入,以建立模型对声学环境的理解,并将任务框架为图像到图像的转换问题。
研究人员提出了一个模型架构,它能够使用简单的二维平面图形式的有限几何信息,以及参考RIR作为输入,共同估计多个频带的多个空间分布声学参数。
实验表明所提出方法显著优于统计基线,适用于方向相关(即波束形成)参数预测。最后,所述方法可以在非常有限的信息下运行,在推理时只需要场景的大致轮廓和单个RIR。
当我们致力于为有效的娱乐、通信和远程呈现探索增强现实和虚拟现实技术时,实现合理的声学是沉浸式体验的关键要求。
研究表明,在封闭空间中使用精确的声学模型(声音如何穿过走廊、从墙壁和家具上反弹并在略微不同的时间到达我们的耳朵的模型)来渲染虚拟声音,可以提高可理解性、声音定位准确性以及共存在感和联结感。
实现真实声学效果的一种方法是在不可见的环境中自动推断房间脉冲响应RIR。RIR定义为场景中任意位置的发射和接收之间的声学传递函数,并可以用来全面描述物理空间的声学行为。
新视场声学合成(NVAS)是一个新兴的研究领域,并定义为使用描述场景几何和材质属性的多模态信息推断房间内或新房间内未知源和接收位置的RIR的任务。
尽管这一领域的前景看好,但之前的研究受到以下因素的限制:对新场景的泛化能力差,对复杂的真实几何形状的处理能力差,忽略方向依赖性的单通道RIR估计,以及对高维输入数据的要求,例如具有标记材质属性的完整3D网格。
芬兰阿尔托大学和Meta团队考虑了多个新的方向来克服相关限制。首先,他们研究更精细的场景几何,更好地反映现实世界的空间,即多室公寓。多房间公寓通常具有复杂的混响和声音传输模式,如非均匀性和各向异性,这使得它们很难建模。
其次,研究人员直觉地认为,对完整的RIR建模对于感知合理性并不必要,特别是对于多房公寓。先前的研究表明,像清晰度指数(C50)和混响时间(T60)这样的声学参数可以作为可行的预测目标,并用于通知下游混响器生成可信的RIR。
最后,假设将机器学习模型与最小的声学背景相结合,可以减少对详细几何输入的需求。
在研究中,团队以NVAS先前研究作为基础,介绍并提出了一种新任务,即新视图声学参数估计(NVAPE)。在这里,他们使用有限的几何信息来预测场景的二维声学参数,不需要精确的材质属性。
他们使用单个随机选择的RIR作为校准输入,以建立模型对声学环境的理解,并将任务框架为图像到图像的转换问题。
换句话说,NVAPE旨在作为NVAS任务的替代方案,它不需要详细的几何信息作为输入,并且基于感知声学。团队同时构建了一个新的数据集来研究这个任务,并提出了一种深度学习模型来解决相关任务。
实验证明,所述模型在新任务优于基线,并在现有任务达到最先进的基准。
总的来说,团队确定了一个新的任务:新视图声学参数估计。这需要预测未见场景和任意源和发射器位置的声学参数,并用于调节混响器以产生RIR。研究人员提出了一个模型架构,它能够使用简单的二维平面图形式的有限几何信息,以及参考RIR作为输入,共同估计多个频带的多个空间分布声学参数。