北京大学团队提出神经声学传输方法实现动态场景实时声音建模
能高效精确地建模动态变化环境中的声音行为
(映维网Nweon 2025年10月20日)先前的声音传输方法依赖于大量的预计算和数据存储来实现实时交互和听觉反馈。然而,相关方法难以处理复杂场景,特别是当物体位置、材料和尺寸的动态变化显著改变声音效果时。连续变化导致声学传输分布波动,难以用基本数据结构表示并实时高效渲染。为解决这一挑战,北京大学团队提出了Neural Acoustic Transfer神经声学传输,一种利用隐式神经表示对预计算声学传输及其变化进行编码的新方法,可实时预测不同条件下的声场。
为高效生成神经声场所需的训练数据,研究人员开发了基于蒙特卡洛的快速边界元法(BEM)近似算法,适用于满足光滑诺伊曼条件的通用场景。另外,实现了标准BEM的GPU加速版本用于高精度场景。所述方法提供了必要的训练数据,可支持神经网络精确建模声音辐射空间。通过在不同声学传输场景中的全面验证与对比,证明了所述方法具备数值精确性和运行效率(30秒音频处理仅需数毫秒)。
北京大学团队指出,所提出方案能高效精确地建模动态变化环境中的声音行为,可广泛应用于虚拟现实和增强现实等交互场景。
声学传输在合成与计算机模拟动画同步的物理真实声音中起着关键作用。典型物理模拟方法可计算物体表面加速度(如刚体与流体模拟),这些加速度随后作为声学传输求解器的输入以估算空间任意点的声压。对于单固体物体场景,预计算方法依赖边界元法(BEM)预计算并存储物体模态振动产生的声场分布,实现频繁的运行时评估。
但这些方法难以处理复杂场景。在动态场景中,发声物体相对于其他场景元素移动会导致声场持续变化。这类复杂场景的实时交互需要预计算并存储所有可能情况的声学传输分布,而准确表示高维空间中的这些分布具有挑战性,现有方法无法高效处理此类复杂任务。
鉴于神经网络的隐式表示在各领域展现出的强大表征能力和快速推理优势,北京大学团队提出神经声学传输方法。所述方案用神经网络编码高维空间中的预计算声学传输,实现复杂动态场景的实时交互。听者位置的空间坐标通过多分辨率哈希网格编码,其他条件参数采用位置编码处理。这些编码输入经拼接后由神经网络处理,利用数值求解器获取的数据拟合高维声学传输空间。
为便于合成训练数据,实现CUDA加速的边界元法(BEM)用于模态声音的声学传输模拟,并针对边界条件更光滑的场景提出基于蒙特卡洛的BEM快速近似策略。蒙特卡洛近似对网格质量的敏感性低于传统BEM,可通过控制样本数量显著降低计算成本,虽精度适中但完全满足音效需求。
通过全面实验,验证了神经声学传输方法在动态场景中的有效性与优越性,包括编辑模态声音物体的材料属性与尺寸,以及在运动耦合环境中渲染动态声学效果(见图1)。值得注意的是,所提出方法仅需1毫秒即可预测10秒音频在动态场景中单听者位置的声音变化;对于模态声音物体的材料与尺寸编辑,仅需2毫秒即可预测新材质尺寸的声学传输图,较先前神经方法(NeuralSound)提速数个数量级且精度更高。这一突破使复杂动态场景中的实时声学交互成为可行且实用的技术。
研究人员全面评估基于蒙特卡洛的BEM近似法(BEM-MC)的精度与效率,从多角度分析性能,与传统技术对比并研究不同采样设置的影响。BEM-MC以远场声学传输(FFAT)图作为低频模态振动声学传输的精度评估指标,以BEM为基准,通过FFAT图的信噪比(SNR)和结构相似性(SSIM)评估求解器性能。
实验使用多个3D模型测试不同采样设置,仅计算前8个满足光滑诺伊曼条件的模态FFAT图。BEM-MC的性能直接受采样策略(尤其是采样点数量)影响,因此比较了不同泊松碟采样配置(采样点数量各异)。鉴于泊松碟采样本身会增加采样时间,需证明其精度提升能完全抵消额外计算成本,故同时与随机采样对比。所有采样策略的线性求解器设置一致:容差1×10⁻⁶,最大迭代200次。
图7展示不同3D模型的声学传输结果:采用泊松碟采样的BEM-MC结果与基准高度接近,而随机采样的BEM-MC在SNR和SSIM上精度极低。研究明确表明泊松碟采样较随机采样精度显著提升,因其提供更均匀分布的点位从而降低方程求解方差。尽管泊松碟采样需额外初始时间(约10毫秒,随机采样约1毫秒),但其收敛速度更快。详细时间成本见表3,进一步证明该方法在声学建模中的效率与有效性。
精度评估表明,BEM-MC在网格鲁棒性、精度和计算效率上优于传统方法。与BEM对比:BEM-MC对网格质量的适应性更具优势,尤其在现实采集数据中存在次优网格结构时。图8对比BEM-MC与BEM,显示BEM-MC在挑战性网格条件下始终优于传统BEM(传统BEM易受边界数据局部混叠影响,特别在含不规则单元的网格中)。而BEM-MC对网格质量依赖性较低,因为点采样对网格条件不敏感。如图7和表3所示,BEM-MC超越CUDA加速的BEM。
对于数据集合成与验证,选择平板作为测试对象,通过调整杨氏模量与密度比值(范围7.8×10⁶至2.6×10⁷)改变材料属性(涵盖玻璃、陶瓷、木材和金属等常见材料),平板直径随机变化于0.1米至0.2米之间。测试求解器需计算材料或尺寸变化后前60个模态的FFAT图。根据亥姆霍兹方程,频率与尺寸的乘积决定声学传输结果,故将频率与尺寸的乘积设为条件参数v。为训练NAT,使用CUDA加速BEM作为基准,计算了1000个平板(随机分配材料与尺寸)的前60个主导模态的声学数据。由于高频模态形状复杂且非光滑,为保持数值稳定性未使用MC近似,但发现低频模态形状中MC近似仍稳定。
团队比较三种方法:BEM(基准)、NeuralSound和他们提出的方案,以FFAT图的SNR和SSIM作为指标。NeuralSound是用于快速模态声音合成的神经网络架构,本文仅考虑其声学传输部分(将表面位移和振动模式频率编码为标量值FFAT图以压缩声学传输函数)。图2展示所有测试求解器的对比FFAT图,表明NAT始终比NeuralSound更接近BEM精度。
表1呈现不同求解器计算前60个模态FFAT图的时间成本与平均精度,清楚证明NAT在速度与精度上的显著优势。NAT速度足够快,无需在实时评估前预计算FFAT图(其他方法需要)。鉴于FFAT图分辨率为64×32,NAT计算成本仅2毫秒,意味着可同时以500帧/秒速度为1024个位置预测声学传输。NAT可作为高性能、高精度、自适应预计算声学传输方法,用于模态声音物体的实时材料与尺寸编辑。演示请参见附件视频。
研究人员提出的神经声学传输框架实现了复杂声学环境中的实时交互。通过广泛演示,所述方法成为多种交互式声学建模场景的适应性强大多功能工具。其多功能性与实时处理能力标志着声学模拟领域的进步。另外,通过利用蒙特卡洛近似合成训练数据,该方法在保持音效模拟足够精度的同时显著加速数据生产,是一项有价值且前景广阔的探索。
相关论文:NAT: Neural Acoustic Transfer for Interactive Scenes in Real Time
尽管取得进展,但这一方法依然存在局限:NAT中神经网络的超参数尚未微调,探索编码器最优选择与超参数配置是未来研究有价值的方向。当前拟合场景参数的神经网络条件相对有限,引入更广泛的场景参数并对其进行有效快速训练是未来工作的重要方面;在训练过程中纳入更多场景条件有望显著增强NAT在多样动态场景中捕捉复杂细节的多功能性与性能。未来探索的激动人心方向是将框架应用于虚拟现实环境,这一方法的实时动态能力为在虚拟现实设置中创建沉浸式复杂声学场景蕴藏巨大潜力,有望为虚拟环境声音合成领域开辟新的交互体验与进步之路。