以色列与意大利研究团队开发基于扩散模型的声学响应重建技术

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

即使在麦克风之间存在较大间隙的情况下,所提出方法都能成功重建缺失的RIRs

映维网Nweon 2025年08月15日)房间脉冲响应(RIRs)表征声学环境,并在多种音频信号处理任务中至关重要,包括AR/VR。高质量的RIR估计驱动着诸如虚拟麦克风、声源定位、增强现实和数据增强等应用。然而,获取具有高空间分辨率的RIR测量资源消耗巨大,对于大空间或需要密集采样的情况显得不切实际。

在一项研究中,以色列巴伊兰大学和意大利米兰理工大学团队希望解决使用去噪扩散概率模型(DDPM)估算房间内未测量位置RIRs的挑战。所提出方法利用了RIR矩阵与图像修复之间的类比,将RIR数据转换为适合基于扩散模型进行重建的格式。

利用基于镜像法模拟的RIR数据,团队在从线性到半圆形的不同曲率麦克风阵列上证明了所提出方法的有效性。即使在麦克风之间存在较大间隙的情况下,所提出方法都能成功重建缺失的RIRs。在此类条件下,该方法实现了精确的重建,在归一化均方误差(NMSE)以及实际RIR与插值RIR之间的余弦距离(CD)指标上显著优于基线三次样条插值法。

这项研究凸显了使用生成模型进行有效RIR插值的潜力,为从有限的真实世界测量数据中生成额外数据铺平了道路。

以色列与意大利研究团队开发基于扩散模型的声学响应重建技术

房间脉冲响应(RIRs)在音频信号处理中扮演着关键角色,支持着虚拟现实与增强现实等应用。然而,测量RIRs资源消耗巨大,特别是在需要密集测量的大空间或声学复杂空间中。模拟的RIRs虽然实用,但通常缺乏真实数据的准确性和保真度,因此需要能够重建或插值未测量位置RIRs的方法。

传统的RIR重建方法依赖于数学模型,例如压缩感知和波动方程求解,但这些方法在复杂声学环境中往往表现不佳。近期的进展利用深度学习技术,包括卷积神经网络(CNNs)和生成对抗网络(GANs),以提高重建精度。例如,GANs在扩展阵列处理带宽方面显示出潜力,而物理信息神经网络(PINNs)则结合声学原理来优化预测。DDPM最近已成为声场重建的有力工具,为生成精确的声场提供了概率框架。然而,这些方法大多专注于特定频段或RIR的部分内容。最近的一个挑战聚焦于将生成模型用于合成房间声学,作为说话人距离估计任务的数据增强工具。

以色列巴伊兰大学和意大利米兰理工大学团队的研究探索了RIR重建与图像修复之间的类比。通过将RIR矩阵视为图像,我们应用扩散模型来重建RIR的完整时间跨度。这种新颖方法实现了鲁棒且准确的RIR插值,即使在麦克风在声学环境中稀疏分布的情况下,都在NMSE和CD方面取得了优异性能。所提出的方法得到了基于模拟声学环境的实验研究的支持,为潜在的实际应用奠定了坚实基础。

所提出研究旨在利用有限数量的测量RIRs来重建未测量位置的RIRs。给定房间内M个测量到的RIRs,任务是估计L个未测量位置的RIRs,从而得到总共N = M + L个位置。每个RIR以频率Fs采样并被截断为K个样本,超过此长度则衰减至背景噪声水平。团队重点关注线性和半圆形阵列配置,以及中间的弧形配置,尽管该方法可扩展到其他设置。

在此框架下,考虑N个麦克风位置,其中只有M个随机选择的RIRs被测量,而剩余的L个测量缺失(如图1所示的线性阵列示例)。数学上,令H表示RIRs的矩阵,其中H ∈ R N×K。他们将可用的RIR测量值表示为Hmeasured ∈ R M×K。团队的目标是估计H中的缺失项,以获得完整的矩阵Hˆ ∈ R N×K。H的每一列(记为hi)代表第i个位置的RIR(1 ≤ i ≤ N)。将此矩阵视为图像,而问题类似于图像修复,目标是利用可用数据重建缺失部分。图2显示了矩阵H的热图以及一个麦克风RIR的放大视图。团队希望利用测量到的RIRs重建分散在整个阵列中的缺失RIRs。

重建缺失的RIRs需要利用数据的空间和时间结构。通过应对这一挑战,团队开发了一种鲁棒的插值方法,以促进跨各种应用的声学分析和处理。

研究人员将重建缺失RIRs的问题表述为一个图像修复任务。通过将RIR数据表示为图像,可以利用DDPMs的强大能力来估计缺失的响应。这一受到先前利用扩散模型进行图像修复研究的启发,特别是使用预训练扩散模型有效重建图像缺失区域的研究,。

基于DDPMs的修复方法利用一个最初为通用图像生成而训练的预训练模型。在推理过程中,通过将模型条件设定在图像的已知部分,同时为缺失区域生成新内容,使其适应修复任务。在每个扩散步骤中,引导模型与观测部分保持一致,确保仅重建缺失区域而保留已知区域。这种方法允许灵活的修复,无需预先知道掩码模式。这种迭代细化的特性与团队提出的问题非常契合,即需要在不知道缺失麦克风位置的情况下重建缺失的RIR数据,使其尽可能接近原始响应。

研究人员采用OpenAI的DDPM架构,并进行必要的修改以适应RIR矩阵图像。尽管原始模型是为自然图像设计的,但RIR数据具有独特的统计特性。在专门的小型RIR数据集上训练模型使其能够捕获这些特性,从而实现更精确的重建。在推理时,将带掩码的RIR图像输入训练好的扩散模型,模型迭代地重建缺失区域。输出是一个完整的RIR图像。最后,通过将灰度像素值转换回响应幅度,将重建的图像转换为其原始矩阵形式。仅保留新修复的区域,它们代表重建的RIR。

以色列与意大利研究团队开发基于扩散模型的声学响应重建技术

为了应用修复技术,将RIR数据重塑为类似图像的格式。给定一个阵列配置,将RIRs排列成一个二维矩阵,其中每一列对应来自特定麦克风位置的长度为K的RIR。所提出方法同时能适应不同数量的缺失麦克风和不同的RIR长度,这将使得图像具有不同的宽度和高度尺寸。生成的矩阵视为灰度图像,强度值代表归一化的RIR幅度。这种格式在保留空间和时间信息的同时实现了结构化处理。

由于DDPMs通常在固定尺寸的图像上训练,团队将RIR矩阵分割成64×64像素的图像块,对应于64个可能的麦克风位置和64个RIR采样点(tap)。如果RIR长度超过64(通常是这种情况),将图像分割成多个块,每个块代表RIR的不同部分。

为了解决由于缺乏周围上下文而导致图像块边缘重建质量较低的问题,在相邻图像块之间引入了25%的重叠。研究人员同时将每个图像块归一化到[-1, 1]的范围,使网络能够独立于该部分响应的能量水平来重建每个块。重建后,通过将每个块重新缩放到其原始能量,丢弃重叠区域,并仅保留图像块的中心部分,将这些块重新组装成一个完整的图像。这种方法平衡了计算效率和重建精度,并通过消除重复和保持连续性确保了无缝重建。

在麦克风配置少于64个的情况下,用重复的列填充图像以确保图像宽度为64像素。这保留了模型预期的输入尺寸,同时最小化了重建过程中的失真。

为了模拟缺失测量,通过将RIR图像中随机选择的列置零来生成不同比例的掩码。其中,掩码代表未测量的麦克风位置。然后,带掩码的图像及其对应的掩码作为输入馈入扩散模型。

相关论文DiffusionRIR: Room Impulse Response Interpolation using Diffusion Models

https://arxiv.org/pdf/2504.20625

总的来说,团队解决了获取RIR测量的挑战:RIR测量对于表征房间声学特性至关重要,但采集成本高昂。研究人员提出利用传统上用于成像的超分辨率技术,来插值或预测房间内未测量位置的RIRs。所提出方法利用现有的RIR数据生成高分辨率声学映射,无需进行详尽的测量,从而支持增强现实和虚拟现实等应用。

仿真结果表明,所提出的方法能够有效泛化到训练配置之外,可以为不同的麦克风阵列甚至未包含在训练集中的房间生成RIRs。尽管使用模拟RIRs进行了测试,但团队相信这项研究为从有限的真实世界测量中生成额外数据打开了大门。

本文链接https://news.nweon.com/131672
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群
资讯