以色列与Meta团队开发可穿戴阵列Ambisonics编码器改进双耳再现

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

显著提升了双耳音频再现的准确性与真实感

映维网Nweon 2025年11月24日)以色列本·古里安大学与Meta现团队在空间音频编码领域取得了一项突破,他们成功开发出一种专为可穿戴麦克风阵列设计的改进型Ambisonics编码器,通过一种创新的联合优化框架,显著提升了双耳音频再现的准确性与真实感。所述技术有望彻底改变虚拟现实与增强现实中的听觉体验,使通过头显收听的音频能精准还原真实世界的三维空间声场。

以色列与Meta团队开发可穿戴阵列Ambisonics编码器改进双耳再现

在追求完全沉浸感的VR/AR体验中,视觉固然重要,但听觉才是营造临场感的关键。双耳音频技术通过精确模拟声音到达左右耳的细微时间差和强度差,欺骗我们的大脑,从而感知到声音来自三维空间中的特定位置。作为一种强大的声场编码技术,Ambisonics被誉为“音频领域的全景照片”,它能够将一个完整的声场信息编码为一组标准化的信号通道。其最大的优势在于格式通用性——一旦编码,就可以在不同的播放系统灵活重放。

然而,理想的Ambisonics编码通常依赖于结构规整、麦克风数量充足的球形阵列。而现实中的可穿戴设备,例如AR眼镜或混合现实头显,受限于尺寸、重量和工业设计,其麦克风阵列往往是非规则、紧凑型甚至稀疏布置的。这种“非理想”的硬件布局,导致传统的Ambisonics编码器在从麦克风信号估算声场时产生显著误差。尽管有一种名为双耳信号匹配(BSM) 的替代技术可以绕过Ambisonics,直接为特定阵列和HRTF优化双耳输出,但它牺牲了Ambisonics的通用性和灵活性,变得与设备和用户个体强相关。

面对这一两难选择,研究团队独辟蹊径并提出了一个统一的编码器设计框架,将Ambisonics信号匹配(ASM) 和双耳信号匹配(BSM) 这两个原本独立的目标融合在同一个优化问题中。

具体来说,他们构建了一个全新的联合损失函数。所述函数包含两个部分:一部分是衡量编码出的Ambisonics信号与理想Ambisonics信号之间差异的ASM误差;另一部分是衡量由这些Ambisonics信号所生成的双耳信号与理想双耳信号之间差异的BSM误差。通过引入一个平衡参数α(在0到1之间调节),编码器设计者可以像操作一个“调光旋钮”一样,灵活地决定编码器的“性格”:

  • 偏向“标准主义者”(α接近1):编码器优先保证Ambisonics系数的高度准确,确保其在不同系统间的兼容性,但可能牺牲最佳的双耳听觉效果。

  • 偏向“体验主义者”(α接近0):编码器全力优化最终的双耳听觉体验,使其尽可能逼真,但生成的Ambisonics信号本身可能不够标准。

  • 寻求“中庸之道”(α=0.5):在两者间取得最佳平衡,在可接受的Ambisonics精度损失下,换取双耳体验的大幅提升。

研究团队在论文中详细阐述了其方法。他们首先回顾了传统的ASM方法:通过Tikhonov正则化技术,为每个Ambisonics通道计算一个独立的编码滤波器,以最小化Ambisonics系数的重建误差。然而,尽管以此方式定义的C_ASM最小化了ASM误差,但它并不一定能提供最小化双耳误差的系数。

为解决此问题,研究人员进行了一系列巧妙的数学重构。他们将所有Ambisonics通道的编码滤波器扁平化为一个长向量,并构建了一个包含头相关传递函数(HRTF)球谐系数的块对角矩阵。通过这种结构,他们将通过Ambisonics通路生成的双耳信号,表达为了这个长向量与HRTF矩阵的乘积形式。这使得他们能够直接针对最终的双耳误差,求解出一个新的、优化的滤波器集合C_BSM。

最终,联合优化的编码器被简洁地表示为:C_joint = α × C_ASM + (1-α) × C_BSM。这个优雅的线性组合形式,是源于ASM和BSM的误差函数在论文的假设条件下(扩散声场、白噪点)都是二次型,因此它们的加权和的最小化解就是各自解的加权平均。

为了验证所提方法的有效性,研究团队进行了一系列严谨的仿真实验:

声学模型:使用一个半径为10厘米的刚性球体来模拟人体头部,这是一个在声学研究中广泛使用的、能够准确模拟头部散射效应的模型。

阵列设计:采用了一个包含5个麦克风的阵列,其位置在球坐标下精确设定为:{(90°, -70°), (72°, -35°), (108°, 0°), (72°, 35°), (90°, 70°)}。该布局模拟了安装在眼镜腿上的典型阵列(类似于EasyCom数据集中的阵列),具有对称性。双耳位置被设定在(90°, ±90°)。

声场与信号:模拟了来自240个近乎均匀分布在空间中的方向的远场平面波,以构建扩散声场。编码目标为一阶Ambisonics(FOA),共4个通道。参考的高阶Ambisonics阶数设为20,以逼近理想情况。

以色列与Meta团队开发可穿戴阵列Ambisonics编码器改进双耳再现

团队比较了四种情况:

Joint-ASM (α = 1):仅优化ASM。

Joint-BSM (α = 0):仅优化BSM。

Joint-ASM-BSM (α = 0.5):平衡优化。

Std BSM:标准的直接双耳信号匹配方法。

图2清晰地展示了不同方案下的归一化误差性能:

当α=1(纯ASM):所有四个Ambisonics通道(0,0)到(1,1)的重建误差(ξ_ASM)在低频段(约1kHz以下)都非常低,但随着频率升高而增加。然而,其双耳误差(ξ_BSM)在整个频带内都显著高于标准BSM方法的误差(ξ_BSM-ref)。这证实了仅追求Ambisonics精度不足以保证良好的双耳听感。

当α=0(纯BSM/近似BSM):双耳误差(ξ_BSM)急剧下降,与标准BSM方法的性能曲线几乎重合,达到了近乎最优的水平。但这是以Ambisonics各通道重建误差的大幅增加为代价的,这意味着编码出的Ambisonics流本身的质量下降了。

当α=0.5(联合优化):这是最能体现该方法价值的情形。双耳误差仅比最优的纯BSM情况有非常轻微的上升,但仍然维持在非常低的水平。与此同时,所有Ambisonics通道的重建误差相比纯BSM情况得到了大幅改善。这证明,联合编码器成功地用双耳性能上微不足道的损失,换取了Ambisonics信号质量的大幅提升,实现了两者间出色的平衡。

相关论文Ambisonics Encoder for Wearable Array with Improved Binaural Reproduction

https://arxiv.org/pdf/2507.04108

这项研究成果为可穿戴消费电子产品的空间音频处理提供了一条全新的路径。设备制造商无需在“标准兼容性”和“极致听感”之间艰难二选一,而是可以通过一个可配置的编码器,根据不同应用场景的需求,找到最适合的平衡点。

团队同时指出了接下来的研究方向:“目前,只考虑了单个听者头部相对于阵列的方向。因此,未来的研究应调查头部旋转和头部追踪的影响。另外,未来的工作可以探索在更真实的HRTF上使用这种方法,并进行听音测试以评估联合ASM-BSM设计的优势。了解Ambisonics信号中的误差对双耳重放之外应用的影响也将很有价值。”

本文链接https://news.nweon.com/136232
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群

您可能还喜欢...

资讯