Meta研究结合参数化声场改进AR/VR音频双耳信号匹配性能

编辑：刘余欣 | 分类：论文 | 2022年11月10日

研究和分析了具有参数化声场的BSM在时频域的性能

（映维网Nweon 2022年11月10日）对于AR/VR，听觉是实现沉浸感的一块重要拼图。通过麦克风阵列捕获的声学场景双耳再现越来越流行，并在AR/VR中存在一系列的应用。

双耳再现的一种热门方法涉及将High Order Ambisonics（HOA）信号与头相关传递函数（HRTF）卷积。这种方法对于足够高的球面谐波（Spherical Harmonics/SH）order相当准确，并且头部追踪的结合增强了沉浸体验。但所述方法的主要缺点在于，当通过球形麦克风阵列记录音频信号时需要大量麦克风，并且需要球形阵列几何形状，这限制了它的实际使用。

为了使用更灵活的阵列几何形状来再现双耳信号，社区曾提出了基于波束成形的双耳再现（Beamforming-based Binaural ReproductionBFBR）。所述方法使用一组波束成形器对麦克风信号进行滤波，然后再使用HRTF对输出信号进行滤波，并且求和以再现双耳信号。然而，对于更一般的阵列几何结构，它只能带来有限的指导原则，无法保证准确的双耳信号再现。

为了克服基于波束成形方法的局限性，并准确再现由任意几何阵列记录的双耳信号，社区又开发了双耳信号匹配（Binaural Signal-Matching/BSM）方法。其中，BSM使用分别为每个耳朵计算的最佳滤波器直接从阵列测量中估计双耳信号。不过，BSM的精度对传声器位置而不是其数量敏感。特别是，阵列中的麦克风离耳朵越近，耳朵中的双耳再现效果越好。所以，BSM方法的主要缺点是它在高频下表现不佳，尤其是在其中一只耳朵距离阵列的所有麦克风相对较远的情况下。

为了提高感知性能，社区提议为高频使用幅值最小二乘法（MagLS）代替最小二乘法（LS）。尽管MagLS的应用改善了再现双耳信号的整体感知体验，但当其中一只耳朵距离所有阵列麦克风相对较远时，BSM依然存在感知表现不佳的情况。

作为上述BSM和波束成形方法的替代方案，社区同时研究了参数空间音频和双耳再现。在这种方法中，声场分解为component，通常是直接源和混响部分，并且每个component分别估计和再现。所述方法表现出相当不错的性能，但具体效果取决于在复杂环境中实现具有挑战性的估计精度。

......（全文 2322 字，剩余 1584 字）

wx_mp