Meta提升空间音频双耳再现技术,优化头部旋转补偿
结果表明BSM-MagLS确实可以产生高感知质量的双耳信号
(映维网Nweon 2025年01月23日)双耳再现正迅速成为研究界非常感兴趣的话题,尤其是随着XR等新型流行设备的兴起。为了帮助用户沉浸在虚拟环境中,设备必须产生真实和准确的双耳信号。但这是一个挑战,特别是因为设备的麦克风阵列通常由任意排列的少量麦克风组成,这阻碍了像Ambisonics这样的标准音频格式的使用,并且所提供的空间分辨率有限。
双耳信号匹配(BSM)方法就是为了克服相关挑战而发展起来。尽管它可以使用相对简单的阵列产生低误差的双耳信号,但当引入头部旋转时,其性能会显着下降。
在一项研究中,本·古里安大学和Meta团队进一步发展了BSM方法。团队首先对所述方法进行了详细的分析,并提出了一种保证在相对复杂的声学环境下精确再现双耳的设计框架。接下来,研究表明,在高频率下,BSM精度可能会显著下降,所以,他们基于幅度最小二乘(MagLS)公式提出了对所述方法的感知驱动扩展。
进一步研究表明,BSM-MagLS方法可以非常有效地补偿阵列的头部旋转。最后,团队在混响语音环境和头部旋转条件下,用一副眼镜的四麦克风阵列进行了听力实验,而结果表明BSM-MagLS确实可以产生高感知质量的双耳信号。
双耳再现是一个不断发展的研究课题,在增强现实和虚拟现实、电话会议和助听器等领域的应用越来越多。为了双耳重现声学场景,声场和头部相关传递函数(hrtf)是必需的。在真实的声学场景中,声音可以通过放置在耳朵里的麦克风或解剖学上等效的假人同时捕获到。
但为了更灵活的再现,可能需要更复杂的麦克风阵列。所以,利用这种阵列进行双耳再现已成为近年来研究的热点。一种常见的方法是使用高阶立体声(HOA)信号进行双耳再现。尽管HOA是一种有着大量研究的格式,但它通常需要具有高方向分辨率和特定配置的阵列,例如球面阵列。
为了克服相关限制,一种流行的方法是使用参数方法进行双耳再现。然而,结果的质量取决于模型参数的估计精度,如到达方向,声场的扩散,以及声源在时频域的稀疏性假设。另外,与信号无关方法相比,计算相关参数可能会增加计算复杂度。同时,这可能会增加一般阵列双耳再现设计框架的复杂性,而且不能保证性能。
所以,本·古里安大学和Meta团队建议采用非参数、信号无关的方法。一种可能更适合于任意阵列几何形状的信号无关方法是基于波束形成的双耳再现(BFBR)。但是,为了更接近双耳信号,BFBR的设计参数必须仔细设置,包括波束形成器类型、转向方向及其数量,以及每个波束形成器的相对衰减系数。
尽管提供了有用的见解,但大多数研究只探索了球形阵列,并没有解决将设计框架纳入其他阵列几何形状的问题。另外,一个固有限制是,它们不能直接最小化所期望的双耳信号的误差,所以确保再现的质量依然是一个挑战。
双耳再现的第三种方法是双耳信号匹配(BSM),所述方法在阵列几何形状方面十分灵活。在估计双耳信号的同时,它通过使用线性公式将阵列转向向量与HRTF相匹配,从而使均方误差(MSE)最小化。
尽管BSM可以产生高质量的双耳信号,但相关研究只探索了相对复杂的麦克风阵列。这限制了BSM在更一般的数组几何中的使用。
综上所述,目前的双耳复制解决方案存在限制。有的需要相对复杂的阵列,其他则依赖于信号相关模型参数的估计精度。最后,大多数解决方案适用于特定的阵列设计和声学环境。
针对所述问题,团队提出了可用于任何阵列几何形状的BSM系统设计的理论框架。首先,理论上BSM是针对由已知数量的方向已知的不相关声源组成的声场开发。
然后,开发了将所述方法扩展到其他更一般的声场类型的定义条件。在此基础上,提出了一种基于MagLS的改进高频性能的BSM扩展方案,并给出了一种补偿头旋转的解决方案。
相关论文:Design and Analysis of Binaural Signal Matching with Arbitrary Microphone Arrays
总的来说,团队主要研究了针对任意麦克风阵列设计的双耳再现方法。BSM方法可以在频率低于约1.5 kHz的情况下,利用六传声器半圆形阵列产生精确的双耳信号。这种精确的再现可以在相对复杂的声学环境中实现。然而,在更高的频率范围内或当头部旋转补偿时,精度显着下降。
在这种情况下,BSM-MagLS可以产生更准确的双耳信号。另外,仅使用四个麦克风,当补偿的头部旋转程度不是太大时,所述方法可以产生与N = 14阶的HOA再现相媲美的双耳信号。