Meta研究结合参数化声场改进AR/VR音频双耳信号匹配性能
研究和分析了具有参数化声场的BSM在时频域的性能
(映维网Nweon 2022年11月10日)对于AR/VR,听觉是实现沉浸感的一块重要拼图。通过麦克风阵列捕获的声学场景双耳再现越来越流行,并在AR/VR中存在一系列的应用。
双耳再现的一种热门方法涉及将High Order Ambisonics(HOA)信号与头相关传递函数(HRTF)卷积。这种方法对于足够高的球面谐波(Spherical Harmonics/SH)order相当准确,并且头部追踪的结合增强了沉浸体验。但所述方法的主要缺点在于,当通过球形麦克风阵列记录音频信号时需要大量麦克风,并且需要球形阵列几何形状,这限制了它的实际使用。
为了使用更灵活的阵列几何形状来再现双耳信号,社区曾提出了基于波束成形的双耳再现(Beamforming-based Binaural ReproductionBFBR)。所述方法使用一组波束成形器对麦克风信号进行滤波,然后再使用HRTF对输出信号进行滤波,并且求和以再现双耳信号。然而,对于更一般的阵列几何结构,它只能带来有限的指导原则,无法保证准确的双耳信号再现。
为了克服基于波束成形方法的局限性,并准确再现由任意几何阵列记录的双耳信号,社区又开发了双耳信号匹配(Binaural Signal-Matching/BSM)方法。其中,BSM使用分别为每个耳朵计算的最佳滤波器直接从阵列测量中估计双耳信号。不过,BSM的精度对传声器位置而不是其数量敏感。特别是,阵列中的麦克风离耳朵越近,耳朵中的双耳再现效果越好。所以,BSM方法的主要缺点是它在高频下表现不佳,尤其是在其中一只耳朵距离阵列的所有麦克风相对较远的情况下。
为了提高感知性能,社区提议为高频使用幅值最小二乘法(MagLS)代替最小二乘法(LS)。尽管MagLS的应用改善了再现双耳信号的整体感知体验,但当其中一只耳朵距离所有阵列麦克风相对较远时,BSM依然存在感知表现不佳的情况。
作为上述BSM和波束成形方法的替代方案,社区同时研究了参数空间音频和双耳再现。在这种方法中,声场分解为component,通常是直接源和混响部分,并且每个component分别估计和再现。所述方法表现出相当不错的性能,但具体效果取决于在复杂环境中实现具有挑战性的估计精度。
考虑到以往方法的局限性,由Meta Reality Labs和以色列本·古里安大学组成的团队研究和分析了具有参数化声场的BSM在时频域的性能。具体而言,他们研究了分离为直接component和混响component的声学场景,并探索了通过结合声场参数化来改进BSM的潜力,特别是在BSM当前失效的情况。
具有参数化声场的BSM
参数化基于这样的假设,即测得的声场可以分解为如下两个component:
公式1:x(n,k)=xd(n,k)+xr(n,k)+n(n,k+)
其中n(k)是附加噪声矢量,xd(n,k)表示时频域中来自声源的直接信号,建模为单个远场平面波,写为:
公式2:xd(n,k)=v(k,θd,φd)sd(n,k)
其中(θd、φd)表示直接信号的DOA,sd(n,k)表示源信号。xr(n,k)表示时频域中测量信号的混响部分,并且通常由从未知方向到达的大量未知源组成。所述模型可以表示房间中的单个声源,其中xd是来自声源的直接声音的测量值,xr是来自房间边界的声源反射的测量值。
有方法可用于估计每个时频bin的xd(n,k)及其到达方向(DOA),但在这篇论文中,团队假设xd(n,k)及其DOA是已知。总之,与计算整个声场的BSM滤波器相比,分别计算直接和混响component的BSM滤波有望产生更好的结果,因为在前者中,直接声音component有望更准确地再现。component公式化为:
团队使用双耳信号误差和听觉测试对所提出的BSM性能进行了数值评估。
研究
团队在尺寸为8m×5m×3m、混响时间为T60=0.68 s的房间内使用图像方法模拟点源。房间内的源位置为(2.47,2.27,1.7)m。源信号是一段5秒长的女性语音记录,取自TIMIT数据库,采样频率为48 kHz。
半圆形麦克风阵列以(2,2,1.7)m为中心,DRR值为4.5 dB,折衷了布置在水平面上的m=6个全向麦克风。传声器位置用球坐标(rm,θm,φm)表示,m相对于阵列中心。麦克风测量信号由以下公式表示:
通过假设自由场环境来计算表示源xd(t)的直接贡献的x(t)的component。模拟中的HRTF取自Cologne数据库,采样频率为48kHz。假设源DOA的HRTF在SH域中使用30 SH order进行插值。头部以(2,2,1.7)m为中心,并与正x轴对齐。图1给出了阵列位置相对于头部位置的图示。例如,假设半圆形阵列代表AR眼镜上的阵列,则选择阵列相对于头部的选定方向,因为这对BSM算法来说最具挑战性。
如上所述,计算x(t)和xd(t)后,使用Short-TimeFourier-Transform (STFT)计算x(n,k)和xd(n,k),Hamming window为32ms,hop length为16ms。然后使用公式1计算xr(n,k)。
计算两个BSM滤波器,一个用于信号的直接component,另一个用于混响component。假设声场由L个远场源组成,当计算混响component的滤波器时,假设声场由L=240个源组成,DOA对应于螺旋形几乎均匀的分布。在计算直接component的滤波器时,假设单个源L=1,相对于阵列中心的DOA为(θd=π2,φd=π6)。
然后,使用相应数量的L源、阵列几何结构和假设源的DOA,在SH域中分析生成了混响和直接component的导向矢量。接下来,假设混响component的SNR=20 dB,而SNR=∞ 假设为直接component。
对于[150024000]Hz范围内的频率,使用MagLS计算混响component的BSM权重。接下来,分别计算代表混响component和直接component的输出:
表示直接从没有声场分解的阵列测量中实现BSM方法的解决方案是:
通过将左耳和右耳的HRTF与图像方法计算的14 order HOA信号进行卷积来计算耳朵处的参考信号:
双耳信号的归一化均方误差(NMSE)计算为:
模拟结果
为了研究BSM方法在应用于分解声场时的性能,团队计算了直接component和混响component的NMSE,如图2和图3所示。
图2
图3
图2显示了双耳信号的再现直接component的NMSE相对较低,尤其是在低频时。这一结果表明,直接component的再现相当准确,这与BSM方法的预期性能一致。混响component的NMSE如图3所示。可以观察到,在较高频率下,NMSE较高,而最靠近麦克风位置的耳朵的NMSE较低。
团队同时计算了使用不带声场分解的BSM方法的再现双耳信号的NMSE,以及使用带声场分离的BSM法的再现双音信号的NMSE,如图4所示。模拟结果表明,使用BSM方法的双耳信号的更精确再现可以通过声场分解来实现。通过比较直接component和混响component的NMSE,可以推断NMSE由混响component主导。这项模拟研究显示了声场分解的潜力:如果这种分解可以在实践中实现,它可以显著提高BSM算法的性能。
相关论文:Performance Analysis Of Binaural Signal Matching (BSM) in the Time-Frequency Domain
总的来说,团队研究了在半圆形阵列和分解声场中利用BSM方法进行双耳再现的问题。结果表明,使用分解声场的再现双耳信号的感知和总体精度高于使用标准BSM方法的情况,尤其是在耳朵位置和麦克风之间的距离较大的情况下。听力测试表明,准确再现直接component对感知确实非常重要。
研究人员指出,未来的工作可能包括结合空间编码方法来实现声场分解,开发更好地再现混响component的设计框架,并扩展本次研究中进行的听力测试。未来的工作同时可能包括研究具有其他阵列配置的BSM方法,以及开发改进双耳再现的设计框架。