Meta提出基于智能眼镜的双耳房间脉冲响应盲识
基于智能眼镜的双耳房间脉冲响应盲识
(映维网Nweon 2024年10月17日)业界越发认为智能眼镜是增强现实的关键媒介。它提供了一个带集成麦克风和非耳塞扬声器的免手操作平台,可以将虚拟声源无缝地混合到现实世界的声学场景中。
为了令人信服地整合虚拟声源,虚拟声源的室内声学渲染必须与真实声学相匹配。然而,有关用户声学环境的信息通常不可用。
在研究中,Meta和瑞典查尔姆斯理工大学提出了基于智能眼镜的双耳房间脉冲响应盲识。他们使用一副智能眼镜中的麦克风阵列来从现实环境中的几秒钟语音中盲识双耳房间脉冲响应。所提出方法使用去噪和波束形成来产生一个伪参考信号。其中,伪参考信号由多通道维纳滤波器用来估计房间脉冲响应,然后将其转换为双耳房间脉冲响应。
多通道房间脉冲响应可用于估计房间声学参数,而在估计混响时间和直接-混响能量比方面优于基线算法。听力实验的结果进一步表明,与其他几何形状相似的房间相比,团队提出的方法通常更能令人信服地再现真实房间的声学效果。
用于AR的音频旨在通过虚拟声源来增强现实世界,从而真实地融入声学场景。作为系统的一环,虚拟声源的房间声学渲染必须与用户所在房间的声学相匹配。AR应用通常由头戴式设备或智能眼镜实现。
在研究中,Meta和瑞典查尔姆斯理工大学的研究人员提出了一种在现实声学条件下解决声学匹配问题的方法,并使用了集成到一副智能眼镜中的麦克风阵列来估计嘈杂现实环境中的双耳房间脉冲响应BRIR。
BRIR表示声源与鼓膜处声压之间的线性时不变声传递路径,包括环境的声学特性以及头部、躯干和外耳的方向依赖性影响(由一组头相关脉冲响应HRIR捕获)。尽管HRIR对听者的形态具有高度的个性化,但目前可扩展和泛化的HRIRs个性化不可行,所以提供虚拟声源的双耳渲染通常会用来自虚拟头部的一组通用HRIR代替单个HRIR。
但在大多数实际的AR应用中,基于假头测量的BRIR的双耳渲染依然不可行,主要有两个原因:
- 在渲染过程中需要大量的假头BRIR来促进头部旋转
- 在目标环境中进行专门的声学测量在消费者AR应用中不可行
第一个挑战可以通过采用一个阵列来克服,通过多个麦克风捕获房间脉冲响应RIR以表征声环境的方向特性。利用阵列处理技术,通过将阵列RIR与一组无声测量的通用HRIR组合在一起,从而转换为任意给定头部旋转的BRIR。这种方法已经实现了感知可信的渲染,即在没有提供显式外部参考的情况下进行令人信服的渲染。
第二个挑战可以通过从用户环境中自然出现的声音中盲估阵列RIR来进行克服。尽管存在已建立的RIR盲估信号处理和机器学习方法,但它们通常没有设计和验证用于在实际声学条件下支持全可听频率范围的多通道RIR估计,并且在这种情况下可能无法收敛。
研究人员提出的方法扩展了相关工作,并使用通过波束形成和从几秒钟捕获的语音去噪获得的伪参考信号,然后识别形成后续双耳渲染基础的多通道RIR。
多通道房间脉冲响应可用于估计房间声学参数,而在估计混响时间和直接-混响能量比方面优于基线算法。听力实验的结果进一步表明,与其他几何形状相似的房间相比,团队提出的方法通常更能令人信服地再现真实房间的声学效果。
相关论文:Blind Identification of Binaural Room Impulse Responses from Smart Glasses
总的来说,团队提出了一种从智能眼镜麦克风阵列捕获的语音信号中盲识BRIR的方法。所述方法提供了用于估计房间声学参数的多通道RIR估计。当使用远场语音时,在所有考虑的场景中,在不同的麦克风阵列配置和信噪比下,所述方法在RT和DRR估计方面都优于基线估计器。
另外,它进一步再现了由多通道RIR捕获的定向能量分布,与一副智能眼镜类似,与传统麦克风阵列同样精确。所述方法对假设源DOA的不准确性、长度偏差和干扰语音具有鲁棒性。当提出的方法眼镜用户的语音进行估计时,它仅在高信噪比场景下提供准确的RT估计。然而,高信噪比场景是这个用例中最现实的场景,因为用户的嘴离麦克风阵列很近,自然可以确保高信噪比。
研究人员在听力实验中进一步评估方法。结果表明,与几何相似的房间的测量BRIR相比,估计的BRIR通常允许感知上更令人信服的虚拟源渲染。参考实现和听力实验的双耳音频样本请访问这个页面。