北大与小米提出SHB-AE,用手机四麦克风实现四阶空间音频编码

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

未来普通手机即可成为AR/VR空间音频的采集终端

映维网Nweon 2026年06月08日)北京大学与小米研究团队联合提出了一种名为SHB-AE的新型空间音频编码方法。相关解决方案仅利用智能手机现有的四个不规则排列麦克风,即可实现高达第四阶的HOA编码与升阶,为便携式设备的沉浸式音频采集提供了新的技术路径。这意味着,未来普通手机即可成为AR/VR空间音频的采集终端。

北大与小米提出SHB-AE,用手机四麦克风实现四阶空间音频编码

研究人员表示:“随着增强现实和虚拟现实技术的快速发展,空间音频记录与再现获得了越来越多的研究兴趣。HOA因其对各种播放设备的适应性以及整合头部朝向的能力而脱颖而出。然而,当前的HOA记录通常依赖于体积庞大的球形麦克风阵列,而像智能手机这样的便携设备受限于阵列配置和麦克风数量。”

所以,团队提出了SHB-AE方法,用波束形成 + 球谐变换绕过麦克风数量限制。传统最小二乘编码方法要求麦克风数量至少为 (N+1)^2(N为编码阶数),而SHB-AE通过为每一个球谐函数设计专门的波束形成器,并将问题转换到球谐域(SHD)进行求解,把麦克风数量的限制转化为测量导向矢量数量的限制,从而实现了在不增加麦克风的前提下对HOA系数进行升阶。

另外,解决方案引入离散球谐变换(DSHT)和频率分段策略。在高频段(实验中阈值设为2 kHz),算法用阵列流形的绝对值替换原始相位信息,有效抑制了因麦克风间距不足引起的空间混叠误差。

研究团队基于一款真实的手机麦克风阵列(四个麦克风:底部两个、顶部一个、后盖一个)进行了实验。他们分别在模拟自由场、消声室实测、不同噪声水平、不同混响时间等多种条件下评估了SHB-AE与传统最小二乘基准方法的性能。

主要实验结果显示:

  • 声场重建精度:升阶至第四阶后,声压幅度比和余弦相似度均获得明显提升,继续升高阶数则收益有限。

  • 高频鲁棒性:在2–5 kHz范围内,SHB-AE的空间相关性显著优于基准方法,重建误差更低。频率分段策略有效稳定了高频段的性能波动。

  • 抗噪声性能:在模拟实验中,当信噪比(SNR)从30 dB下降至0 dB时,SHB-AE的声压重建误差(ε_error)始终低于基准方法,尤其在0 dB强噪声下,误差为6.69,而基准方法高达10.90。

  • 抗混响性能:在混响时间(RT60)从0.2秒增加到2.0秒的模拟环境中,SHB-AE的误差增长幅度远小于基准方法(300.26 vs 1020.52),表现出更强的鲁棒性。

  • 真实麦克风实验:在消声室实测中,SHB-AE同样取得了更高的空间相关性和更低的声场重建误差,验证了算法在真实物理设备上的有效性。

相关论文SHB-AE: Spherical harmonic beamforming based Ambisonics encoding and upscaling method for smartphone microphone array

研究的核心价值在于,仅用智能手机已有的四枚不规则麦克风,就能实现原本需要复杂球形阵列才能完成的高阶Ambisonics编码。这不仅降低了空间音频录制的硬件门槛,同时为AR/VR内容创作、移动端空间音频采集等应用提供了实用化的技术方案。

研究团队在论文中表示:“这一方法为使用便携式设备进行空间音频记录提供了一种实用的解决方案,有可能促进沉浸式音频捕获在AR/VR应用中的更广泛采用。”

本文链接https://news.nweon.com/140904
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR Research Wechat Group/微信群
资讯