研究:IVAS编解码器显著优于传统多声道方案,但对混响内容仍存挑战
IVAS编解码器显著优于传统多声道方案,但对混响内容仍存挑战
(映维网Nweon 2026年06月29日)随着虚拟现实、增强现实和沉浸式游戏对空间音频需求的激增, Higher-Order Ambisonics(HOA)格式因其支持头部追踪和灵活旋转声场的特性而备受关注。然而,三阶HOA需要同时传输16个声道,未压缩时比特率高达12,288 kbps,这对存储和通信带宽构成巨大压力。所以,3GPP最新标准化的IVAS沉浸式语音和音频服务编解码器提供了基于场景的音频(SBA)模式,专用于HOA压缩。
日前,Orange研究中心介绍了一项系统性主观听觉实验,首次详细对比了IVAS与朴素多单声道编码(EVSx16)在不同内容类型和比特率下的感知质量差异。

研究团队选取了13种具有代表性的三阶HOA音频项目,涵盖语音(单人或三人对话)、音乐(民谣、爵士、交响、流行)和复杂氛围声(派对、掌声)。空间化方法包括理想平面波合成、基于球形麦克风阵列(SMA)的实测房间脉冲响应(SRIR)卷积,以及SMA原生录音。测试在符合ITU-R BS.1116标准的听音室中,通过29只扬声器球阵列进行MUSHRA主观评分,共19名专家听者参与。
编码条件包括IVAS在32、64、128、256 kbps四个比特率,以及EVS单声道编解码器独立用于每个HOA声道(总比特率262和512 kbps)作为基准,另设3.5 kHz低通锚点。
团队的主要发现是:IVAS全面优于多单声道,但存在“偏好”偏差
在256 kbps vs 262 kbps的相近比特率下,IVAS的MUSHRA平均得分几乎对所有项目均高于EVSx16,仅在“派对氛围”(AMB)项目中EVSx16高出11分(差异显著),在爵士乐队(BND)中两者无显著差异。研究指出,IVAS通过SPAR和DirAC算法利用声道间相关性,将信息压缩至少量传输声道(TCs,1~4个),从而允许每个TC使用更高比特率,减少核心编解码器的音色伪影。
另外,IVAS对由有限数量平面波合成的信号(如单说话人、流行歌曲)表现出极强的鲁棒性,即便在32 kbps下仍能获得优秀评分(>80)。EVSx16则相反,在空间扩散混响内容(如混响语音、管弦乐)方面表现相对较好。
第二个实验专门针对“无回声平面波”与“对应混响SRIR”的配对内容(共3类、6组数据)进行精细比较,结果证实:
-
EVSx16偏袒混响信号(平均高出20个MUSHRA点),且该偏差不随比特率变化(支持假设H3、H4)。
-
IVAS偏袒无回声信号,在64 kbps时偏差高达35点,256 kbps时降至20点,呈现随比特率增加而减小的趋势(支持H1、H2)。
-
低比特率下的异常:IVAS在32 kbps时对无回声信号的评分大幅下降,导致对混响的偏差虽然仍为正,但不服从更高比特率的递减规律,研究认为这源于TC数量不足导致的核心编码崩溃。
研究团队分析认为,IVAS的SPAR/DirAC算法核心依赖于信号协方差矩阵和去相关滤波器,对于高度相关的平面波信号能高效预测和重建;但对于自然混响或复杂声场,HOA分量间的相关性降低,压缩效率下降,且去相关滤波器难以完美匹配真实扩散场。实验发现,将IVAS从64 kbps提升至128 kbps(增加一个TC)对无回声单平面波信号几乎无质量增益,但对混响版本则有明显提升,这间接支持了“去相关滤波器替代TC能力不足”的假设。
研究者强调,尽管IVAS在大多数场景下优于传统多单声道方案,但其性能偏科现象为下一代空间音频编码器指明了改进方向——需在低比特率下更好地处理扩散性、自然混响及复杂环境声,同时维持对定向信号的保真度。
总的来说,研究为AR/VR通信、沉浸式媒体存储和实时流媒体的编码方案选择提供了重要的实证依据,并首次量化了内容空间特性对编码质量的影响尺度。

