中外团队提出视频抠像后训练量化框架PTQ4VM
相比现有量化方法,PTQ4VM在不同位宽下均实现了最先进的精度性能
(映维网Nweon 2025年10月23日)视频抠像技术在影视制作和虚拟现实等应用中至关重要,然而在计算资源受限的设备部署其计算密集型模型仍存在挑战。量化作为模型压缩与加速的核心技术,其中后训练量化(PTQ)作为一种高效方法,在视频抠像领域仍处于起步阶段,并面临保持精度和时间一致性的重大难题。
为解决这些问题,南京大学,商汤科技,苏黎世联邦理工学院团队提出了一种新颖且通用的后训练量化框架PTQ4VM,专门针对视频抠像模型设计。团队的贡献包括:
采用两阶段量化策略:首先通过基于块重建的优化实现快速稳定的初始量化与局部依赖捕获,随后通过量化参数的全局校准最小化精度损失;
提出统计驱动的全局仿射校准(GAC)方法,使网络能够补偿因忽略BN层效应等因素引起的累积统计失真,甚至将现有PTQ方法在视频抠像任务中的误差降低达20%;
设计光流辅助(OFA)组件,利用帧间时空先验信息指导量化过程,增强模型在复杂场景中区分运动前景的能力,最终在超低位量化下仍能接近全精度模型性能。
综合定量与可视化结果表明,相比现有量化方法,PTQ4VM在不同位宽下均实现了最先进的精度性能。团队特别强调:4位PTQ4VM在获得8倍浮点运算节省的同时,实现了与全精度模型相当的性能。
视频抠像技术旨在精确估计视频序列中每帧前景物体的Alpha遮罩(α∈[0,1])。Alpha遮罩通过合成方程I = αF + (1−α)B定义每个像素的前景不透明度(I为观测像素,F为前景,B为背景)。这一具有挑战性的计算机视觉任务在虚拟现实等领域具有广泛应用。为在资源受限平台上实现实时性能部署,高效的模型表示至关重要,这需要采用先进的模型压缩技术来减少视频抠像模型的计算和内存占用。
模型压缩技术尤其是量化,通过将高精度浮点数转换为低位整数来减小模型规模并加速计算,对于在资源受限设备上部署先进视频抠像模型至关重要。虽然量化感知训练(QAT)通过在训练中模拟量化来获得良好性能,但其需要大量标注数据和计算资源,这对视频抠像任务往往难以满足。
相比之下,后训练量化(PTQ)仅需少量校准数据且无需重新训练即可直接量化预训练模型,在部署效率方面具有显著优势。然而,针对视频抠像模型的专用PTQ研究仍处于萌芽阶段。南京大学,商汤科技,苏黎世联邦理工学院团队致力于系统性地探索将PTQ应用于视频抠像任务的挑战与机遇。
应用PTQ于复杂视频抠像模型主要面临三大挑战:首先,其深层拓扑结构对有限校准数据的依赖常导致PTQ校准过程收敛不稳定;其次,低位宽下量化误差会在网络中传播,导致输出伪影和不确定性增加;另外,用于捕获时间依赖的循环结构对量化噪点特别敏感,可能破坏已学习的时间动态特性,表现为闪烁或抖动现象。为解决所述挑战,研究人员提出了首个专为视频抠像模型设计的PTQ框架。
如表1所示,所提出的PTQ方法在VM和D646数据集的所有评估指标上均展现出显著优势。在8位量化(W8A8)设置下,所提出方法达到了与FP32全精度模型相当甚至部分指标更优的性能;
在更具挑战性的4位量化场景中,当主流PTQ方法出现显著性能下降甚至失效时,所提出方法仍能保持满意的抠像质量和时间一致性,显著优于其他对比方法。例如在VM数据集的W4A4设置下,所提出方法各项Alpha误差指标较次优方法降低约20%。这种在极低位宽下的鲁棒性凸显了团队提出的整体量化框架处理复杂模型和误差累积的优势。
特别值得注意的是在D646数据集上的表现:由于校准集完全源自VM视频数据集,D646对模型而言代表未校准的图像抠像数据。所提出方法在该数据集上仍保持领先的量化性能,这有力证明了所提出方法具有良好的泛化能力,其核心校准策略可有效迁移到不同数据分布和任务特性。总体而言,所提出方法在显著压缩模型规模和降低计算复杂度的同时,保持了视频抠像的精度和时间质量,为PTQ技术在复杂视频处理任务中的实际应用提供了有力支撑。
可视化对比结果(图3a)表明训练框架提升了抠像精度,在复杂曲线和运动细节上表现更优;图3b展示了框架对视频语义理解能力的提升——即使全精度模型有时也难以区分相似的静态背景干扰,但所提出模型能准确识别运动前景,这同样印证了OFA组件的指导作用。
研究人员将GAC模块独立应用于两种先进PTQ算法BRECQ和QDrop。具体而言,先获取BRECQ和QDrop在不同位宽下生成的量化模型,再应用GAC进行微调(优化目标与完整框架第二阶段一致)。
如表2所示,GAC显著增强了BRECQ和QDrop在低位宽(尤其是W4A4)下的各项指标性能。值得注意的是,GAC对BRECQ的性能提升尤为显著,应用后其所有指标均大幅改善,达到与未使用GAC的QDrop相当的水平。这一现象为理解QDrop等通过模拟量化噪点进行优化的方法提供了新视角:QDrop通过训练中的随机扰动学习对统计偏差鲁棒的权重和量化参数,而GAC则通过全局线性变换直接补偿量化引入的统计偏差。
如表2所示,当OFA组件集成到BRECQ和QDrop的第二阶段校准过程时,两种方法的精度均获得进一步提升,这表明OFA提供的时间先验能有效指导框架内的优化过程。
当然,团队坦诚当前方案存在局限性:所提出方法无法完全实现全精度模型的细节捕获能力,且在极低位宽(如1-2位)下模型表征能力的退化仍是挑战。
总的来说,团队提出了首个针对视频抠像任务的有效后训练量化(PTQ)框架。他们提出通用的多阶段量化策略:先通过分块优化实现初始量化,再通过分层线性权重校准优化参数;创新性地引入光流辅助(OFA)组件,不仅显著增强量化模型在长视频序列中的时间一致性,还提升了其视频语义理解能力。
实验表明所提出方法在大幅降低模型计算和存储需求的同时,能保持与全精度模型相当的抠像质量,即使在极低位宽下也展现出卓越的鲁棒性和泛化能力。这项研究为视频抠像模型在资源受限设备上的实际部署提供了可行方案,为复杂视频处理任务的PTQ研究提供了新思路。所述方法同时展示了光流在规范化量化模型微调以实现时间相干视频处理中的有效应用。