意大利研究团队提出基于人眼感知的自适应超分辨率优化方法
将计算努力集中在注视点视觉区域能带来显著的计算节省
(映维网Nweon 2025年09月05日)超分辨率(SR)技术对于在较低带宽下传输高质量内容以及满足虚拟现实和增强现实中的现代显示需求至关重要。遗憾的是,当前最先进的神经网络超分辨率方法计算成本依然高昂。意大利提契诺大学团队认为,可以利用人类视觉系统(HVS)的局限性,有选择性地分配计算资源,即通过低层次感知模型识别出感知上重要的图像区域,并采用计算要求更高的超分辨率方法进行处理,而对重要性较低的区域则使用更简单的方法。
这种方法的灵感来源于内容感知注视点渲染技术 ,它能在不牺牲感知视觉质量的前提下优化效率。用户研究和定量结果表明,团队提出的方法在计算需求上实现了显著降低,且没有可察觉的质量损失。所述技术与具体架构无关,非常适合VR/AR应用,因为将计算努力集中在注视点视觉区域能带来显著的计算节省。
研究人员提出的方法基于两个关键观点。首先,他们注意到神经超分辨率方法在重建高空间频率信息方面的能力取决于模型的复杂性和规模。通过创建超分辨率模型的简化版本,团队得到了更高效的解决方案,但代价是其无法重建高频内容。他们利用在图像数据集上测量得到的衰减曲线(代表不同模型重建不同空间频率的能力,见图2),为特定的一组CNN模型量化了这些权衡关系。
第二个观察结果是,超分辨率模型重建高频内容的必要性取决于局部图像内容以及人眼观察者感知重建内容的能力。例如,某些图像区域由于视觉掩蔽效应导致可见性降低,因此不需要高质量重建。
基于这两个观察,意大利提契诺大学团队提出了一种感知感知的自适应超分辨率方法。所述解决方案针对每个图像区域,首先利用自研的感知模型分析其所需的超分辨率质量,然后应用能够提供足够质量的最有效超分辨率模型。这种感知优化使得团队能够最小化不必要的计算,避免浪费在重建不可感知的空间频率。
在研究中,他们探索了两种平衡超分辨率解决方案速度与质量的方法:网络分支和不同的网络深度。另外,将双三次插值作为重建模型层次结构中的最低级别,以实现最大效率。团队指出,这是首次尝试基于人类视觉系统的需求来优化超分辨率方法。
为评估超分辨率重建质量,研究人员比较了超分辨率输出结果的傅里叶变换幅度与对应空间频率下的ground truth。给定一张真实图像,将其下采样,然后使用超分辨率方法上采样,并计算衰减曲线:
其中 F 表示傅里叶变换,φ 代表超分辨率方法,k 是下采样因子,N 是图像数量。曲线通常在 (0,1) 范围内,表示方法重建各频带的能力。然后,使用自然图像数据集,针对不同 k 值的每个网络变体预先计算了衰减曲线。衰减曲线作为网络性能的高效代理指标,指导为每个图像块选择合适的超分辨率变体。
基于前任的研究,团队使用多尺度拉普拉斯-高斯金字塔对输入图像中的局部亮度对比度 C(f, p) 进行建模,其中 p 是位置,f 是频率。对比度 Cn(f, p) 经过对比敏感度函数归一化,并针对感知掩蔽进一步调整,最终得到以恰可察觉差(JND)为单位的值 Ct(f, p)。
对于每个图像块和频率,寻求人眼视觉系统无法检测到的最大衰减。他们将衰减定义为对比度比值:
其中 C_n, C_t 和 C̃_n, C̃_t 分别是输入图像和上采样图像的对比度值。为确保衰减不可察觉,考虑以下附加约束:
通过代入C_t 和 C̃_t 的表达式,并类似地假设掩蔽项在两种情况下相同,可以推导出:
如果考虑对比度金字塔的三个层级,可以将选定空间频率下的可容忍衰减计算为:
注意,t_i 可以直接使用公式 (4) 从输入图像近似计算出来(作为 t̃_i 的近似值)。接着,对于每个超分辨率网络分支 j,存储一个预先计算好的衰减向量 a
j(超分辨率响应),其中向量在图像数据集上计算得到。图像块的最佳分支是其响应 a
j 最能匹配该块目标衰减 t 的那个分支:
其中 t = [t1, t2, t3](对应不同频率),j 索引候选分支/网络。
研究人员在两种设置中展示了利用感知模型优化超分辨率的方法:一是在VDSR中使用提前退出分支,即针对每个图像块选择最优分支以平衡质量和计算量;二是针对每个图像块在不同深度的EDSR网络中进行选择。
2AFC用户研究(图3)表明,由感知加速方法生成的图像与完整网络生成的图像无法区分,证实了感知无损加速的有效性。值得注意的是,感知模型的计算成本不到上采样所需成本的1%,同时依然能将浮点运算次数(FLOPs)显著降低:对于×2上采样,VDSR降低高达50%,EDSR降低高达78%;对于×4上采样,VDSR降低37%,EDSR降低77%。
通过整合诸如StelaCSF等对比敏感度模型,框架实现了用于VR/AR的注视点跟随超分辨率,仅在感知需要的地方自适应地分配高分辨率(图4)。
未来的研究包括:利用时间对比敏感度函数扩展到视频超分辨率,评估非CNN架构,将感知模型适配到其他图像/视频任务(如去噪、插值),以及评估除FLOPs之外的实际运行时性能。