中外团队研究基于畸变制导的全向图像超分辨率方法GDGT-OSR
在全向图像超分辨率方面达到了最先进的性能
(映维网Nweon 2025年01月21日)随着虚拟现实和增强现实应用的普及,全向图像(ODI)超分辨率变得越来越重要。与在平面形成的二维平面图像不同,ODI投影到球面。所以,将已建立的图像超分辨率方法应用于ODI需要执行等矩形投影(ERP)以将OID映射到平面。ODI超分辨率需要考虑由ERP引起的几何畸变。
然而,由于没有考虑ERP图像的这种几何畸变,以往基于深度学习的方法只能利用有限的像素范围,很容易错过自相似纹理进行重建。
在一项研究中,香港理工大学、深圳大学、英国诺丁汉大学介绍了一种用于全向图像超分辨率的Geometric Distortion Guided Transformer(GDGT-OSR)。
具体而言,他们提出了一种畸变制导的矩形窗口自注意机制,结合变形自注意,可以更好地感知变形,从而涉及更多的自相似纹理。畸变制导是通过一种新设计的畸变制导发生器来实现,可利用畸变在纬度的可变性来产生制导。另外,团队提出了一种动态特征聚合方案来自适应融合来自不同自关注模块的特征。
实验结果表明新的GDGT-OSR优于现有方法。
全向成像又称为360度成像,是开发沉浸式虚拟现实和增强现实应用的基础技术。实际上,全向图像(ODI)是通过头显查看,这意味着视口的范围有限。
为了从狭窄的视场中可视化场景的细节,图像需要具有非常高的分辨率。然而,用于捕获高分辨率ODI的摄像系统非常昂贵,存储和传输高分辨率ODI的成本同样如此。
解决这个问题的一种方法是通过图像超分辨率(SR),利用低分辨率(LR)输入重建高分辨率图像。为了便于存储和传输,原始ODI通常投影成二维平面表示。等矩形投影(ERP)是最常用的表示方法。
对于全向图像超分辨率(ODISR),由于ERP图像拉伸不均匀,畸变方向与正方形窗口形状不一致。例如,ODI中的圆在ERP图像中扭曲成椭圆形。小的方形窗口难以捕获整个椭圆形,而大的方形窗口可能包含不相关的图案。所以,方形窗口自关注是重构ERP图像的次优选择。
矩形窗口可以通过在拉伸变形方向引入更多的自相似纹理来校准和扩展接受野,比正方形窗口更适合于ERP图像的建模。然而,现有的方法无法根据ERP图像的几何畸变对其进行重构,导致涉及像素和自相似纹理的限制。
为了解决这个问题,香港理工大学、深圳大学、英国诺丁汉大学的研究人员提出了一种用于全向图像超分辨率的Geometric Distortion Guided Transformer(GDGT-OSR)。它聚集了不同形状窗口的特征来校准和扩展注意力区域,涉及更多的自相似纹理。
具体来说,他们提出了一种畸变制导矩形窗口自注意(DMRSA)机制,以在一个窗口内考虑ERP图像的更多自相似区域。团队将一种可变形的自我注意机制与DMRSA整合在一起。
自相似必不可少,因为它对HR图像的重建有重要贡献。在DMRSA中,矩形窗口自注意(Rwin-SA)是由新设计的畸变制导发生器(DGG)产生的畸变制导。
DGG考虑了不同纬度几何畸变的可变性。在动态特征聚合中,利用不同形状窗口的信息对两个自关注模块的特征进行动态聚合。为了揭示对涉及区域范围的影响,研究人员采用了Local Attribution Map (LAM)。
如最上方的图1所示,所提出的方法可以利用更大范围的自相似信息和更多像素来恢复红框中的斑块,从而获得更高的Diffusion Index (DI)和更好的SR结果。
相关论文:Geometric Distortion Guided Transformer for Omnidirectional Image Super-Resolution
总的来说,研究人员提出了一种用于全向图像超分辨率的GDGT-OSR。针对ERP图像中的几何畸变,结合畸变制导矩形窗口自注意(DMRSA)机制与畸变感知变形自注意(DDSA)机制来适应不均匀畸变的内容。
通过这种方式,GDGT-OSR从各种形状的注意区域中捕获特征,从而校准注意区域并促进其扩展,捕获更多自相似和相关的纹理。
为了利用畸变映射,团队提出了一种畸变制导发生器(DGG),从而将几何畸变转化为畸变制导,并利用它来调制Rwin-SA中的关键和值特征。另外,通过动态特征聚合(DFA)模块自适应聚合DMRSA和DDSA生成的两个特征。
实验结果表明,GDGT-OSR可以比其他方法还原更多的细节和更丰富的纹理,在全向图像超分辨率方面达到了最先进的性能。