中科院、北大、字节团队研发全向视频超分技术,突破投影畸变与闪烁难题
时空畸变感知网络
(映维网Nweon 2025年04月03日)全向视频ODV你提供了沉浸式的视觉体验,在虚拟现实和增强现实中得到了广泛的应用。但由于捕获设备和传输带宽的限制,导致ODC的分辨率较低。为了提高视频分辨率,业界提出了视频超分辨率(SR)技术,但现有方法不能很好地直接解决实际的ODV空间投影失真和时间闪烁问题。
为了更好地实现ODV- SR重构,中国科学院大学、字节跳动和北京大学团队提出了一种面向ODV特征的时空畸变感知网络(STDAN)。
具体来说,研究人员引入了空间连续失真调制模块来改善离散投影失真。接下来,他们设计了一种交错多帧重建机制来优化帧间的时间一致性。另外,在训练过程中加入了纬度显著性自适应权值,以专注于具有更高纹理复杂性和目标区域。
大量的实验结果表明,所提出的解决方案优于目前最先进的方法。
全向视频ODV又称为360度视频或全景视频,并已广泛应用于娱乐,数字创意,广告,智能驾驶和视频会议等各个领域。为了确保真实的印象,ODV的分辨率应该是4K、8K,甚至更高。
遗憾的是,捕获和传输ODV的昂贵成本限制了它们的分辨率,这损害了感知质量。
视频超分辨率(VSR)是一种从低分辨率(LR)帧重建高分辨率(HR)帧的任务。与普通视频相比,ODV需要从球面到平面的额外投影以进行后续处理。这样的操作不可避免地引入了不均匀的像素拉伸。同时,无缝球形ODV分割成带有边界的矩形,影响了空间一致性。
所以,传统的VSR模型无法处理ODV。在实际应用中,从3D到2D的ODV投影方法包括等矩形投影(ERP)、立方体投影(CMP)、二十面体投影(ISP)和等角立方体投影(EAC)等。
尽管越来越多创新的投影方法提出,ERP依然是最为常用,因为它的低计算复杂度和广泛的适应性。ERP ODV坐标(u, v)由球坐标(ρ, θ, ϕ)计算。ERP引起与纬度有关的非均匀畸变,特别是在极地地区。同时,离散的边缘破坏了球面相邻像素的一致性。
随着深度学习在计算机视觉领域的成功,基于深度学习的VSR模型已经取代了插值方法。目前的VSR研究能够以更高的分辨率重建正常视频。然而,它们并没有进行修改以解决ODV LR的投影失真限制。同时,新兴的基transformer架构导致了计算量的显著增加,限制了应用场景。
为了解决空间扭曲和时间不一致的问题,中国科学院大学、字节跳动和北京大学团队提出了一个用于ODV-SR的时空扭曲感知网络(STDAN)。
在STDAN中,采用空间可变形卷积网络(DCN)和柱面位置编码方案来调制投影拉伸和不连续边界。随后,引入隔行多帧重构模块来保持时间稳定性。同时,在损失函数内计算纬度显著性自适应权重以集中于显著区域。
另外,研究人员收集了一个新的ODV-SR数据集,包括不同的场景,包括虚拟序列。客观指标和主观评价都充分证明了我们的STDAN优于现有的方法。
相关论文:Spatio-Temporal Distortion Aware Omnidirectional Video Super-Resolution
总的来说,研究人员提出了面向全向视频超分辨率(ODV-SR)的时空失真感知网络(STDAN)。首先,他们设计了一个空间连续失真调制模块,利用柱面位置编码来抵消时空畸变和不连续。接下来,团队提出了一个隔行多帧重建模块,以增强恢复的ODV的时间一致性。
最后,引入了一个纬度显著性自适应模块来衡量具有视觉敏感纹理和目标区域。他们进一步收集了不同的ODV-SR数据集,并对其进行了综合实验。在不同数据集的大量实验结果表明,STDAN实现了最佳的ODV-SR性能,并且具有更快的速度和真实视点增强的应用友好性。