迪肯大学提出S3PO模型实现360度视频超分辨率增强
探索采用基于深度学习的视频超分辨率(VSR)技术增强360度视频
(映维网Nweon 2025年11月06日)全方位视频或360度视频在虚拟现实领域主要用于实现沉浸式交互浏览体验。然而,360度视频有限的空间分辨率导致每度视角无法获得足够的像素表征,从而限制了沉浸式体验的视觉品质。尽管传统视频采用的深度学习视频超分辨率(VSR)技术可提供基于软件的解决方案,但相关技术未能解决360度视频信号在等距柱状投影中存在的畸变问题。另一个障碍是可用于研究的360度视频数据集稀缺。
针对这个问题,澳大利亚迪肯大学团队创建了新型360度视频数据集(360° Video Super-Resolution),并研究了传统VSR模型在360度视频的扩展性。研究人员进一步提出了名为Spherical Signal Super-resolution with a Proportioned Optimisation(S3PO)的新型深度学习模型。S3PO采用具有注意力机制的循环建模,摆脱了对齐等传统VSR技术的束缚。通过专门设计的特征提取器和解决球面畸变的新型损失函数,S3PO在360度视频数据集超越了最先进的传统VSR模型和360度专用超分辨率模型。

360度视频日益普及,正迅速成为虚拟现实多媒体内容的首选格式。这种技术提供360度水平视场角和180度垂直视场角。通过允许用户在虚拟环境中进行最高六自由度的交互,360度视频主要为其观众创造沉浸式体验。相关视频通过多传感器单相机或多台单传感器相机制作,各传感器采集的画面经拼接形成完整全景视图。随后通过映射偏航角和俯仰角,将球面信号投影至矩形平面形成等距柱状投影(ERP)。
尽管存在立方体映射等其他投影形式,但等距柱状投影是目前最广泛使用的方案,同时是本研究采用的格式。图1展示了ERP帧实例,呈现出因球面信号映射到矩形平面而产生的宽广视场角和畸变特性。为达到与传统1080p高清视频相当的浏览体验,YouTube VR推荐360度视频需具备3840×2160(=[1920×1080]×4)像素分辨率。鉴于更广阔的视平面,360度视频需要传输比传统视频多8倍的数据量才能达到相近的感知质量。为模拟人类生物视觉感知,每度视角需要60个像素进行表征。这意味着真正沉浸式体验需要21,600像素来呈现360度水平视场角。因此制约360度视频在沉浸式场景中应用的关键因素在于格式的空间分辨率。
为弥补这一缺陷,澳大利亚迪肯大学团队探索采用基于深度学习的视频超分辨率(VSR)技术增强360度视频。传统视频VSR技术的最新进展表明,其能够将低分辨率视频增强至最高4倍分辨率。这种专为360度视频场景设计的软件解决方案,可解决该领域空间分辨率相关的局限性。
为此,研究人员探索通过360度视频超分辨率实现等距柱状投影4倍空间分辨率提升。为验证相关技术,他们创建了新型360度视频数据集以评估模型在超分辨率任务中的性能。他们提出的360度视频数据集包含590个ERP格式视频片段,具有多样化的空间指数和时间指数。

他们进一步提出名为S3PO的新型深度学习360度视频超分辨率模型,可通过针对性循环架构、360度特征提取器和新型损失函数优化来解决现有VSR模型的局限性。实验评估表明,虽然传统VSR模型在360度视频上表现良好,但通过针对性建模和训练可进一步提升性能。在传统信号和360度信号专用质量评估体系中,S3PO模型超越了现有最先进的传统及360度VSR模型。
团队的主要贡献可总结为:
开发了具有更丰富时空语境的新型360度视频数据集,为360度VSR算法提供基准平台;
研究了传统VSR模型在360度视频上的扩展性
提出新型深度学习360度VSR模型S3PO,其特点包括:a) 融合滑动窗口和双通道残差块的混合循环架构,有效利用局部与全局信息;b) 配备注意力机制的全景专用特征提取器,实现局部特征提取和信息补充;c) 将超分辨率任务从传统视频域适应至360度视频域;d) 加权球面平滑L1损失函数实现畸变感知超分辨率;
在现有及新型360度视频数据集上实现最先进的超分辨率性能
相关论文:Omnidirectional Video Super-Resolution using Deep Learning
总的来说,研究证实了传统视频超分辨率(VSR)模型在360度视频能取得满意效果。为确保适用于360度多媒体底层计算机视觉系统的多样化训练和测试条件,他们组建并描述了新型数据集。传统VSR模型适用于全向视频,因为等距柱状投影(ERP)帧与传统视频帧格式相似。然而,由于360度视频存在垂直轴畸变和水平轴循环连续性,ERP帧内的数据具有独特性。
针对ERP特性,团队提出新型360度VSR模型(S3PO),其具备ERP专用架构、特征提取器和优化器。实验评估和消融研究证实,S3PO模型凭借360度内容专用架构子组件、域适应训练和畸变感知损失优化的协同优势,实现了超分辨率性能的卓越表现。
尽管S3PO模型未采用对齐等传统VSR步骤,其性能仍超越包括采用对齐技术在内的最先进超分辨率模型。S3PO模型和360VDS数据集为未来360度多媒体研究开辟了新机遇。可进一步研究隐式/显式对齐技术的扩展应用,通过适当调整对齐策略来适应ERP帧的畸变和循环特性。另外,可评估S3PO质量增强对体验质量的影响,以深入理解模型如何改变用户对360度多媒体的感知与消费体验。


