雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

阿里提出单目立体视频合成框架,突破VR视频内容生成瓶颈

查看引用/信息源请点击:映维网Nweon

单目输入的自监督立体视频合成

映维网Nweon 2025年04月23日)在空间计算和虚拟现实领域,单目输入的立体视频合成是一项要求非常高的任务。主要挑战在于缺乏高质量的成对立体视频用于训练,并且难以保持帧间的时空一致性。现有的方法主要是通过直接将新视图合成NVS技术应用于视频,但面临诸如无法有效表示动态场景和需要大量训练数据等限制。

在一项研究中,阿里巴巴团队介绍了一种新的基于视频扩散模型的自监督立体视频合成范式,称为SpatialDreamer。

首先,针对立体视频数据不足的问题,他们提出了一种基于深度的视频生成模块DVG,采用正向向后渲染机制生成具有几何先验和时间先验的配对视频。

利用DVG生成的数据,团队提出了RefinerNet以及一个自我监督的合成框架,目标是促进高效和专门的训练。更重要的是,他们设计了一个一致性控制模块。模块由立体偏差强度度量和时间交互学习模块TIL组成,并分别用于几何一致性和时间一致性保证。

与各种基准方法进行的比较结果显示了其优越的性能。

单目输入立体视频合成的目的是在给定视图的基础上生成具有几何和时空一致性的目标视图视频,在Apple Vision Pro等虚拟现实内容中有着广泛的应用。任务的主要困难在于缺乏足够的高质量成对立体视频用于训练,以及保持两个视图之间的几何一致性以及保持生成帧之间的时间一致性。

生成立体内容的传统方法包括使用双摄像头设置捕获场景。然而,图像的获取涉及使用专业级摄像头,导致大量的成本。

深度学习的最新进展主要是通过直接将单目到立体或多视角图像生成技术应用于视频来解决所述问题,但经常面临与几何和时空不一致性相关的挑战。

如图1所示,基于NVS的方法难以保持准确的时空一致性,这是因为在复杂的动态场景中,帧之间的时间一致性和成对视图之间的空间信息难以处理。

在研究中,阿里巴巴团队提出了一种基于视频扩散模型的自监督立体视频合成范式,称为SpatialDreamer,而它可以同时解决数据不足和时空不一致的问题。

首先,团队设计了一个基于深度的视频数据生成模块DVG来解决数据不足的问题。在不需要数据标注的情况下,DVG采用正向向后渲染的方式构建两个视图的训练对。

另外,他们利用光流获得的帧间运动来改进视频数据的生成,以细化立体遮挡遮罩。这种方法使DVG能够产生保持几何和时间一致性的成对视频数据。利用DVG生成的配对视频,团队进一步提出了RefinerNet,以及一个自我监督的视频合成框架,以实现高效和有针对性的训练。

更重要的是,通过访问足够的配对视频,他们设计了一致性控制模块。其中,模块由立体偏差强度度量和时间交互学习模块TIL组成。立体偏差强度的目的是为了在不同的现实场景中生成立体视频。

系统进一步利用立体感知损失来监督模型学习latent空间中成对视图特征之间的差值大小。TIL将来自长时间帧的潜在特征集成为全局信息,以增强生成结果的时间相干性。

团队指出,训练过程分为两个阶段。在第一个训练阶段,专注于视频中的单个帧。对U-Net去噪中的时间层进行冻结,去掉TIL模块。RefinerNet模型和去噪U-Net分别使用SD2.1和SVD的预训练权值进行初始化。

变分自编码器、编码器和解码器以及对比语言图像预训练(CLIP)图像编码器的权值均保持固定。这一阶段的目的是让模型在有参考图像和新的视点姿态的情况下学习合成新的视点图像。在第二阶段,用视频序列训练时序层和TIL模块。这使模型能够有效地捕获时间上下文信息。

大量的实验与各种基准方法的比较表明,它达到了最先进的性能。值得注意的是,SpatialDreamer满足了现实世界应用的需求,没有抖动,几何和时间不一致。

相关论文SpatialDreamer: Self-supervised Stereo Video Synthesis from Monocular Input

总的来说,团队介绍了一种使用视频扩散模型的自监督立体视频合成方法,称为SpatialDreamer。所述方法解决了数据不足和帧间时空不一致的问题。

其中,为了解决数据不足的问题,开发了一个基于深度的视频生成模块,使用正向向后渲染机制来生成具有几何和时间先验的渲染视频。另外,提出RefinerNet以及一个自监督合成框架,以便使用DVG生成的数据进行高效和专用的训练。同时,他们还设计了一致性控制模块,以确保几何和时间的一致性。

SpatialDreamer优于所有其他开源立体图像和视频合成方法,并有可能在未来扩展到虚拟现实应用中。

本文链接https://news.nweon.com/129307
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯