阿里提出单目立体视频合成框架，突破VR视频内容生成瓶颈

编辑：广东客 | 分类：论文 | 2025年4月23日

加入映维网会员

单目输入的自监督立体视频合成

（映维网Nweon 2025年04月23日）在空间计算和虚拟现实领域，单目输入的立体视频合成是一项要求非常高的任务。主要挑战在于缺乏高质量的成对立体视频用于训练，并且难以保持帧间的时空一致性。现有的方法主要是通过直接将新视图合成NVS技术应用于视频，但面临诸如无法有效表示动态场景和需要大量训练数据等限制。

在一项研究中，阿里巴巴团队介绍了一种新的基于视频扩散模型的自监督立体视频合成范式，称为SpatialDreamer。

首先，针对立体视频数据不足的问题，他们提出了一种基于深度的视频生成模块DVG，采用正向向后渲染机制生成具有几何先验和时间先验的配对视频。

利用DVG生成的数据，团队提出了RefinerNet以及一个自我监督的合成框架，目标是促进高效和专门的训练。更重要的是，他们设计了一个一致性控制模块。模块由立体偏差强度度量和时间交互学习模块TIL组成，并分别用于几何一致性和时间一致性保证。

......（全文 1533 字，剩余 1171 字）

请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限