北大、字节团队提出全向图像到视频生成的运动控制方法OmniDrag

编辑：广东客 | 分类：论文 | 2025年5月5日

加入映维网会员

这是一种实现场景和对象级运动控制的方法，并用于精确，高质量的全方位图像到视频生成

（映维网Nweon 2025年05月05日）随着虚拟现实技术的普及，人们对沉浸式动态全向视频（ODV）的可控制作需求日益增加。尽管以前的文本到ODV生成方法取得了令人印象深刻的结果，但由于仅仅依赖文本输入，它们存在内容不准确和不一致的问题。

尽管最近的控制技术为视频生成提供了细粒度控制，但直接将相关方法应用于ODV通常会导致空间失真和不满意的性能，特别是复杂的球面运动。

为了应对相关挑战，北京大学和字节跳动团队提出了OmniDrag。这是一种实现场景和对象级运动控制的方法，并用于精确，高质量的全方位图像到视频生成。

在预训练视频扩散模型的基础之上，研究人员引入了一个全向控制模块。它与时间注意层共同微调，可有效地处理复杂的球面运动。另外，他们开发了一种新的球形运动估计器，以准确地提取运动控制信号，并允许用户通过简单地绘制手柄和目标点来执行拖拽式ODV生成。

......（全文 1876 字，剩余 1498 字）

请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限