北大、字节团队提出全向图像到视频生成的运动控制方法OmniDrag
这是一种实现场景和对象级运动控制的方法,并用于精确,高质量的全方位图像到视频生成
(映维网Nweon 2025年05月05日)随着虚拟现实技术的普及,人们对沉浸式动态全向视频(ODV)的可控制作需求日益增加。尽管以前的文本到ODV生成方法取得了令人印象深刻的结果,但由于仅仅依赖文本输入,它们存在内容不准确和不一致的问题。
尽管最近的控制技术为视频生成提供了细粒度控制,但直接将相关方法应用于ODV通常会导致空间失真和不满意的性能,特别是复杂的球面运动。
为了应对相关挑战,北京大学和字节跳动团队提出了OmniDrag。这是一种实现场景和对象级运动控制的方法,并用于精确,高质量的全方位图像到视频生成。
在预训练视频扩散模型的基础之上,研究人员引入了一个全向控制模块。它与时间注意层共同微调,可有效地处理复杂的球面运动。另外,他们开发了一种新的球形运动估计器,以准确地提取运动控制信号,并允许用户通过简单地绘制手柄和目标点来执行拖拽式ODV生成。
......(全文 1876 字,剩余 1498 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限