北大、字节团队提出全向图像到视频生成的运动控制方法OmniDrag

查看引用/信息源请点击:映维网Nweon

这是一种实现场景和对象级运动控制的方法,并用于精确,高质量的全方位图像到视频生成

映维网Nweon 2025年05月05日)随着虚拟现实技术的普及,人们对沉浸式动态全向视频(ODV)的可控制作需求日益增加。尽管以前的文本到ODV生成方法取得了令人印象深刻的结果,但由于仅仅依赖文本输入,它们存在内容不准确和不一致的问题。

尽管最近的控制技术为视频生成提供了细粒度控制,但直接将相关方法应用于ODV通常会导致空间失真和不满意的性能,特别是复杂的球面运动。

为了应对相关挑战,北京大学和字节跳动团队提出了OmniDrag。这是一种实现场景和对象级运动控制的方法,并用于精确,高质量的全方位图像到视频生成。

在预训练视频扩散模型的基础之上,研究人员引入了一个全向控制模块。它与时间注意层共同微调,可有效地处理复杂的球面运动。另外,他们开发了一种新的球形运动估计器,以准确地提取运动控制信号,并允许用户通过简单地绘制手柄和目标点来执行拖拽式ODV生成。

......(全文 1876 字,剩余 1498 字)


请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/129513
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯