北大、字节团队提出全向图像到视频生成的运动控制方法OmniDrag
这是一种实现场景和对象级运动控制的方法,并用于精确,高质量的全方位图像到视频生成
(映维网Nweon 2025年05月05日)随着虚拟现实技术的普及,人们对沉浸式动态全向视频(ODV)的可控制作需求日益增加。尽管以前的文本到ODV生成方法取得了令人印象深刻的结果,但由于仅仅依赖文本输入,它们存在内容不准确和不一致的问题。
尽管最近的控制技术为视频生成提供了细粒度控制,但直接将相关方法应用于ODV通常会导致空间失真和不满意的性能,特别是复杂的球面运动。
为了应对相关挑战,北京大学和字节跳动团队提出了OmniDrag。这是一种实现场景和对象级运动控制的方法,并用于精确,高质量的全方位图像到视频生成。
在预训练视频扩散模型的基础之上,研究人员引入了一个全向控制模块。它与时间注意层共同微调,可有效地处理复杂的球面运动。另外,他们开发了一种新的球形运动估计器,以准确地提取运动控制信号,并允许用户通过简单地绘制手柄和目标点来执行拖拽式ODV生成。
团队同时提出了一个名为Move360的新数据集,以解决大型场景和物体运动的ODV数据稀缺性。
在实验中,结果证明了OmniDrag在实现ODV生成的整体场景级和细粒度对象级控制方面的显著优势。
全向视频( ODV)又称为360度或全景视频,由于其沉浸式和交互能力以及在虚拟和增强现实中的广泛应用而受到越来越多的关注。
在实际场景中,全向视频的捕获流程在时间和硬件资源方面都十分昂贵。所以,迫切需要开发合适的ODV生成方法。在二维视频生成领域,大多数基于扩散的模型都利用大规模训练数据和大量计算资源学习到的强大的生成先验而取得了巨大的成功。对于ODV生成,360DVD引入了一个即插即用的360-Adapter来实现文本到ODV的合成。
然而,这种范式仅仅依赖于文本输入,往往提供了过于宽泛的生成自由,无法精确确定视频帧,导致内容控制不准确和不一致。尽管360DVD提供了基于光流的控制,但对于用户而言,获得ODV光流是一个挑战,从而限制了它的实用性。
最近,基于轨迹的运动控制已经成为一种更加用户友好和有效的可控视频生成解决方案。与光流或深度图等其他控制信号相比,绘制轨迹提供了一种简单而灵活的方法。基于这种方法,诸如DragNUWA、MotionCtrl和DragAnything等将稀疏轨迹或camera运动编码到latent空间中,以有效引导对象运动。
尽管有所述先进的2D视频合成方法,但将它们直接应用于ODV生成存在三个重大挑战:首先,与控制传统2D视频不同,ODV中的运动模式通常是球形,而传统2D视频通常涉及简单的运动。先前在此任务中应用的方法可能导致生成结果的空间扭曲,因为它们无法模拟复杂的球面运动。
其次,由于ODV通常以等矩形投影(ERP)格式存储,控制它们比控制2D视频更困难,因为在ERP图像绘制合理而精确的球面运动轨迹对人类用户来说是一个挑战。
第三,现有ODV数据集包含的样本运动幅度有限,当面对用户对更大运动范围的要求时,深度可控ODV生成模型的有效性受到限制。
为了解决所述问题,北京大学和字节跳动团队提出了OmniDrag。这种方法基于强大的预训练视频扩散模型实现全方位图像到视频生成的运动控制。如图1所示,OmniDrag通过简单的用户输入实现了高质量、可控的ODV生成,使用统一的模型实现了场景级和对象级的拖拽式控制。
在OmniDrag中,团队引入了一个全向控制器,它将轨迹作为输入,以提供细粒度的运动可控性。有效地学习复杂的球面运动。
在ODV中,研究人员建议与控制器共同微调时间注意力组件。为了精确、简便地控制运动,他们开发了一种新的球面运动估计器(SME)。在训练过程中,SME使用等面积等纬度球面点初始化追踪目标运动,并通过基于球面距离的滤波器进行采样,均匀准确地捕获重要运动。
在推理过程中,SME通过球面插值估计运动轨迹,允许用户只提供手柄和目标点。另外,团队引入了一个名为Move360的高质量ODV数据集,其具有显著的场景级和对象级运动。Move360包含1500多个不同场景的视频片段,由安装在拍摄车的Insta360 Titan拍摄。实验表明,在Move360的训练增强了OmniDrag的场景级移动能力。
为了验证OmniDrag中提出的组件的有效性,团队进行了实验研究。团队通过只在WEB360数据集训练OmniDrag来评估另一个变体。尽管变体获得了更好的FID结果,但其运动控制性能较差。
结果进一步说明,若没有包含高质量运动的数据集的训练,由于运动多样性不足,模型无法提供场景级的可控性。相比之下,使用Move360数据集进行训练可以实现准确和稳定的场景级控制,显著增强模型的功能。
相关论文:OmniDrag: Enabling Motion Control for Omnidirectional Image-to-Video Generation
总的来说,OmniDrag是一种基于扩散的方法,用于在全方位图像到视频生成中实现运动控制。他们引入了一个Omni控制器,它接收球面轨迹作为输入,允许简单的拖拽式控制。
为了有效地学习复杂的球面运动模式,研究人员提出在扩散去噪UNet中对控制器和时间层进行联合微调。另外,他们设计了一个球形运动估计器,以在训练过程中捕获准确的控制信号,并在推理过程中提供用户友好的交互。
同时,Move360这个新的高质量ODV数据集具有重要的运动内容,增强了OmniDrag的场景级可控性。实验表明,OmniDrag在场景和对象级运动控制方面都达到了最先进的性能。
当然,尽管OmniDrag取得了令人满意的结果,但在特定场景下,其生成质量受到基本SVD模型的约束。另外,解耦camera和对象级运动是未来研究的一个开放问题。
项目页面请访问这里。