英伟达发布VideoPanda模型 支持文本或单视图生成360度视频
一种基于文本或单视图视频数据合成360视频的新方法
(映维网Nweon 2025年07月28日)高分辨率全景视频内容对于虚拟现实中的沉浸式体验至关重要,但收集起来并不容易,因为它需要专门的设备和复杂的摄像头设置。在一项研究中,英伟达团队介绍了VideoPanda,这是一种基于文本或单视图视频数据合成360视频的新方法。
VideoPanda利用多视图关注层来增强视频扩散模型,使其能够生成一致的多视图视频,并可以组合成沉浸式全景内容。VideoPanda采用纯文本和单视图视频两种条件联合训练,支持长视频的自回归生成。
为了克服多视点视频生成的计算负担,对训练过程中使用的持续时间和摄像头视图进行随机抽样,并表明模型能够在推理过程中出色地泛化到生成更多帧。对真实世界和合成视频数据集的广泛评估表明,与现有方法相比,VideoPanda在所有输入条件下生成的360度全景图更加逼真和连贯。
在虚拟环境中实现真正沉浸感的一个关键方面是允许用户自由地环顾四周,通过旋转他们的头部并从所有可能的角度探索周围环境。为了实现这样的体验,有必要访问高质量和高分辨率的全景视频。然而,录制这样的视频既昂贵又耗时,因为它需要复杂的摄像头设置和专门的设备。
因此,与单视图视频相比,YouTube或Vimeo等平台可用的全景视频内容依然有限。在这项研究中,英伟达团队的目标是通过开发一个生成模型来解决这个问题:能够从文本提示合成全景视频,或者通过将单视图视频(从Sora等模型生成或录制)扩展为全景格式。
团队认为这是确保沉浸式内容更易于访问和扩展的重要一步。
最近,扩散模型在生成图像方面取得了显著的成功。尽管它们拥有出色的能力,但使用扩散模型生成全景视频提出了重大挑战,主要是由于缺乏高质量的全景视频数据集。另外,虽说在推进标准视频生成管道方面取得了实质性进展,但很少有人尝试将相关技术应用于全景视频生成。现有的方法要么局限于特定的领域,或仅限于生成静态场景。
对于英伟达团队提出的VideoPanda,它是一种能够从文本提示和单视图视频生成高质量全景视频的新方法,并且可以使用自回归创建长视频。所述方案建立在现有视频扩散模型的基础之上,通过添加多视图注意层来生成一致的多视图输出。这样做可以确保输出域(透视图像)保持接近预训练视频模型的原始训练分布(而不是直接生成等矩形投影),从而有助于在生成多个视图的同时保持视频质量。
由此产生的视图然后无缝地拼接在一起,以创建一个连贯的全景视频。团队在一组不同的数据域(包括真实视频和合成视频)评估了模型,并在定量和定性方面证明了与以前的方法相比,而实验证明它的性能和质量都更好。另外,一项用户研究表明,大多数参与者更喜欢VideoPanda生成的视频,而不是来自其他基线模型的视频。
模型设计
团队训练了一个多视点视频扩散模型,在给定文本提示和一组可选的条件帧的情况下,模型能够共同生成多个不同视点方向的多视点一致视频,共同覆盖一个完整的360度全景视频。架构建立在VLDM的基础之上,结合了受MVDream 启发的多视图关注层,并将视图方向嵌入到模型中。
具体来说,他们添加了3D多视图自注意层,可以在视频的每一帧的不同视图的图像执行自注意。这些层与现有的2D自关注层以残差方式结合使用零初始化卷积。为了让模型理解视图方向,使用与latent表示具有相同高度和宽度的射线方向表示,并对每个空间位置的射线方向进行编码。光线是相对于第一个视图的camera姿态定义,并且对全局3D平移和旋转不变。视图嵌入与相应的latent通道连接,并使用零初始化卷积在第一层输入到模型中。
给定一组大小为512 × 512 × 3的目标和可选条件帧,使用变分自编码器(VAE)将每个图像编码为大小为64 × 64 × 4的latent表示。为了实现对特定帧的调节,采用了CAT3D方法。在训练过程中,根据扩散过程对非条件视图对应的潜波进行去噪,而条件框架的潜波基本保持clean。
为了提高鲁棒性并防止过拟合,使用噪点增强,在输入条件电位中添加少量噪点σ,并将该值σ传递给模型。二进制掩码按信道连接,以区分输入潜波和要预测的目标帧。然后训练扩散模型来学习latent表示在输入条件下的联合分布。团队结合了CFG,在训练期间以10%的概率随机丢弃条件反射帧。
最后,研究人员观察到当将噪点调度转向更高的噪点水平时,性能得到了改善,这是因为模型比基本视频模型生成更多的图像帧。他们同时发现,与ϵ-prediction相比,使用v-prediction可以带来更稳定的训练。
训练策略
团队从“Align Your Latents”中提出的预训练文本到视频扩散模型VideoLDM初始化模型。根据之前的研究,将多视图注意层的权值初始化为与现有的2D自注意层相同的权值,以加速训练。
由于研究人员想要调整噪点调度(转向更高的噪点水平),并将模型参数化从ϵ-prediction更改为v-prediction,而不会将模型过度拟合,他们分两个阶段训练模型。在第一阶段,从现有的检查点对单视图文本到视频模型进行微调,使其适应新的噪点调度和损失目标。这个阶段是在原始预训练数据的一个子集进行,其中包含16帧的标准字幕视频,并且需要最少的训练时间,因为模型可以快速适应这些变化。
在第二阶段,冻结视频模型的空间层,并使用多视图视频数据微调其余的空间层。在训练期间,随机化视图和视频帧的数量,以增强模型的泛化,并防止过度拟合有限的360度视频数据,从而有效地将其用作数据增强的一种形式。模型训练成生成以不同大小的视帧矩阵表示的多视图视频序列,如3 × 16、4 × 12、6 × 8和8 × 6。他们把这种随机化称为随机矩阵。这允许模型在推理期间泛化到新的组合,如8 × 16矩阵。
为了处理多个条件反射场景,团队训练了一个通用模型。它可以根据文本、视频或视频和第一帧多视图图像的组合生成多视图视频,并使用多任务训练策略进行自回归生成。具体来说,二进制掩码是随机的,以反映不同的条件设置。图3显示了不同类型的条件作用。
长视频的自回归
生成为了生成长全景视频,团队使用了自回归方法(见图3)。首先,以输入视频的前16帧为条件,模型生成一个8 × 16的视帧矩阵。对于后续的帧,模型的条件是视频的下15个新帧(一列)和前一步生成的所有8个视图(一行)中的最后一帧。这个迭代过程使得能够生成长而连贯的视频序列,具有平滑的过渡和一致的运动。
然而,自回归生成往往会随着时间的推移而累积误差,导致图像质量逐渐下降,并且在几次迭代后出现明显的模糊。所以,之前引入的噪点增强有助于缓解这一问题。这种噪点增强有两个目的:它作为一种数据增强技术来改进泛化,并且它允许模型通过学习从先前迭代中生成的噪点样本中恢复clean信息来进行自纠正。
相关论文:VideoPanda: Video Panoramic Diffusion with Multi-view Attention
总的来说,团队提出的VideoPanda是一个全景视频生成模型。VideoPanda增强了一个预训练的视频扩散模型,并能够生成一致的多视图视频,共同覆盖一个完整的全景视频。研究人员以统一的方式训练VideoPanda,灵活的条件调节支持文本和单视图视频调节,并进一步支持长视频的自动回归生成。
当然,尽管VideoPanda展示了令人信服的结果,但它依然有进一步改进的空间。模型的生成能力受到基础视频模型性能的限制,通过将技术应用于更强大的视频扩散模型可以得到进一步的改进。