清华大学提出从单图像生成360度高质量连贯视频的新方法
为虚拟现实等领域的多媒体应用铺平了道路
(映维网Nweon 2024年11月29日)在一项研究中,清华大学团队提出了一种从单个图像生成360度高质量,时空连贯人类视频的新方法。所述框架结合了diffusion transformer在捕获跨视点和时间全局相关性的优势,以及CNN用于精确条件注入的优势。
解决方案的核心是一个hierarchical 4D transformer架构,它可以将自关注分解为视图、时间步长和空间维度,从而实现对4D空间的高效建模。通过将人的身份、camera参数和时间信号注入各自的transformer,可以实现精确的调节,并且克服了以前基于生成对抗网络或vanilla diffusio模型的方法的局限性
为了训练这个模型,团队收集了一个多维数据集,包括图像、视频、多视图数据和有限的4D镜头,以及量身定制的多维训练策略。大量的实验证明了所述方法能够合成360度逼真,连贯的人体运动视频,从而为虚拟现实等领域的多媒体应用铺平了道路。
人身视频生成是视频生成领域的一个活跃研究课题,它在虚拟现实等领域有着广泛的应用。另外,生成逼真的真人视频对于推进多媒体技术和实现新形式的人机交互具有重要意义。
最近,随着diffusion模型的快速发展,利用diffusion模型生成人类视频已成为主流方法。为了将人类先验作为控制条件纳入diffusion模型,有研究人员采用了基于骨架的方案,而其他方法则基于SMPL身体模型模板,将SMPL衍生的表示或直接密集姿态嵌入注入diffusion模型。
目前基于CNN架构的人类视频diffusion模型可以以像素对齐的方式向网络注入控制条件。然而,UNet对局部卷积操作的依赖使其更侧重于局部生成,导致全局方面的性能相对较差,特别是在生成长而复杂的人体动作时。
另外,相关方法只考虑人体本身,忽略了camer视角的视点信息,特别是对于360度人身视频生成等视点变化较大的场景。
将视点控制信号整合到网络中,同时保持不同视点和时间之间的一致性,这是一个重大挑战。为了克服跨视图和时间生成复杂人体运动的挑战,清华大学团队提出了一种结合CNN和diffusion transformer优势的视频生成网络架构。
首先,利用3D SMPL模型而不是2D骨架图来有效地整合视图信息和跨多个视点的对应关系。所述方法使用normal human map的渲染作为鲁棒的视图依赖制导,随后通过基于CNN的编码器进行处理,以鼓励网络捕获与视图相关的信息,并精确地注入像素对齐的条件。
然而,在使用基于CNN的架构生成长视频时,如何保证时间一致性依然是一个挑战。最近,OpenAI最近在长视频生成方面的研究采用了diffusion transformer架构,并比基于CNN的模型展示了更好的真实感和时空相干性。
受其启发,研究人员推出了一个用于人类视频生成的4D diffusion transformer,它不仅具有更大的可扩展性潜力,而且展示了学习复杂360度人类视频生成的能力。通过采用不同维度的统一注意力机制,4D DiT可以有效地构建不同视角和时间的时空对应关系,从而保持生成的人类视频的时空一致性。
然而,直接应用diffusion transformer来学习视图和时间的相关性在计算成本方面令人望而却步。所以,团队提出了一种高效的新型4D transformer结构。其核心原理是通过自关注来级联学习四维空间(视图、时间、高度、宽度)的相关性。
具体来说,他们将4D diffusion transformer分解为三个transformer块:2D图像transformer块、时间transformer块和视图transformer块,每个transformer块都关注4D空间的不同维度。这三种类型的块相互连接,形成一个4D transformer块。然后将多个这样的4D transformer块级联以构建最终的4D transformer。这有效地捕获了跨视点(视图)和时间步长(时间)的身体部位(高度、宽度)之间的相互关系。
为了增强4D diffusion transformer在SMPL运动之外的可控性,研究人员在各自的网络模块中集成了额外的控制信号,包括人的身份、时间信息和camera参数。通过CLIP和基于CNN的编码器提取的人类身份嵌入和latent token合并到图像transformer中。从camera参数导出的camera嵌入集成到视图transformer中,而时间嵌入被集成到时间transformer中。
通过所述模块,可以有效地将各种控制条件注入到网络中,以便于视点操纵和生成高保真、一致的人类视频。另外,为了训练所提出的4D diffusion transformer模型,团队同时收集了一个大型多维数据集,并设计了一个多维训练策略,以充分利用所有可用的数据模式。
所述多维数据集包括图像,视频,多视图视频,3D扫描,以及跨越不同视点和时间步长的有限数量的4D扫描。在推理阶段,他们提出了一种时空一致的diffusion采样策略,以在有限的时空窗口约束下生成长360度视频。策略分两个阶段实施。第一阶段将360度视频视为单目长视频序列,最大化时间窗口以确保长期时间一致性。第二阶段将360度视频视为多视点视频剪辑的集合,使用较大的视点窗口和较小的时间窗口,以鼓励视点之间的一致性。
相关论文:Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer
总的来说,团队提出了一种新的人体视频生成方法:仅将单个图像作为输入,并在360度视点下生成动态人体运动的时空相干视频。所述解决方案采用了一种高效的4D transformer架构来建模跨多个领域的相关性,包括视图、时间和姿势。
结合UNets进行精确的条件注入,模型可以在多维数据集上进行训练。经过训练,方法可以合成360度逼真,连贯的人体运动视频。
当然,团队坦诚,所述方法不是生成显式4D模型,而是直接从给定的视点合成2D视频,并通过注意机制隐式编码4D场景结构。在渲染360度视频时,缺乏明确的4D表示会导致一定的伪影。