清华大学提出从单图像生成360度高质量连贯视频的新方法

编辑：广东客 | 分类：论文 | 2024年11月29日

加入映维网会员

为虚拟现实等领域的多媒体应用铺平了道路

（映维网Nweon 2024年11月29日）在一项研究中，清华大学团队提出了一种从单个图像生成360度高质量，时空连贯人类视频的新方法。所述框架结合了diffusion transformer在捕获跨视点和时间全局相关性的优势，以及CNN用于精确条件注入的优势。

解决方案的核心是一个hierarchical 4D transformer架构，它可以将自关注分解为视图、时间步长和空间维度，从而实现对4D空间的高效建模。通过将人的身份、camera参数和时间信号注入各自的transformer，可以实现精确的调节，并且克服了以前基于生成对抗网络或vanilla diffusio模型的方法的局限性

为了训练这个模型，团队收集了一个多维数据集，包括图像、视频、多视图数据和有限的4D镜头，以及量身定制的多维训练策略。大量的实验证明了所述方法能够合成360度逼真，连贯的人体运动视频，从而为虚拟现实等领域的多媒体应用铺平了道路。

清华大学提出从单图像生成360度高质量连贯视频的新方法