清华等团队推出Video4DGen框架实现动态4D时序三维内容生成

查看引用/信息源请点击:映维网Nweon

凭借其在4D与视频生成方面的能力,Video4DGen为虚拟现实等领域提供了一个功能强大的创作工具

映维网Nweon 2025年07月17日)随着4D(即时序三维)生成技术的发展,人们在各类应用中得以实现更加真实的沉浸式体验,用户可以从任意视角探索动态对象或角色。同时,视频生成模型因其生成真实且富有想象力的画面能力而受到高度关注,这类模型同时展现出良好的三维一致性,具备充当“世界模拟器”的潜力。

在一项研究中,清华大学,生数科技,同济大学和香港科技大学团队提出了Video4DGen,这个全新框架能够从单个或多个生成视频中构建4D表示,同时可以用于生成受4D内容引导的视频。所述框架对于创建在时空维度均保持高度一致性的高保真虚拟内容具有关键意义。

Video4DGen生成的4D输出采用研究人员提出的动态高斯面元(Dynamic Gaussian Surfels, DGS) 表示形式。通过优化时变形变函数,DGS将静态状态下的高斯面元转换为动态变形状态。团队设计了针对变形状态的几何正则化与外观细节优化机制,以保持结构完整性和高质量纹理表现。

为实现多视频驱动的4D生成,并捕获跨空间、时间与姿态维度的一致表示,他们进一步提出了多视频对齐机制、根姿态优化策略以及基于姿态的帧采样方法。通过连续形变场的引入,系统可对每个视频中的姿态、运动与形变实现精细表达。 同时,为了提升从各视角观察下的整体真实感,Video4DGen支持基于4D内容的新视角视频生成,并引入 置信度过滤的DGS(confidence-filtered DGS) 机制来提升合成序列的质量。

研究人员表示,凭借其在4D与视频生成方面的能力,Video4DGen为虚拟现实等领域提供了一个功能强大的创作工具。

市场对引人入胜的交互式数字环境的需求日益增长,这提高了生成逼真的、动态的多模态内容的重要性,例如4D和视频。这种动态的多模态生成过程通常不仅涉及捕获空间和视觉细节,同时涉及捕捉运动的时间动态,这对于确保对象或场景在多个帧和视点之间流畅和一致地移动至关重要。

最近,视频生成模型因其卓越的制作身临其境和栩栩如生的框架的能力而引起了人们的注意。模型产生视觉上令人惊叹的内容,同时表现出强大的3D一致性,在很大程度上增加了它们模拟现实环境的潜力。与发展相平行的是,4D重建在多个方面取得了长足的进步,这涉及捕获和渲染详细的时空信息。当与生成视频技术集成时,这项技术有可能创建捕获静态场景和动态序列的模型。这种合成提供了逼真的整体表现,对虚拟现实等应用至关重要。

尽管取得了进步,但基于视频生成模型实现高保真的4D重建依然面临着巨大的挑战。其中一个主要问题是生成的视频中经常出现的非刚性和帧失真,这会破坏生成的4D内容的时间一致性和空间一致性。应用现有4D方法生成的视频通常难以保持跨帧和视点的平滑过渡,导致失真和伪影,如闪烁和失准。

另外,从新颖视点生成可信的4D内容,特别是对于原始输入中未捕获的区域依然是一个未解决的挑战。同时,大多数生成的视频缺乏明确的camera姿态信息,而现有的最先进4D方法需要准确的camera姿态来正确对齐时空结构。

为了应对上述挑战,清华大学,生数科技,同济大学和香港科技大学团队提出了Video4DGen,这是一个多模态动态生成框架,用于联合执行4D生成和4D引导视频生成。

Video4DGen优化了各种姿态和运动尺寸的外观和几何形状,确保了整个生成过程中空间和时间的一致性。框架引入了一种新的四维表示——动态高斯面元(Dynamic Gaussian Surfels, DGS),并通过特殊设计的场初始化来增强。它具有两个关键阶段:从单个或多个生成视频生成4D和由4D表示引导的新视图视频生成。

具体而言,所提出的DGS优化了非刚性翘曲函数,将高斯面元从静态状态转换为动态翘曲状态。这种动态转换准确地表示随着时间推移的运动和变形。另外,DGS在另外两个关键方面表现出优越的4D表示性能。

首先,在几何方面,DGS遵循高斯面元原理,以实现精确的几何表示。与现有的方法不同,DGS结合了翘曲状态法线一致性正则化,使面元与具有可学习的连续场的实际表面对齐,以确保在估计法线时平滑翘曲。

其次,对于外观,DGS通过双分支结构对高斯曲面的旋转和缩放参数进行了额外的细化。这种细化减少了翘曲期间闪烁的伪影,并允许精确渲染外观细节,从而产生高质量的4D表示。

为了克服这一挑战,团队将场初始化作为管道中的一个关键组件引入。为了建立DGS的连续翘曲场,他们设计了场初始化,保证快速稳定的收敛。通过这个初始化,Video4DGen能够从单个生成的视频中实现高保真4D生成。在将单视频生成扩展到多视频生成的过程中,团队设计了静态共享、连续根姿态优化和姿态引导帧采样等关键机制。

静态共享通过为静态状态保留一组一致的DGS来保持主题结构和外观的一致性。根姿态优化将主体的全局转换与静态状态跨帧对齐,纠正不匹配并确保平滑过渡。Video4DGen利用神经连续场进行局部和全局姿态调整。另外,姿态引导的帧采样增强了姿态多样性,同时避免了训练过程中特定姿态的过拟合。多视频生成可以提高全视域4D生成的质量。

Video4DGen同时引入了一种新的4D引导视频生成方法,通过整合运动和视点的不同组合来增强视频生成过程。它采用了两个关键策略。首先,经过置信度过滤的DGS机制使用法向对齐来评估像素的可靠性,并且只在输出中包含高置信度区域。其次,新视点视频生成对高置信度区域进行逐级去噪细化,对低置信度区域进行变换,保证平滑过渡。

总之,所述策略提高了生成视频的整体清晰度和连贯性。视频生成器具有新颖的功能,如“多摄像头”视频生成,其中从任何视点同时捕获相同的运动序列和具有大姿态变化的视频生成。4D引导视频生成反过来又增强了4D生成。

基于生成视频的大量实验验证了所提出方法的有效性。团队同时提供了对象级基准和现实场景级基准的定量和定性比较。结果表明,框架在视觉质量和几何细节方面都具有优越的性能。

相关论文Video4DGen: Enhancing Video and 4D Generation through Mutual Optimization

https://arxiv.org/pdf/2504.04153

Video4DGen这个全新框架共同解决了两个相互关联的任务:从生成视频生成4D,4D引导视频生成。团队同时提出动态高斯面元(DGS)作为Video4DGen中的4D表示,以在翘曲期间保持高保真的外观和几何形状。实验验证了Video4DGen在定量指标和定性评估方面都优于现有方法,突出了其在生成逼真沉浸式4D内容和4D引导视频内容方面的优势。

当然,尽管使用DGS的Video4DGen在4D生成中表现出了显著的性能,但目前依然存在对视频质量依赖、大场景可扩展性挑战、以及实时应用中的计算困难等局限性。另外,当为Video4DGen配备生成模型时,就像使用任何生成技术一样,会存在生成欺骗性内容的风险,所以需要更加谨慎。

本文链接https://news.nweon.com/131100
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯