多机构团队提出Voyager框架实现端到端3D场景生成与重建
实现端到端的场景生成和重建
(映维网Nweon 2025年09月26日)虚拟现实等应用通常需要能够对用户可沿自定义camera轨迹探索的3D场景进行建模。尽管从文本或图像生成3D对象已取得显著进展,但创建长距离、3D一致、可探索的3D场景依然是一个复杂且具有挑战性的问题。在一项研究中,哈尔滨工业大学,东南大学,腾讯和香港城市大学团队提出了Voyager。这种新颖的视频扩散框架能够根据单张图像和用户定义的camera路径,生成世界一致的3D点云序列。
与现有方法不同,Voyager实现了端到端的场景生成和重建,具有帧间固有的一致性,无需依赖3D重建流程(例如运动恢复结构或多视图立体视觉)。所提出方法集成了三个关键组件:
1) 世界一致视频扩散:一个统一的架构,联合生成对齐的RGB和深度视频序列,并以现有世界观测为条件以确保全局连贯性;2) 长距离世界探索:一个带有点剔除功能的高效世界缓存,以及具有平滑视频采样的自回归推理,用于实现具有上下文感知一致性的迭代式场景扩展;
3) 可扩展数据引擎:一个用于自动化任意视频的相机姿态估计和度量深度预测的视频重建流程,无需手动3D标注即可实现大规模、多样化的训练数据整理。
总的来说,所述设计在视觉质量和几何精度上相比现有方法取得了明显提升,并具有广泛的应用。
创建用户能够无缝导航的高保真、可探索3D场景,为虚拟现实等广泛应用提供了动力。然而,构建这类3D世界的传统工作流程依然受限于人工操作,需要耗费大量精力进行布局设计、资源管理和场景合成。尽管最近的数据驱动方法在生成对象或简单场景方面显示出潜力,但它们扩展到复杂场景的能力受到高质量3D场景数据稀缺的限制。这一差距凸显了对能够实现具有3D一致性的、用户可导航虚拟世界可扩展生成的框架的需求。
最近,越来越多的研究探索了使用新颖视图合成NVS和视频生成作为世界建模的替代范式。这些方法虽然在生成视觉吸引人且语义丰富的内容方面展示了令人印象深刻的能力,但依然面临几个挑战:
1) 长距离空间不一致性:由于缺乏显式的3D结构基础,它们在生成过程中往往难以保持空间一致性和连贯的视点转换,尤其是在生成具有长距离camera轨迹的视频时。
2) 视觉幻象:尽管有的研究尝试利用3D条件来增强几何一致性,但它们通常依赖部分RGB图像作为指导,即从输入视图重建的点云渲染出的新视角图像。然而,这种表示可能在复杂场景中引入显著的视觉幻象,例如图2中不正确的遮挡,这可能会在训练期间引入不准确的监督。
3) 事后3D重建:虽然这些方法可以合成视觉上令人满意的内容,但仍需要进行事后3D重建以获得可用的3D内容。这个过程耗时且不可避免地会引入几何伪影。
为了应对上述挑战,哈尔滨工业大学,东南大学,腾讯和香港城市大学团队提出提出了Voyager,一个旨在从单张图像和用户指定的相机轨迹合成长距离、世界一致的RGB-D(深度)视频的框架。Voyager的核心是一个新颖的世界一致视频扩散模型,它利用可扩展的世界缓存机制来确保空间一致性并避免视觉幻象。
从一张图像开始,通过使用深度图将其反投影到3D空间来构建初始世界缓存。然后,将这个3D缓存投影到目标camera视图中以获得部分RGB-D观测,这可以指导扩散模型保持与累积世界状态的一致性。关键的是,生成的帧会反馈回来更新和扩展世界缓存,创建一个闭环系统,支持任意camera轨迹,同时保持几何连贯性。
与仅依赖RGB条件的方法不同,Voyager显式地利用深度信息作为空间先验,从而在视频生成过程中实现更准确的3D一致性。通过同时生成对齐的RGB和深度序列,框架支持直接的3D场景重建,无需额外的3D重建步骤(如运动恢复结构)。
尽管性能前景看好,扩散模型难以单次生成长视频。为了实现长距离世界探索,研究人员提出了世界缓存方案和平滑视频采样用于自回归场景扩展。世界缓存累积并维护所有先前生成帧的点云,随着视频序列的增长而扩展。为了优化计算效率,他们设计了一种点剔除方法,通过实时渲染检测并移除冗余点,从而最小化内存开销。利用缓存的点云作为代理,团队开发了一种平滑采样策略,可以自回归地扩展视频长度,同时确保片段之间的平滑过渡。
训练这样的模型需要具有准确camera姿态和深度的大规模视频,但现有数据集通常缺乏这些标注。为了解决这个问题,引入一个用于可扩展视频重建的数据引擎,而它可自动估计任意场景视频的camera姿态和度量深度。通过度量深度估计,数据引擎确保了不同来源的深度尺度一致,从而能够生成高质量的训练数据。使用这个流程,团队编译了一个包含超过100,000个视频片段的数据集,结合了真实世界捕获和合成的Unreal Engine渲染内容。
大量实验证明了Voyager在场景视频生成和3D世界重建方面的有效性。受益于联合深度建模,图1中的结果展示了更连贯的几何结构,这不仅支持直接的3D重建,而且支持无限的世界扩展,同时保留原始空间布局。另外,团队探索了3D生成、视频风格迁移和深度估计等应用,进一步展示了Voyager在推进空间智能方面的潜力。
为了验证所提出的设计的有效性,对世界一致视频扩散和长距离世界探索进行了消融研究。
他们在Worldscore基准上分别评估了分三个阶段训练的视频模型,即 (a) 仅在RGB条件下训练的模型,(b) 在RGB-D条件下训练的模型,以及 (c) 附加了额外控制块的模型。如表4所示,在训练中融合深度条件可以显著增强camera控制能力。控制块可以进一步提高生成结果的空间一致性。团队同时在图7中提供了定性结果。仅使用RGB的模型在camera移动到未见过区域时可能会生成不一致的内容。RGB-D模型的结果与输入图像更加一致,但仍可能产生一些微小的伪影。作为对比,最终模型生成了最合理的结果。
图8中评估了点剔除和平滑采样的质量。对于点剔除,存储所有点会引入噪点,而存储不可见区域中的点则不足。带有额外法线检查的结果与存储所有点具有相当的视觉性能,但节省了近40%的存储空间。对于平滑采样,与第一个片段相比,未经采样的视频片段可能会出现不一致。平滑采样确保了连续两个片段之间的无缝过渡。
受益于融合深度的视频生成,Voyager支持各种3D相关应用:
长视频生成 :所提出方法通过高效的世界缓存和平滑视频采样实现长距离视频生成。图6(a)提供了一个由三个视频片段组成的示例,各片段间的camera轨迹完全不同。结果展示了生成视频的相机可控性和空间一致性,证明了方法能够进行长距离世界探索。
图像到3D生成:原生的3D生成模型很难处理多个对象的生成。在图6(b)中,使用三种最先进的3D生成方法Trellis,Rodin v1.5和Hunyuan-3D v2.5来生成一个汽车靠在帐篷上的简单组合。Rodin未能生成帐篷,而Trellis生成了一个有缺失部分的帐篷。Hunyuan成功生成了两个完整的对象,但空间关系不准确,帐篷离汽车太远。团队提出的方法不仅生成了正确的内容,而且产生了更逼真的视觉效果。在侧视图中,帐篷甚至透过车窗可见。
深度一致视频风格迁移:生成具有不同风格且空间一致的视频通常需要训练风格化视频模型。然而,要使用模型达到预期效果,只需替换参考图像,同时保留原始深度条件。如图6(c)所示,可以将原始视频更改为美式风格或夜间风格。
视频深度估计:视频模型天然具备估计视频深度的能力。在图6(d)中,预测的深度可以保留建筑上的细节。
相关论文:Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation
总的来说,团队提出的Voyager是一个用于长距离世界探索的世界一致视频生成框架。所提出的RGB-D视频扩散模型能够生成与输入camera轨迹对齐的空间一致视频序列,允许直接的3D场景重建。这支持自回归且一致的世界扩展。实验证明在生成的视频和点云中都具有高视觉保真度和强空间连贯性。