多机构团队提出Voyager框架实现端到端3D场景生成与重建

编辑：刘余欣 | 分类：论文 | 2025年9月26日

加入映维网会员

实现端到端的场景生成和重建

（映维网Nweon 2025年09月26日）虚拟现实等应用通常需要能够对用户可沿自定义camera轨迹探索的3D场景进行建模。尽管从文本或图像生成3D对象已取得显著进展，但创建长距离、3D一致、可探索的3D场景依然是一个复杂且具有挑战性的问题。在一项研究中，哈尔滨工业大学，东南大学，腾讯和香港城市大学团队提出了Voyager。这种新颖的视频扩散框架能够根据单张图像和用户定义的camera路径，生成世界一致的3D点云序列。

与现有方法不同，Voyager实现了端到端的场景生成和重建，具有帧间固有的一致性，无需依赖3D重建流程（例如运动恢复结构或多视图立体视觉）。所提出方法集成了三个关键组件：

1) 世界一致视频扩散：一个统一的架构，联合生成对齐的RGB和深度视频序列，并以现有世界观测为条件以确保全局连贯性；2) 长距离世界探索：一个带有点剔除功能的高效世界缓存，以及具有平滑视频采样的自回归推理，用于实现具有上下文感知一致性的迭代式场景扩展；
3) 可扩展数据引擎：一个用于自动化任意视频的相机姿态估计和度量深度预测的视频重建流程，无需手动3D标注即可实现大规模、多样化的训练数据整理。

总的来说，所述设计在视觉质量和几何精度上相比现有方法取得了明显提升，并具有广泛的应用。

......（全文 2696 字，剩余 2227 字）

请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限