美国团队推出VideoLifter：无需相机参数，实现5倍速高质量3D视频重建

编辑：刘余欣 | 分类：论文 | 2025年5月15日

加入映维网会员

减少了82%以上的训练时间

（映维网Nweon 2025年05月15日）有效地从单目视频重建3D场景依然是计算机视觉的核心挑战，而这对于虚拟现实和场景理解等应用至关重要。目前，通常采用逐帧递进重建，不考虑camera姿态，而这在缩放到较长视频时会产生较高的计算开销和复合误差。

为了克服所述问题，得克萨斯大学奥斯汀分校，宾夕法尼亚大学，斯坦福大学，约翰斯·霍普金斯大学和Meta团队推出了VideoLifter。这种新型的视频到3D管道在片段的基础上利用本地到全局策略，实现了极高的效率和SOTA质量。

在本地，VideoLifter利用可学习的3D先验来配准片段，提取必要的信息，用于随后的3D高斯初始化，强制片段间一致性和优化效率。

在全局，采用基于关键帧引导的树状分层合并方法进行片段间对齐，并结合高斯点剪枝进行两两合并，再进行联合优化，在保证全局一致性的同时有效降低累积误差。所述方法显著加快了重建过程，减少了82%以上的训练时间，同时保持了比当前SOTA方法更好的视觉质量。

......（全文 1651 字，剩余 1289 字）

请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

您可能还喜欢...