美国团队推出VideoLifter:无需相机参数,实现5倍速高质量3D视频重建
减少了82%以上的训练时间
(映维网Nweon 2025年05月15日)有效地从单目视频重建3D场景依然是计算机视觉的核心挑战,而这对于虚拟现实和场景理解等应用至关重要。目前,通常采用逐帧递进重建,不考虑camera姿态,而这在缩放到较长视频时会产生较高的计算开销和复合误差。
为了克服所述问题,得克萨斯大学奥斯汀分校,宾夕法尼亚大学,斯坦福大学,约翰斯·霍普金斯大学和Meta团队推出了VideoLifter。这种新型的视频到3D管道在片段的基础上利用本地到全局策略,实现了极高的效率和SOTA质量。
在本地,VideoLifter利用可学习的3D先验来配准片段,提取必要的信息,用于随后的3D高斯初始化,强制片段间一致性和优化效率。
在全局,采用基于关键帧引导的树状分层合并方法进行片段间对齐,并结合高斯点剪枝进行两两合并,再进行联合优化,在保证全局一致性的同时有效降低累积误差。所述方法显著加快了重建过程,减少了82%以上的训练时间,同时保持了比当前SOTA方法更好的视觉质量。
......(全文 1651 字,剩余 1289 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限