雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

美国团队推出VideoLifter:无需相机参数,实现5倍速高质量3D视频重建

查看引用/信息源请点击:映维网Nweon

减少了82%以上的训练时间

映维网Nweon 2025年05月15日)有效地从单目视频重建3D场景依然是计算机视觉的核心挑战,而这对于虚拟现实和场景理解等应用至关重要。目前,通常采用逐帧递进重建,不考虑camera姿态,而这在缩放到较长视频时会产生较高的计算开销和复合误差。

为了克服所述问题,得克萨斯大学奥斯汀分校,宾夕法尼亚大学,斯坦福大学,约翰斯·霍普金斯大学和Meta团队推出了VideoLifter。这种新型的视频到3D管道在片段的基础上利用本地到全局策略,实现了极高的效率和SOTA质量。

在本地,VideoLifter利用可学习的3D先验来配准片段,提取必要的信息,用于随后的3D高斯初始化,强制片段间一致性和优化效率。

在全局,采用基于关键帧引导的树状分层合并方法进行片段间对齐,并结合高斯点剪枝进行两两合并,再进行联合优化,在保证全局一致性的同时有效降低累积误差。所述方法显著加快了重建过程,减少了82%以上的训练时间,同时保持了比当前SOTA方法更好的视觉质量。

从连续的图像观察中有效地重建3D场景是计算机视觉领域的一个长期挑战。最近,从单个视频序列(视频到3D)重建3D场景获得了广泛的关注。这一趋势是由两个因素驱动:手持式捕获设备的日益普及,使视频捕获对非专业用户更加实用;以及高保真3D重建方法的最新进展,如神经辐射场NeRF和3DGS。

大多数基于NeRF或3DGS的视频到3D重建方法严重依赖于结构从运动(SfM)来生成初始稀疏重建。然而,当应用于视频数据时,SfM往往不可靠,甚至是不可行,因为它依赖于光度假设,而相关假设在低纹理或具有挑战性的照明条件下经常失效。

作为回应,最近的方法已经转向联合优化camera姿势和场景表示,而不是仅仅依赖于基于SfM的初始化。然而,相关方法依然依赖于SfM中精确的camera特性,限制了它们在in the wild视频场景中的适用性。

更重要的是,不需要SfM的视频到3D方法通常是从一个标准视图逐步重建场景,而这有两个关键问题。首先,它们是缓慢和低效的。其次,它们容易出现增量误差,因为逐帧的方法往往会在较长的视频序列中累积误差。

为了解决所述问题,得克萨斯大学奥斯汀分校,宾夕法尼亚大学,斯坦福大学,约翰斯·霍普金斯大学和Meta团队提出了VideoLifter。

这是一种新型的视频到3D重建管道,与最先进的方法相比,它实现了5倍的加速和增强的视图合成质量,如图1所示。

团队有效地采用局部到全局流来处理片段基础上的长序列视频,然后将片段合并成最终的,全局一致的3D场景。管道由两项关键创新驱动,使得本地到全局的概念在显著提高效率和大大减少增量误差的情况下可行。

首先,在具有学习3D先验(局部)阶段的片段配准中,通过利用预训练的先验模型来解决第一个问题,从每个片段中提取基本信息。不是像InstantSplat那样使用3D先验来初始化3D高斯函数,而是通过以下方式提高效率:

  • 通过仅考虑关键帧(设置为第一帧)来强制片段间一致性,在高效子图而不是完整图上求解

  • 仅提取片段内每个视图的基本参数,从而避免了代价高昂的全局点图优化。

在分层高斯对齐(全局)阶段,通过基于树的分层框架进行片段合并。框架采用关键帧引导进行片段间对齐,两两合并高斯点剪枝,随后进行联合优化,以确保全局一致性并有效减轻累积误差。

在定量评估合成新视图的质量中,与其他自校准辐射场方法相比,团队所提出方法在效率和渲染质量方面取得了卓越的性能,这在很大程度上归功于解耦片段配准和分层对齐过程。与最相关的基线CF-3DGS相比,所述方法减少了>80%的训练时间,同时得到了>0.012 LPIPS的提高;在CO3D-V2数据集减少了>85%的训练时间,同时得到了>0.12 LPIPS的提高。

请注意,VideoLifter不需要任何真实的camera参数,使其更适用于没有或未能从COLMAP获得预计算特性的场景。与NeRFmm相比,它不需要ground truth参数,并提供了更好的质量和更少的训练时间。

对于大规模场景,由于VideoLifter中的分层设计,所提出方法始终在所有测试视图中产生更清晰的细节,并保留每个片段中优化的精细细节。

对于CO3DV2数据集来说,在没有任何COLMAP初始化的情况下实现全局一致的3D重建更具挑战性。依靠单目深度预测来将图像投影到点云中的基线通常会受到深度尺度不一致的影响,这使得它们很脆弱,容易失败。相比之下,VideoLifter利用3D几何先验来实现稳健的配准,使其在具有挑战性的环境中具有高度的适应性和弹性。

相关论文VideoLifter: Lifting Videos to 3D with Fast Hierarchical Stereo Alignment

总的来说,VideoLifter这个框架可以有效地从单目视频重建3D场景,不需要预先计算camera姿势或预定义的特性。VideoLifter利用基于学习的立体先验进行初始稀疏场景重建,并结合三维高斯飞溅的分层对齐方法来产生密集的,全局一致的模型。与之前最先进的方法相比,VideoLifter从随机视频中实现了高质量的重建,减少了计算需求。

本文链接https://news.nweon.com/129740
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯