雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

如何提升AR/VR深度图重建技术:Depth Upsampling Challenge大赛方案分享

查看引用/信息源请点击:映维网Nweon

汇总简介了排名前列的方法

映维网Nweon 2025年02月27日)AR/VR日益增长的需求凸显了对高效深度信息处理的需求。深度图对于渲染逼真的场景和支持高级功能至关重要,但由于其大小,深度图通常很大且具有挑战性。深度压缩通常会降低质量,丢失场景细节并引入伪影。通过对深度上采样方法的改进,可以提高深度图重建的效率和质量。

所以AIM 2024 ECCV有一个Depth Upsampling Challenge大赛,而一系列的团队均提出了自己的解决方案。在下文中,由赛事赞助方德国维尔茨堡大学,索尼Meta等组成的团队汇总简介了排名前列的作品,并希望可以鼓励开发新的深度上采样技术,以实现效率和深度图质量之间的平衡,从而帮助推进最先进的深度处理技术,并增强AR和VR应用的整体用户体验。

给定HR RGB图像和压缩后的LR深度图,所提出的方法必须重建HR深度图。表1提供了挑战赛的基准,其中包括以mac为单位测量的计算复杂性,以及每个模型的参数数量。

团队UM-IT:A Simple and Effective Baseline for Depth Upsampling and Refinement

如图所示,团队提出了一种简单有效的深度上采样和细化网络,并利用了基于U-Net的架构。具体来说,模型以一张低分辨率深度图和一张相应的RGB图像作为输入,目标是生成高分辨率深度图。

对于输入的RGB图像,利用骨干网络提取图像特征。同时,利用基于卷积的子网络对低分辨率深度图进行深度信息提取。然后将深度特征和图像特征融合并馈入基于transformer的解码器。在解码器中,采用基于窗口的交叉关注,将融合特征和来自编码器的图像特征分别作为查询和键/值处理。最后,深度预测头生成最终的深度输出。

在训练过程中,研究人员使用了各种数据增强技术,包括随机水平翻转、随机垂直翻转和随机裁剪。另外,标记深度和低分辨率深度都裁剪到0.1到20的范围。

为了提高推理过程中的性能,团队使用了多种策略。首先,通过对原始图像及其镜像图像的预测深度进行平均,得到最终深度值。其次,输出深度值裁剪到0.1到20的范围。最后,采用一种集成策略,将来自几个检查点的深度预测结合起来,从而产生最终结果。

他们提出了两个版本的模型:基础版本和精简版本。与基础版相比,精简版参数更少(143.87M),效率更高(54.84G)。

团队DAS-Depth:Depth-Aware Scale Refinement for Monocular Depth Estimation

团队使用最先进的单目深度估计模型DepthAnythingV2探索了zero-shot泛化的潜力。他们使用了DepthAnything-V2-Large变体及其官方预训练的权重来直接在测试数据集生成视差图。然后将视差图倒转得到原始深度图。为了与grount truth值比例尺对齐,他们将低分辨率深度图的深度值乘以16倍。最后,采用最小二乘法拟合尺度和偏移系数,确保原始深度图与低分辨率深度图尺度之间的正确对齐。

在此基础上,团队对挑战数据进行了分析,并发现:

  • grount truth深度值范围大,分布不均匀。训练集提供的grount truth值最大深度可达65,504,远远超出深度估计任务所需的典型范围。没有深度值在20,000到60,000之间的像素。同一天空区域内的像素具有不同的深度值。这表明必须充分利用模型的输出空间。

  • 深度值越小的样本,其低分辨率深度图的噪点越强。这意味着使用低分辨率深度图作为模型的直接输入将显著增加模型学习过程的难度。

基于以上观察,团队选择放弃低分辨率深度图。通过对训练集数据的深入分析,他们约束了模型的输出空间以达到最佳性能,并使用Depth-Anything-V2- Large的官方公开权重开始训练。微调方法遵循ZoeDepth管道,但利用Depth-Anything-V2- Large的预训练编码器而不是MiDas编码器。

团队在训练过程中约束模型的输出空间,并在推断过程中调整了预测深度图的比例,以获得最终的深度图。

团队ICL_SNU:Attaching ControlNet to an RGB2Depth Model for Depth Upsampling

团队的目标是利用DINOv2作为基础模型,并进行适当的调整以提高其性能。具体来说,他们设计了一种使用低分辨率深度图像作为调节输入的方法。方法围绕着三个主要理念:

  • 微调模型以获得最佳性能

  • 数据预处理,以解决数据集中的可变性和噪点

  • 实现有效的损失函数,训练模型在排除背景异常的同时捕获详细信息。

有几个训练有素的模型可用于RGB图像的高分辨率深度估计。其中,基于DINOv2附加深度预测头的深度估计模型是一个非常好的候选模型。考虑到DINOv2作为主干,团队的目标是根据给定的数据集对DPT头进行微调。由于同时提供了低分辨率深度估计的附加信息,所以考虑引入ControlNet的概念。

设计的基本输出是用DINOv2创建,而低分辨率深度估计是在输出结束时用适当的零卷积输入。只使用挑战中给出的数据集,没有任何增强或外部数据集。

团队发现有的数据在背景中含有离群值。为了使确保模型不只适合背景区域,他们设置了一定的阈值,并对大于阈值的数据进行预处理,使其具有阈值。

数据集的另一个考虑因素是低分辨率和高分辨率深度估计之间的尺度差异。他们发现低分辨率深度不是简单地由高分辨率深度插值得到。由于这种尺度差异,采用SiLogLoss来有效地学习全球尺度差异内的特征。

团队RGA Inc:Relative depth guided depth map upsampling

在构建模型之前,团队分析了挑战赛中使用的数据集。当将HR(高分辨率)深度图与LR(低分辨率)深度图进行比较时,不仅分辨率降低了,而且可以观察到额外的退化。另外,特定LR深度图中充满了噪点,大大降低了深度信息的可靠性。

为了解决上述问题,团队使用DepthAnything模型提取相对深度图,随后Unet网络将相对深度图与给定的LR深度图融合以重建最终深度图。

团队CUSTZS: RAFT-DU: Depth Upsampling Using RAFT Structures

所提出的方法以RAFT-stereo作为基础,使用捕获的RGB图像和压缩深度作为模型输入,同时通过仅提取x轴来从原始RAFT中恢复其修改。团队发现,与使用归一化深度数据相比,直接调用原始数据的值在测试结果时帮助很大。

他们同时尝试过SGnet,但效果更差。至于数据集,只使用了大赛提供的数据集。至于方案在其他数据集上的适应性和鲁棒性,团队将在进一步尝试提高精度后这样做。

团队airia:A Fast Scale Adjustment Model for Depth Anything in Depth Up-sampling Challenge

首先,直接使用挑战赛提供的训练数据集作为实验数据集。由于只有训练集包含ground truth,t团队将训练集的十分之一分成验证集来验证模型的性能。另外,他们观察到Depth Anything V2预测具有平滑的值分布,而挑战赛在数据集中提供了一个颠簸的值分布。

所以,对于所提出的Scale Adjustment模型,选择保持低分辨率深度图的取值范围不变,只对Depth Anything V2的预测结果进行最大最小归一化操作。

在训练开始之前,首先直接使用Depth Anything V2来加载它提供的“vitl”预训练权重,为训练集中的每个RGB图像预测一个初步的深度图。在训练过程中,模型首先读取低分辨率深度图,然后经过卷积和上采样模块的处理,得到一个与GT形状相同的新的二维阵列。

然后,模型读取相应的预测深度图,并对二维数组执行逐元素乘法。最后,利用乘法得到的结果与GT深度图之间的RMSE作为损失函数来监控二维阵列的生成。

总的来说,团队简介了挑战赛的结果。提交的材料有各种各样的方法,其中有的表现出了卓越的性能。值得注意的是,利用预训练的大型骨干网络的方法有效地保留了图像特征,并将其转移到重建的深度特征之上,这表明图像域的预训练模型可以通过有效的微调适应深度域。展望未来,一个关键的焦点可能是降低模型复杂性,以支持实时应用程序,并促进在便携式设备的部署。

更多信息请访问这个页面

本文链接https://news.nweon.com/128035
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯