雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

苹果开源Depth Pro,0.3秒即可从2D图像生成高分辨率深度图

查看引用/信息源请点击:venturebeat

同类系统中最快,最准确的系统之一

Vision Pro QQ群交流653565822

映维网Nweon 2024年10月05日苹果日前发布了一个全新的模型Depth Pro,而它可以显著提高机器感知深度的方式,并可能会改变AR等一系列不同的行业。

据悉,名为Depth Pro的系统能够在几分之一秒内从单个2D图像生成详细的3D深度图,无需依赖传统上进行这类操作所需的camera数据。

单目深度估计是一种仅使用一张图像推断深度的过程,而苹果新发布的Depth Pro是单目深度估计领域的一次重大飞跃,

在实时空间感知是关键的领域,这可能会带来深远的影响,包括空间计算。团队将Depth Pro描述为同类系统中最快,最准确的系统之一。

单目深度估计一直是一项具有挑战性的任务,需要多个图像或像焦距这样的元数据来准确测量深度。

但Depth Pro绕过了相关要求,在标准GPU上仅需0.3秒即可生成高分辨率深度图。模型可以创建225万像素的深度图,图像具有出色的清晰度,甚至可以捕获到其他方法经常忽略的微小细节,如头发和植被。

研究人员指出:“模型能够同时处理图像的整体背景和更精细的细节,与之前速度较慢、精度较低的模型相比,这是一个巨大的飞跃。”

真正令Depth Pro与众不同的是它能够估计相对和绝对深度,这种能力称为“度量深度”。

这意味着模型可以提供真实世界的测量,而这对于AR等应用至关重要,因为虚拟对象需要放置在物理空间中的精确位置。

另外,Depth Pro可以生成具有绝对比例尺的公制深度图,不需要对特定领域的数据集进行广泛的训练就能做出准确的预测,亦即zero-shot learning,这使得模型具有很强的通用性。它可以应用于广泛的图像,不需要深度估计模型中通常要用到的camera特定数据。

如果你想亲身体验,这个页面提供了实况演示。

研究人员指出:“理想情况下,这种方法应该在zero-shot状态下生成公制深度图,以准确地再现物体形状、场景布局和绝对比例。”

他们强调,模型有可能减少与训练更传统人工智能模型相关的时间和成本。

值得一提的是,深度估计中最棘手的挑战之一是处理所谓的“飞行像素”:由于深度映射的错误,像素看起来像是漂浮在半空中。Depth Pro解决了这个问题,使其对3D重建和虚拟环境等应用程序特别有效。

另外,Depth Pro在边界追踪方面表现出色,在清晰描绘对象及其边缘方面优于以前的模型。研究人员声称,它相较于其他系统“边界精度倍增”。

相关论文Depth Pro: Sharp Monocular Metric Depth in Less Than a Second

苹果已经将Depth Pro开源,具体请访问GitHub

本文链接https://news.nweon.com/124877
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯