雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

MIT + Meta研究员提出利用阴影模拟3D场景,包括视线外对象

查看引用/信息源请点击:mit

利用阴影来模拟3D场景的方法

映维网Nweon 2024年07月08日)计算机视觉对于AR/VR,3D重建,工业检测,无人机和自动驾驶汽车等领域而言具有重要应用。在一项研究中,麻省理工学院和Meta的研究人员提出了一种利用阴影来模拟3D场景的方法,包括遮挡在视线之外的对象。团队表示:“这项技术可能会带来更安全的自动驾驶汽车、更高效的AR/VR头显或更快的仓库机器人。”

想象一下,你驾驶着一辆自动驾驶汽车穿过隧道,但你不知道的是,前方发生了车祸,导致交通中断。通常情况下,你需要通过前面的车辆来判断是否应该开始刹车。但如果你的汽车可以看到更前面的状况,并更快地刹车呢?

麻省理工学院和Meta的研究人员开发了一种有朝一日可以做到这一点的计算机视觉技术。

其中,可以使用单个摄像头位置的图像来创建整个场景的物理精确3D模型,包括遮挡区域。他们的技术是利用阴影来确定场景中遮挡区域。

团队将这种方法称为PlatoNeRF。作为说明,这个名字基于柏拉图的洞穴寓言:一群囚犯生活在洞穴中,手脚困住,无法转身,只能背对着洞口。他们前面是一堵墙,身后则燃烧着一堆火,他们在墙上看到影子,并认为影子是真实的。囚犯只能通过投在洞穴墙壁的影子来辨别外面世界的现实。

通过将激光雷达技术与机器学习相结合,PlatoNeRF可以产生相较于现有方法更精确的3D几何重建。另外,PlatoNeRF更擅长于平滑地重建难以看到阴影的场景,例如具有高环境光或暗背景的场景。

除了提高自动驾驶汽车的安全性外,PlatoNeRF同时可以提高AR/VR头戴设备的效率,用户无需四处走动就可以对房间的几何形状进行建模。它同时可以帮助仓库机器人在杂乱的环境中更快地找到物品。

论文的第一作者佐菲·克林霍夫(Tzofi Klinghoffer)表示:“我们的关键想法是将Multibounce LIDAR和ML结合起来。事实证明,当你把这两者结合在一起时,你就会发现大量探索和获得两个领域好处的机会。”

问题

从一个摄像头视点重建一个完整的3D场景是一个复杂的问题。

有的机器学习方法采用生成式人工智能模型,试图猜测遮挡区域的内容,但模型可能会产生幻觉。其他方法则尝试利用彩色图像中的阴影来推断隐藏对象的形状,但当很难看到阴影时,这种方法可能会遇到困难。

对于PlatoNeRF,麻省理工学院和Meta的研究人员使用了一种名为单光子激光雷达的新型传感方式。激光雷达通过发射光脉冲并测量光反射回传感器所需的时间来绘制3D场景。因为单光子激光雷达可以探测到单个光子,所以它们可以提供更高分辨率的数据。

研究人员使用单光子激光雷达来照亮场景中的目标点。一定的光线从所述点反射回来,直接返回到传感器。然而,大部分的光在返回到传感器之前会遭到其他对象散射和反射。PlatoNeRF依赖于光的第二次反弹。

通过计算光线反弹两次然后返回激光雷达传感器所需的时间,PlatoNeRF可以捕获有关场景的其他信息,包括深度。光线的第二次反弹同时包含了阴影的信息。

系统追踪二次光线——从目标点反弹到场景中其他点的光线——以确定哪些点位于阴影之中(没有光线)。基于阴影的位置,PlatoNeRF可以推断隐藏对象的几何形状。

激光雷达依次照亮16个点,捕获用于重建整个3D场景的多幅图像。

克林霍夫解释道:“每次我们照亮场景中的一个点,我们都在创造新的阴影。因为我们有所有这些不同的照明光源,我们有很多光线射向周围,所以我们正在雕刻遮挡的区域。”

成功的组合

PlatoNeRF的关键是将多反射激光雷达与一种称为神经辐射场(NeRF)的特殊机器学习模型相结合。NeRF将场景的几何形状编码为神经网络的权重,这使模型具有很强的插值或估计场景新视图的能力。

Klinghoffer说,当与多反射激光雷达结合使用时,这种插值能力还可以实现高精度的场景重建。

“最大的挑战是如何将这两者结合起来。我们真的必须考虑光如何用多反射激光雷达传输的物理原理,以及如何用机器学习来建模,”他说。

他们将PlatoNeRF与两种常见的替代方法进行了比较,一种只使用激光雷达,另一种只使用带有彩色图像的NeRF。

他们发现他们的方法能够优于这两种技术,特别是当激光雷达传感器分辨率较低时。这将使他们的方法在现实世界中更实用,在现实世界中,低分辨率传感器在商业设备中很常见。

“大约15年前,我们的团队发明了第一台可以‘看到’拐角处的相机,它通过利用多次光线反射或‘光的回声’来工作。这些技术使用了特殊的激光器和传感器,并使用了三次光反射。从那时起,激光雷达技术变得更加主流,这导致了我们对可以看穿雾的相机的研究。这项新工作只使用了两次光反射,这意味着信噪比非常高,3D重建质量令人印象深刻,”Raskar说。

相关论文PlatoNeRF: 3D Reconstruction in Plato’s Cave via Single-View Two-Bounce Lidar

在未来,研究人员希望尝试跟踪两次以上的光线反射,看看如何改善场景重建。此外,他们有兴趣应用更多的深度学习技术,并将PlatoNeRF与彩色图像测量相结合来捕获纹理信息。

“虽然阴影的相机图像长期以来一直被研究作为3D重建的手段,但这项工作在激光雷达的背景下重新审视了这个问题,展示了重建隐藏几何形状的准确性的显着提高。这项工作表明,当与普通传感器(包括我们许多人现在随身携带的激光雷达系统)结合在一起时,聪明的算法可以实现非凡的能力,”多伦多大学计算机科学系助理教授大卫·林德尔说,他没有参与这项工作。

本文链接https://news.nweon.com/122641
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯