雨果·巴拉:行业北极星Vision Pro过度设计不适合产品市场

研究:多模态3D融合管道可增强情景感知AR体验

查看引用/信息源请点击:映维网Nweon

空间感知AI

映维网Nweon 2025年03月11日)虚拟世界和物理世界的无缝集成得益于系统对物理环境的语义“理解”。长期以来,AR研究一直专注于情景感知的潜力,并展示了利用3D环境中的语义进行各种对象级交互的新功能。同时,计算机视觉社区在神经视觉语言理解方面取得了飞跃,增强了自主任务的环境感知。

加州大学团队认为,探索这一方向的一个前景方法是建立一个多模态融合管道,将现实世界场景和对象的几何、语义和语言(视觉语言)信息集成到一个统一的3D表示中。

在一项研究中,他们引入了一种多模态3D对象表示,它将语义和语言知识与几何表示相结合,从而令涉及物理对象的用户引导机器学习成为可能。

研究人员首先提出了一个快速的多模态3D重建管道,通过将CLIP视觉语言特征融合到环境和对象模型中来为AR带来语言理解。然后,提出“原位”机器学习,它与多模态表示相结合,为用户提供了新的工具和界面,以空间和语言有意义的方式与物理空间和对象进行交互。

实验证明了所提出系统的实用性:在物理环境中使用自然语言进行空间搜索;以及追踪对象随时间变化的智能库存系统。

对物理环境的3D场景理解对于情景感知AR至关重要。学界和业界一直在稳步推进移动计算平台的感知和语义能力。建模和理解基本的几何配置,如房间大小、实体表面和遮挡,可以实现真实的虚拟内容放置和交互。合适的语义理解和3D分割可以揭示环境中常见物体的内容和位置,从而实现复杂的交互和虚拟与物理的更深层次融合。

利用最近的大型多模态模型和大型语言模型的力量,我们甚至可以在复杂的现实场景中执行简单的空间和语言推理。如果我们继续挑战极限,情景感知增强现实及其应用会出现哪些新的场景理解和推理形式呢?

受到OpenCLIP等神经视觉语言模型的统一视觉和语言知识latent嵌入的启发,实现了前所未有的世界感知能力。加州大学团队认为,探索这一方向的一个前景方法是建立一个多模态融合管道,将现实世界场景和对象的几何、语义和语言(视觉语言)信息集成到一个统一的3D表示中。

所以,他们实现了一个基于TSDF的三维重建和分割管道,将RGB帧的深层语言特征融合到物理空间和单个对象的三维表示中。神经视觉语言特征的三维融合自动实现了语言上有意义的空间计算。

尽管以前的AR空间搜索任务受到最近集检测或分割模型的限制,但现在已经可以搜索任意对象,甚至可以响应物理空间中的抽象自然语言查询。

团队展示了响应查询“可能对婴儿有危险的东西”的热图,并通过AR头显突出了最可能的区域。充满视觉语言特征的物理环境可以通过AR界面提供有关其自身的有价值信息。

研究人员在场景体素、顶点和单独分割的物理对象的抽象层次上将与情景相关的视觉语言特征融合到3D场景中。这种与CLIP嵌入融合和语义索引的对象比以前的3D几何模型更智能。当添加由AR界面控制的user-in-the-loop机器学习时,它们变得更加强大。

用户与物理对象的交互提供了有价值的模型指导,可帮助训练个性化的机器学习模型,例如智能库存管理。将所提出的多模态3D融合与用户引导的机器学习机制(称之为“原位”学习)相结合的一个示例优势是追踪现实世界中物理对象的变化。

如果我们将一个特定的红色咖啡杯从一个桌子移动到另一个桌子,简单的空间转换会改变对象的方向或体积表示,但不会发生语义上的变化。为了向用户提供有用的信息,需要将项目标识为相同的实体。

在办公空间中,共享对象很少停留在相同的位置或方向。我们需要的是一个用户可训练的分类器,它需要学习记住任意的物理对象,并根据用户不断变化的需求和手头的任务快速优化。

所以,加州大学团队提出了一个概念验证智能物体库存系统,展示了通过多模态3D融合和原位学习实现的物理环境中记忆和重新识别物体的能力。一旦经过简单的用户指导训练,系统就可以在追踪空间中显示丢失或保持不变的物体。

相关论文Multimodal 3D Fusion and In-Situ Learning for Spatially Aware AI

总的来说,团队通过提出一种多模态3D融合管道来展示新的情景感知AR界面和应用。所述管道将神经视觉语言特征集成到物理空间的现有几何和语义表示中。他们提出的原型智能库存系统在AR中重新识别物理对象,并有望增强个人空间管理,团队协作和信息交换,甚至资产管理。

提高对物理空间的时间意识可以帮助解决“变化盲目性”问题。使用自然语言执行3D空间搜索的能力可以实现更直观的AR界面-与物理空间进行对话,以获得室内设计建议,安全检查可视化或个性化导航。

本文链接https://news.nweon.com/128278
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯