研究:多模态3D融合管道可增强情景感知AR体验

查看引用/信息源请点击:映维网Nweon

空间感知AI

映维网Nweon 2025年03月11日)虚拟世界和物理世界的无缝集成得益于系统对物理环境的语义“理解”。长期以来,AR研究一直专注于情景感知的潜力,并展示了利用3D环境中的语义进行各种对象级交互的新功能。同时,计算机视觉社区在神经视觉语言理解方面取得了飞跃,增强了自主任务的环境感知。

加州大学团队认为,探索这一方向的一个前景方法是建立一个多模态融合管道,将现实世界场景和对象的几何、语义和语言(视觉语言)信息集成到一个统一的3D表示中。

在一项研究中,他们引入了一种多模态3D对象表示,它将语义和语言知识与几何表示相结合,从而令涉及物理对象的用户引导机器学习成为可能。

研究人员首先提出了一个快速的多模态3D重建管道,通过将CLIP视觉语言特征融合到环境和对象模型中来为AR带来语言理解。然后,提出“原位”机器学习,它与多模态表示相结合,为用户提供了新的工具和界面,以空间和语言有意义的方式与物理空间和对象进行交互。

......(全文 1630 字,剩余 1259 字)


请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/128278
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者
资讯