微软专利提出空间语义感知AI系统,实现混合现实环境智能协作

查看引用/信息源请点击:映维网Nweon

使用空间和语义感知生成式AI来生成内容

映维网Nweon 2025年07月03日)大型语言模型LLM可以帮助用户根据用户提示生成复杂的文本,并应用于协助用户完成复杂的任务,例如生成各种格式的复杂文本内容和汇总来自各种来源的内容。然而,LL,缺乏对用户所在环境和/或环境物体的空间意识,以及语义描述符与其在环境中的物理对应物以及环境中物体之间的联系。所以,有必要改进当前的系统和方法,为实现空间感知LLM提供技术解决方案。

在一份专利申请中,微软就介绍了一种使用空间和语义感知生成式AI来生成内容的系统。

当前的语言模型很难理解短语“转动红色旋钮”,因为模型缺乏“红色”和“旋钮”与用户面前的机器部件之间的关联。所以,发明描述了一种空间语义感知生成语言模型,以实现视觉语言模型规划。视觉语言模型规划器促进多模态混合现实协作,使用户能够与空间语义感知生成语言模型协作,创建和/或使用混合媒体内容。

视觉语言模型规划器使用生成模型为用户提供空间语义感知指令,相关支持包括回答用户关于物理对象的问题,并为用户提供建议、更正和/或解释。这种方法的一个技术优势是,视觉语言模型规划者利用空间语义感知生成语言模型与用户一起计划和协调各种动作,而不仅仅是使用传统语言模型模型来生成文本内容。

......(全文 4828 字,剩余 4338 字)


请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/130798
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  微软HoloLens  |  AR/VR开发者  |  映维粉丝读者

您可能还喜欢...

资讯