微软专利提出空间语义感知AI系统，实现混合现实环境智能协作

编辑：刘余欣 | 分类：专利 | 2025年7月3日

使用空间和语义感知生成式AI来生成内容

（映维网Nweon 2025年07月03日）大型语言模型LLM可以帮助用户根据用户提示生成复杂的文本，并应用于协助用户完成复杂的任务，例如生成各种格式的复杂文本内容和汇总来自各种来源的内容。然而，LL,缺乏对用户所在环境和/或环境物体的空间意识，以及语义描述符与其在环境中的物理对应物以及环境中物体之间的联系。所以，有必要改进当前的系统和方法，为实现空间感知LLM提供技术解决方案。

在一份专利申请中，微软就介绍了一种使用空间和语义感知生成式AI来生成内容的系统。

当前的语言模型很难理解短语“转动红色旋钮”，因为模型缺乏“红色”和“旋钮”与用户面前的机器部件之间的关联。所以，发明描述了一种空间语义感知生成语言模型，以实现视觉语言模型规划。视觉语言模型规划器促进多模态混合现实协作，使用户能够与空间语义感知生成语言模型协作，创建和/或使用混合媒体内容。

视觉语言模型规划器使用生成模型为用户提供空间语义感知指令，相关支持包括回答用户关于物理对象的问题，并为用户提供建议、更正和/或解释。这种方法的一个技术优势是，视觉语言模型规划者利用空间语义感知生成语言模型与用户一起计划和协调各种动作，而不仅仅是使用传统语言模型模型来生成文本内容。

......（全文 4828 字，剩余 4338 字）

wx_mp