谷歌专利提出基于多模态感知的XR设备模糊指令处理方法
基于多模态感知的XR设备模糊指令处理方法
(映维网Nweon 2026年02月10日)XR设备在响应用户模糊语言指令(如“这个”“那个”)时存在的技术瓶颈,即设备难以准确理解用户所指的对象或位置。在一份专利申请中,谷歌提出通过结合视觉感知(如摄像头图像、用户视线或手势)与自然语言处理模型,以便设备能够识别上下文、解析模糊指令,并自动执行相应的交互操作,从而提升人机交互的自然性和效率。
在一个实施例中,XR设备可以识别来自用户的命令。系统可以通过识别指示命令的术语和短语的自然语言处理来识别该命令。例如,用户的第一条陈述不会归类为命令,而第二条陈述或口头命令则可以归类为命令。在一个实施例中,设备可以配置为基于用户触摸按钮或提供明确的术语或短语来标识命令。例如,用户可能在命令前提供一个明确的短语,以向设备指示接下来将是命令。
除了命令之外,设备同时可以配置为通过图像或其他传感器数据来识别上下文。在至少一个示例中,设备可以识别与用户视线相关的图像。例如,识别与用户视线相关的图像可以包括选择一个摄像头的图像。从图像中,设备可以配置为基于将模型应用于命令和图像来识别一个动作,模型的应用包括在图像中识别该命令对应的一个对象。对象可以是视场中的任何物理或虚拟元素。
动作可以包括与至少一个应用交互的一个或多个应用编程接口操作,以实现用户的意图。一旦识别出动作,设备就可以配置为实现该已识别的动作。基于模型对命令和图像的应用来识别动作可以包括:将命令和图像作为输入提供给模型,使用这些输入执行模型,和/或获取作为模型输出的动作。
......(全文 6096 字,剩余 5488 字)
请微信扫码通过小程序阅读完整文章或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

