谷歌专利提出基于边缘与云端LLM协同的XR低延迟问答系统

PICO 4 Ultra

查看引用/信息源请点击:映维网Nweon

混合架构

映维网Nweon 2025年12月10日)XR设备使用云端大型语言模型LLM回答用户查询时,因网络传输和模型计算导致的响应延迟问题,会严重影响交互的实时性和用户体验。针对这个问题,谷歌提出了一种创新的混合架构,通过在设备端部署一个轻量级“边缘LLM”快速生成初步答案,同时智能判断并委托云端更强大的“扩展LLM”生成补充答案,从而在保证回答准确性和深度的前提下,显著降低了用户感知的延迟,实现速度与质量的平衡。

在一个实施例中,通过使用由头显实现的第一LLM(边缘LLM)来减少从接收到用户提示到头显输出答案之间的查询时间。所以,XR系统包括一个配置为实现第一LLM的头显,第一LLM的规模(例如内存占用)比在通过网络连接到头显的一个或多个服务器实现的第二LLM(扩展LLM)要小。例如,与服务器上实现的第二LLM相比,第一LLM包含更少的参数、更少的注意力层或两者皆有。

基于接收到来自用户的提示并使用第一LLM,头显基于该提示生成边缘响应。例如,第一LLM的每个注意力层配置为接收输入数据结构。对于第一LLM的每个注意力层的预填充阶段,头显基于相应的输入数据结构生成键值缓存和第一个标记。基于第一个标记,头显在每个注意力层的解码阶段顺序生成额外的标记,直到生成结束标记、满足预定条件或两者皆满足。

另外,在每个注意力层的预填充和解码阶段,头显配置为基于第一LLM的参数(例如基于第一LLM的训练数据)生成一个或多个委派标记。例如,这类委派标记包含指示需要为该提示生成第二答案(例如,扩展答案)的数据。这一个或多个委派标记是不同于结束标记的标记。在头显完成对每个层的标记生成后,头显随后组合生成的标记以生成第一答案(例如边缘答案),其中包含要输出给用户的文本。例如,头显向用户显示此第一答案中指示的文本。

......(全文 6966 字,剩余 6303 字)


请微信扫码通过小程序阅读完整文章
或者登入网站阅读完整文章
映维网会员可直接登入网站阅读
PICO员工可联系映维网免费获取权限

本文链接https://news.nweon.com/136601
转载须知:转载摘编需注明来源映维网并保留本文链接
素材版权:除额外说明,文章所用图片、视频均来自文章关联个人、企业实体等提供
QQ交流群苹果Vision  |  Meta Quest  |  AR/VR开发者  |  映维粉丝读者
XR 招聘Job
XR Research Wechat Group/微信群

您可能还喜欢...

资讯