英伟达分享:用NVIDIA XR AI为AR眼镜和XR设备构建AI智能体
解放双手、AI随行
(映维网Nweon 2026年06月18日)为AR眼镜和可穿戴设备进行开发的开发者正面临基础设施层面的缺口。硬件已经就绪,但要创造AI体验,需要集成实时摄像头和麦克风流、多模态AI模型、企业数据、工具调用、部署基础设施以及设备特定的运行时。
英伟达面向AR眼镜及XR设备的AI开发平台NVIDIA XR AI旨在应对这一挑战,它为连接XR设备与运行在云端、数据中心、工作站或边缘的GPU加速AI服务,提供了可复用的基础。
NVIDIA XR AI现已开始公测,而开发者可以使用一个开源库为AI眼镜、AR眼镜和XR头显构建智能智能体。XR智能体能够看到用户所见,理解语音或文本输入的意图,调用企业工具,并在同一XR会话中做出响应。它们可以帮助一线团队成员找到正确的信息,引导工作人员完成操作流程,验证结果,并捕获证据。
英伟达在医疗和制造领域的合作伙伴提供了如何应用这一模式的有用示例。斯坦福大学医学院和普林斯顿大学的研究人员探索了将XR和AI工作流用于干细胞疗法研究,帮助研究人员在专注于复杂操作的同时,获取上下文信息并与实验室系统交互。
在制造业,西门子正在研究背景下探索NVIDIA XR AI和NVIDIA DGX Spark如何帮助工厂工程师查找维护信息、排查问题、验证工作并记录车间发生的情况。
下文将逐步介绍如何为你的用例构建一个XR智能体。同时将探讨XR AI如何结合使用NVIDIA Cosmos实现视觉基础,使用NVIDIA Nemotron模型实现语音优先交互,使用MCP实现企业连接,以及使用NVIDIA NeMo Agent Toolkit等框架实现灵活的智能体编排。

XR智能体的组件与架构
XR智能体始于来自用户XR设备的实时上下文。摄像头帧、麦克风音频和数据消息流入XR Media Hub,在那里它们可以路由到能够理解用户环境和意图的模型、工具和智能体。NVIDIA Cosmos模型提供视觉基础;NVIDIA Nemotron模型提供语言理解、推理和工具调用;MCP服务器暴露企业工具和数据源。NVIDIA NeMo Agent Toolkit等智能体框架可以编排跨模型和工具的工作流,而当应用需要丰富的3D交互时,NVIDIA CloudXR可以添加渲染的空间内容。
XR AI通过分离媒体传输、模型服务、工具访问、智能体编排和客户端交付来保持架构的模块化。视频像素可以留在共享内存中,而轻量级元数据在系统中传递,所以智能体仅在任务需要时检索图像数据。这减少了不必要的模型推理和数据移动,开发者无需重建整个智能体就能交换客户端、模型、MCP服务器、编排框架和部署环境。
同一设计同时支持多用户和多智能体场景。participant identity充当路由边界:多个客户端可以接到同一个Hub,多个智能体可以观察相同的流,每个响应都路由回正确的participant。这种模式允许一个基础平台能够支持视觉理解、语音交互、企业工具使用、实时推理、上下文感知的XR响应,并能灵活部署到AI眼镜、AR眼镜、XR头显、移动设备、Web客户端以及由CloudXR驱动的体验中。
开始使用
XR AI现已开始公测。下面将介绍如何使用XR AI快速获得一个可运行的XR智能体,包括:
-
实时摄像头、麦克风和设备数据流
-
实时多模态交互
-
通过Cosmos驱动的VLM实现视觉基础
-
通过语音识别和Nemotron模型实现语音交互
-
通过MCP实现企业连接
-
可搜索的视觉知识捕获与检索工作流
-
可选的通过NeMo Agent Toolkit或其他框架实现的智能体编排
-
可选的通过CloudXR渲染的空间内容
尽管不同行业的具体实现细节各有不同,但底层架构大体相同。
使用公开测试版构建你的第一个XR智能体
步骤1. 克隆XR AI repository
GitHub repository包含示例智能体、模型服务器启动器、MCP服务器、Web客户端、XR工作流以及核心媒体基础设施。理解系统的最快方式是从一个简单的多模态智能体开始,然后逐层添加功能。
bash git clone https://github.com/NVIDIA/xr-ai.git cd xr-ai
步骤2. 启动AI服务
使用可独立启动的共享AI服务:
bash cd agent-samples/model-servers uv sync uv run model_servers
这会启动演示所使用的模型进程,并将权重保持在后台加载。
在当前repository中,模型服务器栈包括:
-
nvidia/parakeet-tdt-0.6b-v3用于语音转文本
-
nvidia/Cosmos-Reason1-7B用于视觉-语言推理
-
nvidia/Llama-3.1-Nemotron-Nano-8B-v1用于快速、低延迟的语言响应
-
NVIDIA-Nemotron-3-Nano-30B-A3B用于更深入的工具调用工作流
agent-sdk/xr-ai-models包保持模型层的灵活性。工作进程通过配置引用llm、agent_llm、vlm、stt、tts等逻辑服务,开发者无需更改智能体逻辑就可交换端点、使用云托管模型或接入OpenAI兼容API。
至此,用于视觉理解、语音识别、语言推理和语音响应的核心AI服务已就绪。
步骤3. 运行一个传感器优先的XR智能体
启动最简单的可工作智能体:
bash cd agent-samples/simple-vlm-example uv sync uv run simple_vlm_example
服务启动后,会打印Web客户端URL和身份验证令牌。
打开Web客户端,连接,然后发送诸如 ping 的提示,或通过麦克风提问。
工作流非常简单:
-
客户端流式传输摄像头、麦克风和数据消息。
-
XR AI通过XR Media Hub路由媒体。
-
语音转换为文本。
-
使用Cosmos驱动的VLM路径分析最新的摄像头帧。
-
智能体生成响应。
-
响应以文本和合成语音两种形式返回。
现在你有了一个可运行的XR智能体。它能听、能理解用户所见、能基于视觉上下文进行推理,并通过同一会话以文本和语音做出响应。
在添加企业系统、RAG管道或空间渲染之前,这已经验证了最重要的能力:基于用户环境的实时多模态交互。
步骤4. 通过MCP连接企业数据
大多数企业智能体需要的不仅仅是实时感知。研究人员可能需要协议步骤、实验元数据或数据集访问;现场技术人员可能需要维护记录;制造工程师可能需要工作指导、控制器状态或数字孪生信息。XR AI使用MCP作为相关工作流的集成层。
repository中包含针对XR特定能力的MCP服务器:
-
vlm-mcp用于视觉问答
-
video-mcp用于视频分析和查询
-
render-mcp用于场景操控
-
oxr-mcp用于OpenXR空间信息
-
vec-mcp用于向量和空间工具
-
transcript-mcp用于转录文本的摄取和检索
开发者同时可以为企业系统、检索增强生成、数据库、数字孪生、资产管理系统以及领域特定工作流构建自定义MCP服务器。
一系列的组织对从物理世界捕获和理解视觉信息感兴趣。XR智能体可以观察操作流程、检查、维护活动或研究工作流,然后使用NVIDIA Video Search and Summarization等技术对信息进行索引、摘要和后续检索。随着时间推移,这会形成一个可搜索的视觉知识库,支持报告、培训、合规、运营审查和检索增强生成工作流。
到了这一步,智能体开始超越感知,进入企业行动和组织记忆的领域。
步骤5. 添加智能体编排
以下示例改编自NeMo Agent Toolkit MCP客户端工作流模式。实际应用中,这一配置将位于NeMo Agent Toolkit工作流定义中,并允许智能体发现由XR AI MCP服务器所提供的工具。
function_groups: xr_tools: _type: mcp_client server: transport: streamable-http url: "http://localhost:8220/mcp"workflow: _type: react_agent tool_names: - xr_tools
关键点不在于框架本身,而在于XR AI为实时媒体、多模态感知和企业连接提供了一致的基础,同时允许开发者选择最适合其环境的编排方式。
对更高级编排工作流感兴趣的开发者应查阅NeMo Agent Toolkit文档,其中包含MCP集成、工具调用、多智能体系统和基于RAG的工作流的详细示例。
步骤6. 添加CloudXR渲染的空间体验
并非每个XR工作流都需要渲染3D内容。有的智能体只需要摄像头、麦克风、语言和企业工具。当工作流受益于空间可视化时,XR AI可以将智能体层与NVIDIA CloudXR配对。
bash cd agent-samples/xr-render-demo uv sync uv run xr_render_demo
这个工作流启动XR Media Hub、CloudXR运行时、模型服务、MCP服务器和一个智能体工作进程。
智能体可以通过MCP调用渲染工具,在用户的空间环境中创建、更新和操控对象。CloudXR将生成的体验从GPU基础设施流式传输到客户端设备。
所述演示同时展示了一个有用的生产模式:较小的模型处理快速确认和状态更新,而较大的模型进行更深层次的推理和工具使用。用户在更复杂的操作后台继续运行时,能立即获得反馈。在此阶段,XR智能体既可以与物理环境交互,又可以与渲染的空间内容交互。
现在,你已经拥有一个可运行的XR智能体,可随时针对用例进行定制。

