为增强现实眼镜和可穿戴设备开发应用的开发者面临着基础设施方面的挑战。硬件已经就绪,但要打造人工智能体验,还需要集成实时摄像头和麦克风流、多模态人工智能模型、企业数据、工具使用、部署基础设施以及设备特定的运行时环境。
NVIDIA XR AI 旨在通过提供可重用的基础来应对这一挑战,从而将扩展现实 (XR) 设备连接到在云端、数据中心、工作站或边缘运行的 GPU 加速 AI 服务。
目前,开发者可以访问一个开源库,该库可用于构建适用于 AI 眼镜、AR 眼镜和 XR 头显的智能代理。这些智能 XR 代理能够感知用户所见,理解语音或文字意图,调用企业工具,并在同一 XR 会话中做出响应。它们可以帮助一线团队成员找到所需信息,指导员工完成操作流程,验证结果并收集证据。
XR AI 将智能带到人们的工作环境中,无论是在现场服务、远程协助、工业运营、医疗保健、培训还是其他需要频繁操作的环境中。
NVIDIA 在医疗保健和制造业的合作伙伴提供了如何应用这种模式的实用案例。斯坦福大学医学院 Cong 实验室和普林斯顿大学 Wang 实验室的研究人员探索了 XR 和 AI 工作流程在干细胞治疗研究中的应用,帮助研究人员获取背景信息并与实验室系统交互,同时保持对复杂操作流程的专注。
在制造业领域,西门子正在研究如何利用 NVIDIA XR AI 和 NVIDIA DGX Spark帮助工厂工程师查找维护信息、排除故障、验证工作并记录车间现场发生的事情。
本文将逐步介绍如何为您的用例构建智能 XR 代理。此外,本文还将探讨 XR AI 如何结合使用 NVIDIA Cosmos进行视觉基础构建、使用 NVIDIA Nemotron 模型实现语音优先交互、使用模型上下文协议 (MCP) 实现企业级连接,以及如何使用 NVIDIA NeMo Agent Toolkit 等框架实现灵活的代理编排。
智能 XR 代理的组成部分和架构
智能 XR 代理从用户 XR 设备的实时上下文开始。摄像头画面、麦克风音频和数据消息流入 XR 媒体中心,在那里它们可以被路由到能够理解用户环境和意图的模型、工具和代理。NVIDIA Cosmos 模型提供视觉基础;NVIDIA Nemotron 模型提供语言理解、推理和工具调用;MCP 服务器则提供企业级工具和数据源。诸如 NVIDIA NeMo Agent Toolkit 之类的代理框架可以协调跨模型和工具的工作流程,而 NVIDIA CloudXR 则可以在应用程序需要丰富的 3D 交互时添加渲染的空间内容。
XR AI 通过将媒体传输、模型服务、工具访问、代理编排和客户端交付分离,实现了架构的模块化。视频像素可以保留在共享内存中,而轻量级元数据则在系统中传输,因此代理仅在任务需要时才检索图像数据。这减少了不必要的模型推理和数据移动,同时允许开发人员在无需重建整个代理的情况下更换客户端、模型、MCP 服务器、编排框架和部署环境。
该设计同样支持多用户和多代理场景。参与者身份充当路由边界:多个客户端可以连接到同一个中心,多个代理可以观察相同的流,并且每个响应都会被路由回正确的参与者。这种模式使得一个基础架构能够支持视觉理解、语音交互、企业工具使用、实时推理、情境感知型 XR 响应,并可灵活部署于 AI 眼镜、AR 眼镜、XR 头显、移动设备、Web 客户端和 CloudXR 等各种平台。
开始使用
XR AI 现已推出公开测试版。以下章节将详细介绍如何使用 XR AI 快速构建一个可用的智能 XR 代理,包括:
实时摄像头、麦克风和设备数据流
实时多模态交互
通过 Cosmos 驱动的 VLM 实现视觉接地
通过语音识别和 Nemotron 模型进行语音交互
通过 MCP 实现企业连接
可搜索的视觉知识捕获和检索工作流程
可通过 NeMo Agent Toolkit 或其他框架进行可选的代理编排
可选的 CloudXR 渲染空间内容
虽然不同行业的实施细节有所不同,但底层架构基本保持不变。
使用公开测试版构建您的第一个智能 XR 代理
步骤 1. 克隆 XR AI 代码库
GitHub 代码库包含示例代理、模型服务器启动器、MCP 服务器、Web 客户端、XR 工作流和核心媒体基础设施。理解该系统的最快方法是从一个简单的多模态代理入手,然后逐层添加功能。
bash gitclonehttps://github.com/NVIDIA/xr-ai.gitcdxr-ai
步骤 2. 启动人工智能服务
规模较大的示例使用可独立启动的共享人工智能服务:
bash cdagent-samples/model-servers uvsyncuv run model_servers
这将启动较复杂演示所使用的模型进程,并将权重加载到后台。
当前代码库中的模型服务器堆栈包括:
nvidia/parakeet-tdt-0.6b-v3 用于语音转文本
nvidia/Cosmos-Reason1-7B 用于视觉语言推理
用于快速、对延迟敏感的语言响应的 nvidia/Llama-3.1-Nemotron-Nano-8B-v1
NVIDIA-Nemotron-3-Nano-30B-A3B 用于更深入的工具调用工作流程
该agent-sdk/xr-ai-models软件包保持了模型层的灵活性。工作进程通过配置引用诸如llm、agent_llm、vlm、sst和tts之类的逻辑服务使开发人员能够在不更改代理逻辑的情况下切换端点、使用云托管模型或引入与 OpenAI 兼容的 APIs。
用于支持视觉理解、语音识别、语言推理和语音响应的核心人工智能服务已经就绪。
步骤 3. 运行传感器优先的 XR 代理
从最简单的代理开始:
bash cdagent-samples/simple-vlm-example uvsyncuv run simple_vlm_example
服务启动时,会打印出 Web 客户端 URL 和身份验证令牌。
打开网页客户端,连接,然后发送提示信息(例如 ping)或通过麦克风提问。
工作流程很简单:
客户端传输摄像头、麦克风和数据消息。
XR AI 通过 XR 媒体中心路由媒体。
语音被转换为文本。
使用 Cosmos 支持的 VLM 路径分析最新的相机帧。
代理会生成响应。
返回结果为文本和合成音频两种形式。
现在,这是一个可以正常运行的智能 XR 代理。它可以聆听、理解用户所看到的内容、分析视觉上下文,并在同一会话中使用文本和语音进行回应。
在添加企业系统、RAG 管道或空间渲染之前,这验证了最重要的能力:基于用户环境的实时多模态交互。
步骤 4. 通过 MCP 连接企业数据
大多数企业代理需要的不只是实时感知。研究人员可能需要协议步骤、实验元数据或数据集访问权限。现场技术人员可能需要维护记录。制造工程师可能需要作业指导书、控制器状态或数字孪生信息。XR AI 使用模型上下文协议 (MCP) 作为这些工作流程的集成层。
该存储库包含用于 XR 特定功能的 MCP 服务器:
用于视觉问答的 vlm-mcp
video-mcp 用于视频分析和查询
render-mcp 用于场景操作
用于 OpenXR 空间信息的 oxr-mcp
vec-mcp 用于矢量和空间实用程序
transcript-mcp 用于转录本的摄取和检索
开发人员还可以为企业系统、检索增强生成 (RAG)、数据库、数字孪生、资产管理系统和特定领域的工作流程构建自定义 MCP 服务器。
许多组织也对捕捉和理解来自物理世界的视觉信息感兴趣。XR 代理可以观察流程、检查、维护活动或研究工作流程,然后使用 NVIDIA 视频搜索和摘要(VSS)等技术对这些信息进行索引、汇总和检索。随着时间的推移,这将创建一个可搜索的视觉知识库,从而支持报告、培训、合规性、运营审查和检索增强型生成工作流程。
在这里,智能体开始超越感知,进入企业行动和组织记忆领域。
步骤 5. 添加代理编排
以下示例改编自 NeMo Agent Toolkit MCP 客户端工作流模式。实际上,此配置将位于 NeMo Agent Toolkit 工作流定义中,并使代理能够发现 XR AI MCP 服务器公开的工具。
function_groups: xr_tools: _type: mcp_client server: transport: streamable-http url:"http://localhost:8220/mcp" workflow: _type: react_agent tool_names: - xr_tools
重点不在于框架,而在于 XR AI 为实时媒体、多模态感知和企业连接提供了一致的基础,同时使开发人员能够选择最适合其环境的编排方法。
对更高级的编排工作流感兴趣的开发人员应该查看 NeMo Agent Toolkit 文档(https://docs.nvidia.com/nemo/agent-toolkit/latest/)(复制链接至浏览器打开,下同),其中包含 MCP 集成、工具调用、多代理系统和基于 RAG 的工作流的详细示例。
步骤 6:添加 CloudXR 渲染的空间体验
并非所有 XR 工作流程都需要渲染的 3D 内容。有些智能体只需要摄像头、麦克风、语言支持和企业级工具。当工作流程能够从空间可视化中获益时,XR AI 可以将智能体层与 NVIDIA CloudXR 相结合。
bash cdagent-samples/xr-render-demo uvsyncuv run xr_render_demo
此工作流程启动XR Media Hub、CloudXR 运行时、模型服务、MCP 服务器和代理工作程序。
代理可以通过 MCP 调用渲染工具,在用户的空间环境中创建、更新和操作对象。CloudXR 将最终体验从 GPU 基础设施流式传输到客户端设备。
该演示还展示了一种实用的生产模式。较小的模型负责快速确认和状态更新,而较大的模型则执行更深入的推理和工具使用。用户可以立即获得反馈,而更复杂的操作则在后台继续进行。在此阶段,XR 代理可以与物理环境和渲染的空间内容进行交互。
您现在拥有一个可正常运行的智能 XR 代理,可以根据您的用例进行定制。您还可以了解更多信息或联系我们,以建立更深入的合作关系。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com