英伟达GROOT N1 全球首个开源人形机器人基础模型

发布时间：2025-03-20 11:47:20

在NVIDIA，我们正在开发AI解决方案，以使通用的人形机器人能够理解人类世界，遵循语言指示并执行各种任务。强大的视觉语言动作（VLA）模型对于此类高级功能至关重要。为此，我们开发了GR00T N1，这是一种通用的机器人模型，该模型在包括以上为中心的人类视频，真实和模拟的机器人轨迹以及合成数据的各种数据集中训练。

GR00T N1在多个机器人实施方案的模拟基准中优于模拟基准中的最先进的模仿学习模型。此外，它在家用任务中表现出对傅立叶GR-1和1X类人生物的有效语言双层操作。

为了帮助AI解决我们社会中最关键的问题，我们通过NVIDIA ISAAC GR00T获得允许的许可，使模型开放权重。

GROOT N1是英伟达公司推出的全球首个开源基础模型，专为通用人形机器人设计。它基于多模态输入（如语言和图像）能够在多样化环境中执行操作任务。该模型基于大规模人形机器人数据集进行训练，结合了真实数据、合成数据和互联网视频数据，以便适应特定机器人形态、任务和环境。GROOT N1采用双系统架构，其中视觉-语言模型负责推理和规划，而扩散变换器则负责生成精确动作。在模拟和真实世界测试中，GROOT N1表现出色，尤其在复杂多步任务和精准操作中展现出明显优势，为材料处理、包装和检查等应用提供了高效解决方案。

NVIDIA ISAAC GR00T N1：人形机器人的开放基础模型

*附件：GR00T_1_Whitepaper.pdf

GROOT N1‌ 的核心优势与特点总结：

NVIDIA GROOT N1采用的是双系统架构，包括视觉-语言模型和扩散变换器。

视觉-语言模型（System 2）：基于NVIDIA-Eagle和SnolLM-1.7B构建，负责用视觉和语言指令理解环境，进行推理和规划，输出动作计划。
扩散变换器（System 1）：作为动作模型，将视觉-语言模型的计划转化为精确的连续动作，控制机器人运动。

此外，NVIDIA GROOT N1在数据策略方面，预训练数据包括互联网视频数据、合成数据和真实机器人数据。无监督学习从大规模未标注的人类视频数据中提取运动模式，从而提高了机器人的学习效率。

核心优势‌

‌首创开源基础模型‌
- 全球首个专为通用人形机器人设计的开源基础模型，推动技术共享与生态协作。
‌多模态融合能力‌
- 支持语言、图像等多模态输入，适应复杂环境中的动态任务需求。
‌数据多样性训练‌
- 结合真实数据、合成数据及互联网视频数据，提升模型在形态、任务和环境上的泛化能力。
‌高精度动作生成‌
- 通过扩散变换器（Diffusion Transformer）生成精确动作，解决复杂操作难题。
‌应用场景广泛‌
- 在材料处理、包装、检查等任务中表现优异，尤其擅长多步骤操作与精准控制。

‌技术特点‌

‌双系统架构设计‌
- ‌视觉-语言模型‌：负责任务推理与规划，理解环境语义；
- ‌扩散变换器‌：专注于动作序列生成，实现毫米级操作精度。
‌跨环境适应性‌
- 模拟与真实世界测试均验证其稳定性和可靠性，可快速部署至多样化场景。
‌人形机器人专用优化‌
- 针对人形机器人的物理结构与运动逻辑进行深度适配，强化动作连贯性。
‌开源生态支持‌
- 开放模型架构与训练框架，助力开发者定制化开发与行业应用拓展。

‌主要功能‌：

通用操作任务执行：GROOT N1能在多样化环境中执行各种操作任务，如抓取、搬运以及双臂协调操作等。
多模态输入处理：该机器人能够同时处理语言指令和视觉图像，根据自然语言指令执行复杂的操作任务。
跨机器人形态适应性：GROOT N1能适应不同类型的机器人平台，如Fourier GR-1和1X Neo，实现通用性。
复杂任务推理与规划：它能执行需要持续上下文理解和多种技能整合的复杂多步任务。
高效数据利用与训练：结合互联网规模数据、合成数据和真实机器人数据进行预训练，显著提升性能和泛化能力，减少对大规模标注数据的依赖。

‌总结‌

GROOT N1 通过多模态融合、双系统协同与高精度动作生成，为人形机器人提供了高效、通用的智能解决方案，是工业自动化与复杂环境作业领域的突破性技术。

开源开源关注
关注
3
文章
3483
浏览量
42994

免责声明：本文为转载，非本网原创内容，不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。

如有疑问请发送邮件至：bangqikeconnect@gmail.com

英伟达GROOT N1 全球首个开源人形机器人基础模型

核心优势‌

‌技术特点‌

‌总结‌

相关阅读

ai资讯推荐

最新资讯