在NVIDIA,我们正在开发AI解决方案,以使通用的人形机器人能够理解人类世界,遵循语言指示并执行各种任务。强大的视觉语言动作(VLA)模型对于此类高级功能至关重要。为此,我们开发了GR00T N1,这是一种通用的机器人模型,该模型在包括以上为中心的人类视频,真实和模拟的机器人轨迹以及合成数据的各种数据集中训练。
GR00T N1在多个机器人实施方案的模拟基准中优于模拟基准中的最先进的模仿学习模型。此外,它在家用任务中表现出对傅立叶GR-1和1X类人生物的有效语言双层操作。
为了帮助AI解决我们社会中最关键的问题,我们通过NVIDIA ISAAC GR00T获得允许的许可,使模型开放权重。
GROOT N1是英伟达公司推出的全球首个开源基础模型,专为通用人形机器人设计。它基于多模态输入(如语言和图像)能够在多样化环境中执行操作任务。该模型基于大规模人形机器人数据集进行训练,结合了真实数据、合成数据和互联网视频数据,以便适应特定机器人形态、任务和环境。GROOT N1采用双系统架构,其中视觉-语言模型负责推理和规划,而扩散变换器则负责生成精确动作。在模拟和真实世界测试中,GROOT N1表现出色,尤其在复杂多步任务和精准操作中展现出明显优势,为材料处理、包装和检查等应用提供了高效解决方案。
NVIDIA ISAAC GR00T N1:人形机器人的开放基础模型
*附件:GR00T_1_Whitepaper.pdf
GROOT N1 的核心优势与特点总结:
NVIDIA GROOT N1采用的是双系统架构,包括视觉-语言模型和扩散变换器。
此外,NVIDIA GROOT N1在数据策略方面,预训练数据包括互联网视频数据、合成数据和真实机器人数据。 无监督学习从大规模未标注的人类视频数据中提取运动模式,从而提高了机器人的学习效率。
主要功能:
GROOT N1 通过多模态融合、双系统协同与高精度动作生成,为人形机器人提供了高效、通用的智能解决方案,是工业自动化与复杂环境作业领域的突破性技术。
关注
3文章
3483浏览量
42994免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com