人形机器人需要能够适应人类工作空间,处理重复性或高强度任务。然而,为真实世界的任务和不可预测的环境创建通用人形机器人是一项挑战。通常来说,这些任务中的每一个都需要一个专用的 AI 模型。由于需要大量特定于任务的数据、高昂的计算成本,且模型的泛化能力有限,针对每一个新的任务和环境,从零开始训练这些模型是一个非常繁琐的过程。
NVIDIA Isaac GR00T通过提供开源的 SimReady 数据、仿真框架(如NVIDIA Isaac Sim和Isaac Lab)、合成数据蓝图和预训练基础模型,能够帮助解决这些挑战并加速通用人形机器人的开发。
NVIDIA Isaac GR00T N1 的特点和优势
NVIDIA Isaac GR00T N1是世界上首个用于通用人形机器人推理和技能的开源基础模型。这个跨实体模型接受包括语言和图像在内的多模态输入,以便在各种不同的环境中执行操作任务。
GR00T N1 基于一个庞大的人形机器人数据集进行训练,训练数据还补充了通过NVIDIA Isaac GR00T Blueprint生成的合成数据,以及来自互联网的大量视频数据。它可以通过后训练适应特定的实体、任务和环境。现在,开发者可以通过 Hugging Face 上的开源 NVIDIA 物理 AI 数据集免费获得其中的部分数据。
GR00T N1 使用一个模型和一组权重来实现人形机器人上的操作行为,例如 Fourier GR-1 和 1X Neo。它展示了在一系列任务中的强大泛化能力,包括用单臂或双臂抓取和操作物体,以及在双臂之间转移物品。
它还可以执行需要持续上下文理解和整合多种技能的复杂多步骤任务。这些功能可应用于物品搬运、包装和检查等各种使用场景中。
GR00T N1 2B 模型已经正式推出,这是 NVIDIA 一系列可完全定制模型中的首个模型。NVIDIA 将对这一系列模型进行预训练并发布。
GR00T N1 模型架构
受人类认知原理的启发,GR00T N1 基础模型采用双系统架构:
视觉-语言模型(系统 2):这个系统基于 NVIDIA-Eagle 和 SmolLM-1.7B,是一个方法论思考系统。它通过视觉和语言指令解释环境,使机器人能够对其环境和指令进行推理,并规划正确的行动。
扩散 Transformer(系统 1):这个动作模型生成连续动作以控制机器人的运动,将系统 2 制定的动作计划转化为精确、连续的机器人运动。
这两个系统紧密耦合,使它们在后训练期间可以一起优化。
图 2. GR00T N1 模型架构
GR00T N1 的预训练数据策略
训练像 GR00T N1 这样的通用模型需要一个强大的数据策略,该策略能够利用不同数据类型的互补优势。GR00T N1 的训练数据构成了一个金字塔结构,从底部到顶部,数据量逐渐减少,而针对具体实体的特定性则逐渐增强。
底层的数据集合了来自互联网的大规模数据和人类视频,提供了一个广泛的视觉和语言信息基础。这些数据集记录了人与物体的交互情况,有助于深入了解自然动作模式和任务语义。
中间层为由 NVIDIA Omniverse 平台生成的合成数据。
顶部是通过在各种平台上远程操作收集的真实机器人数据,能精准反映机器人的实际能力。
以人为中心的在线视频提供了关于人类与物体交互的有价值的信息,但缺乏机器人的电机控制信号。仿真数据通过 GPU 加速提供了无限的实时数据,填补了这一空白,但它面临仿真到现实的差距。
真实机器人数据弥合了这一差距,但成本高昂且耗时。通过结合这些多样化的数据并使用诸如潜在动作训练等技术,机器人可以从大规模、未标记的人类视频数据中学习而无需监督,从而形成一种强大的策略,增强机器人训练,提高 GR00T N1 的性能和适应性。
这种策略通过 NVIDIA Isaac GR00T Blueprint 得以实际应用。通过它,可以在短短 11 小时内生成超过 75 万个合成轨迹,相当于 6500 小时或九个月连续的人类演示数据。将这些合成数据与真实数据相结合后,与仅使用真实数据进行训练的情况相比,GR00T N1 的性能能够提升 40%。
利用 GR00T N1 进行开发
您可以按照以下步骤开始使用 GR00T N1:
数据准备:将您的机器人演示数据(视频、状态、动作)三元组格式化为与 Hugging Face LeRobot 格式兼容的 GR00T 数据集。
数据验证:使用验证脚本确保您的数据符合正确的格式。
后训练:使用 PyTorch 脚本,用您的自定义数据集对预训练的 GR00T N1 模型进行微调。
推理:将推理脚本连接到您的机器人控制器,以使用后训练的 GR00T N1 模型在目标硬件或仿真环境中执行动作。
评估:运行评估脚本以获取模型的任务成功率。
性能
GR00T N1 模型通过仿真和真实世界的基准测试进行评估,以检验其在不同的机器人实体和操作任务中的性能。仿真实验采用了三个不同的基准,而真实世界的测试则聚焦于使用 GR-1 人形机器人执行的桌面操作任务。
仿真基准测试
仿真实验使用了三个基准测试:两个来自先前研究的开源基准测试和一个模仿现实世界桌面操作任务的新套件,选择这些基准测试是为了在不同的机器人实体和多种操作任务中评估模型。
表 1. 每个任务使用 100 次演示的仿真基准测试平均成功率
现实基准测试
针对一系列需要精准物体操控、双手协调动作以及具备高级空间感知能力的操作任务,对这些模型进行了评估,这使得模型在复杂的交互操作中能够实现精细的控制。
表 2. 使用 GR-1 人形机器人在现实任务上的平均策略成功率
表 3. 使用 GR-1 人形机器人在真实任务上的平均策略成功率
与扩散策略基线相比,Isaac GR00T N1 模型展示了更平滑和流畅的运动,以及在抓取精度上的显著提高,特别是在使用较小的后训练数据集进行微调时。
进一步的结果表明,GR00T N1 不仅更有效地学习新任务,而且比基线方法更精确地遵循语言指令。
关注
14文章
5166浏览量
105095免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com