英伟达近期发布的Cosmos-Reason1模型在物理常识推理领域引发广泛关注。作为专为物理世界交互设计的多模态大语言模型,它通过融合视觉感知与复杂逻辑推理,重新定义了AI对物理世界的理解边界。以下从技术架构、训练策略、核心能力及行业影响四方面展开深度解读:
Cosmos-Reason 1:从物理 AI 常识到具体决策
物理 AI 系统需要感知、理解和执行物理世界中的复杂作。在本文中,我们提出了 Cosmos-Reason1 模型,该模型可以理解物理世界并通过长链推理过程以自然语言生成适当的具体决策(例如,下一步行动)。我们首先定义物理 AI 推理的关键功能,重点介绍物理常识和具身推理。为了表示物理常识,我们使用了分层本体,它捕获了有关空间、时间和物理学的基本知识。对于具身推理,我们依赖于一个二维本体论,它泛化了不同的物理体现。基于这些功能,我们开发了两个多模态大型语言模型,即 Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。我们分四个阶段整理数据和训练我们的模型:视觉预训练、一般监督微调 (SFT)、物理 AI SFT 和物理 AI 强化学习 (RL) 作为后训练。为了评估我们的模型,我们根据我们的本体为物理常识和具体推理构建了全面的基准。评估结果表明,Physical AI SFT 和强化学习带来了显著的改进。为了促进物理 AI 的开发,我们将在 NVIDIA 开放模型许可下提供我们的代码和预训练模型,https://github.com/nvidia-cosmos/cosmos-reason1[](https://github.com/nvidia-cosmos/cosmos-reason1 "(opens in a new window)")。
作者
林宗义刘明宇
出版日期
2025 年 3 月 18 日,星期二
研究领域
自动驾驶汽车
生成式 AI
物理 AI
机器人
上传的文件:*附件:Cosmos_Reason1_Paper.pdf
Cosmos-Reason1采用 Mamba-MLP-Transformer混合架构 ,这是英伟达对物理AI领域的一次重要创新:
该架构支持80亿(8B)和560亿(56B)参数两种规模,训练时分别采用张量并行(TP=4)和流水线并行(TP=8 PP=2),可处理长达32帧的视频输入。
模型训练分为四个递进阶段,体现英伟达在物理AI数据构建上的深度思考:
模型在物理常识与具身推理基准测试上表现出色,具体体现在:
Cosmos-Reason1的突破将重塑多个领域:
Cosmos-Reason1通过混合架构、强化学习、物理法则编码三大创新,构建了从感知到推理的完整闭环。它不再是被动的“观察者”,而是能主动运用物理法则进行决策的“参与者”。这种能力可能催生新一代具身智能体,在物理世界中展现出更接近人类的智能行为。
免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
如有疑问请发送邮件至:bangqikeconnect@gmail.com