/ ai资讯

英伟达Cosmos-Reason1 模型深度解读

发布时间:2025-03-31 11:50:57

英伟达近期发布的Cosmos-Reason1模型在物理常识推理领域引发广泛关注。作为专为物理世界交互设计的多模态大语言模型,它通过融合视觉感知与复杂逻辑推理,重新定义了AI对物理世界的理解边界。以下从技术架构、训练策略、核心能力及行业影响四方面展开深度解读:

Cosmos-Reason 1:从物理 AI 常识到具体决策

物理 AI 系统需要感知、理解和执行物理世界中的复杂作。在本文中,我们提出了 Cosmos-Reason1 模型,该模型可以理解物理世界并通过长链推理过程以自然语言生成适当的具体决策(例如,下一步行动)。我们首先定义物理 AI 推理的关键功能,重点介绍物理常识和具身推理。为了表示物理常识,我们使用了分层本体,它捕获了有关空间、时间和物理学的基本知识。对于具身推理,我们依赖于一个二维本体论,它泛化了不同的物理体现。基于这些功能,我们开发了两个多模态大型语言模型,即 Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。我们分四个阶段整理数据和训练我们的模型:视觉预训练、一般监督微调 (SFT)、物理 AI SFT 和物理 AI 强化学习 (RL) 作为后训练。为了评估我们的模型,我们根据我们的本体为物理常识和具体推理构建了全面的基准。评估结果表明,Physical AI SFT 和强化学习带来了显著的改进。为了促进物理 AI 的开发,我们将在 NVIDIA 开放模型许可下提供我们的代码和预训练模型,https://github.com/nvidia-cosmos/cosmos-reason1[](https://github.com/nvidia-cosmos/cosmos-reason1 "(opens in a new window)")。

作者

林宗义刘明宇

出版日期

2025 年 3 月 18 日,星期二

研究领域

自动驾驶汽车

生成式 AI

物理 AI

机器人

上传的文件:*附件:Cosmos_Reason1_Paper.pdf

一、技术架构:混合架构突破物理推理瓶颈

Cosmos-Reason1采用 Mamba-MLP-Transformer混合架构 ,这是英伟达对物理AI领域的一次重要创新:

  1. 视觉编码器 :使用InternViT-300M-V2.5处理图像/视频,将视觉信息压缩为256个token,保留全局上下文。
  2. 模态对齐 :通过两层MLP投影器,将视觉token映射到文本嵌入空间,实现视觉与语言模态的统一处理。
  3. 混合解码器 :结合Mamba架构(擅长空间关系建模)与Transformer(长程依赖捕捉),弥补纯Transformer在空间理解上的短板。

该架构支持80亿(8B)和560亿(56B)参数两种规模,训练时分别采用张量并行(TP=4)和流水线并行(TP=8 PP=2),可处理长达32帧的视频输入。

二、训练策略:四阶段强化物理常识

模型训练分为四个递进阶段,体现英伟达在物理AI数据构建上的深度思考:

  1. 视觉预训练
    • 使用1.3亿图像文本对(含模型生成字幕)对齐视觉与语言模态。
    • 仅训练MLP投影器,冻结LLM主干以保留语言理解能力。
  2. 通用监督微调(SFT)
    • 在600万图像 200万视频文本数据上微调,增强基础视觉语言任务能力。
    • 数据覆盖字幕生成、视觉问答等通用任务。
  3. 物理AI监督微调
    • 创新构建物理常识与具身推理专用数据集,包含:
      • 物理常识VQA :通过模型生成假设性问题(如“若视频中的扳手松动,会如何运动?”),并提取推理轨迹。
      • 具身推理SFT :从人机协作视频中分解短时动作片段,标注任务完成验证、行动可行性等推理标签。
  4. 强化学习(RL)后训练
    • 设计基于物理规则的奖励机制,优化复杂场景下的推理能力。例如:
      • 时间箭头检测 :判断视频是否正序播放。
      • 空间谜题 :推理物体在遮挡后的位置。
      • 物体永久性 :理解被遮挡物体持续存在的物理法则。

三、核心能力:三维物理世界的“牛顿式”推理

模型在物理常识与具身推理基准测试上表现出色,具体体现在:

  1. 物理法则内化
    • 通过16层知识图谱编码重力、惯性等基础物理定律。例如:
      • 能计算“暴雨中卡车打滑需提前0.3秒修正方向”。
      • 预判“机械臂扭矩超限可能导致设备损坏”。
  2. 长链思考能力
    • 生成包含37步的维修操作思维链,细节精确到“砂石地面禁用千斤顶”。
    • 在自动驾驶场景中,200毫秒内完成“后视镜影像识别→相对速度计算→碰撞预判→决策延迟变道”的完整推理。
  3. 跨模态一致性
    • 统一处理图像、视频、文本模态。例如:
      • 通过热成像视频判断火灾现场承重墙状态,规划逃生路径。
      • 解析“用扳手敲击玻璃”的视频后,能推理出“玻璃可能破裂”的结论。

四、行业影响:物理世界的决策革命

Cosmos-Reason1的突破将重塑多个领域:

  1. 自动驾驶
    • 超越传统视觉识别,实现物理预判。例如:
      • 预判道路施工并提前规划变道,计算车流间隙是否满足2.3秒变道时间。
  2. 工业机器人
    • 使机械臂具备“物理直觉”。如:
      • 抓取零件时主动预警“当前扭矩超出轴承极限”,建议功率下调15%。
  3. 物理模拟与训练
    • 可生成高真实度虚拟场景,加速机器人训练。例如:
      • 在模拟的十万次车祸中优化应急决策算法。
  4. 开源生态布局

    总结:物理AI的“认知飞轮”

    Cosmos-Reason1通过混合架构、强化学习、物理法则编码三大创新,构建了从感知到推理的完整闭环。它不再是被动的“观察者”,而是能主动运用物理法则进行决策的“参与者”。这种能力可能催生新一代具身智能体,在物理世界中展现出更接近人类的智能行为。

    免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

    如有疑问请发送邮件至:bangqikeconnect@gmail.com