/ ai资讯

深入解析NVIDIA Nemotron 3系列开放模型

发布时间:2025-12-24 11:46:28

这一全新开放模型系列引入了开放的混合 Mamba-Transformer MoE 架构,使多智能体系统能够进行快速长上下文推理。

代理式AI系统日益依赖协同运行的智能体集合,包含检索器、规划器、工具执行器、验证器等,它们需在大规模上下文上长时间协同工作。这类系统需要能够提供快速吞吐、高推理精度及大规模输入持续一致性的模型。它们也需要一定的开放性,使开发者能够在任意运行环境定制、扩展和部署模型。

NVIDIANemotron3系列开放模型(Nano、Super、Ultra)、数据集和技术专为在新时代构建专业代理式AI而设计。

该系列引入了异构Mamba-Transformer混合专家(mixture-of-experts,MoE)架构、交互式环境强化学习(reinforcement learning,RL),以及原生100万token上下文窗口,可为多智能体应用提供高吞吐量、长时推理能力。

Nemotron3的新特性

Nemotron3引入了多项创新技术,可精准满足代理式系统需求:

混合Mamba-TransformerMoE主干提供出色的测试时效率与长程推理能力。

围绕真实世界代理式任务设计的多环境强化学习。

100万token上下文长度支持深度多文档推理与长时间智能体记忆。

开放透明的训练管道,包含数据、权重及方案。

Nemotron3 Nano现已推出并附带现成使用指南。Super与Ultra将于稍晚发布。

简单提示示例

Nemotron3模型的核心技术

混合Mamba-TransformerMoE架构

Nemotron3将三种架构整合成一个主干:

Mamba层:实现高效序列建模

Transformer层:保障推理精度

MoE路由:实现可扩展计算效率

Mamba层擅长以极低显存开销追踪长程依赖,即使处理数十万token仍能保持稳定的性能。Transformer层通过精细注意力机制对此进行了补充,捕捉例如代码操作、数学推理或复杂规划等任务所需的结构与逻辑关联。

MoE组件在不增加密集计算开销的前提下提升了有效参数数量。每个token仅激活一部分专家,从而降低了延迟并提高了吞吐量。该架构特别适合需要同时运行大量轻量级智能体的集群场景,每个智能体都生成计划、检查上下文或执行基于工具的工作流。

图1:Nemotron3混合架构。该模型通过交错部署Mamba-2与MoE层,辅以少量自注意力层,在保持领先精度的同时实现推理吞吐量最大化。

多环境强化学习(RL)训练

为使Nemotron3契合真实代理式行为,该模型在NeMoGym(一个用于构建和扩展RL环境的开源库)中通过跨多种环境的强化学习进行后训练。这些环境评估模型执行连续动作序列的能力(不仅是单次响应),例如生成正确的工具调用、编写功能性代码,或生成满足可验证标准的多步骤计划。

这种基于轨迹的强化学习带来了在多步骤工作流中表现稳定的模型,减少推理漂移,并能处理代理式管道中常见的结构化操作。由于NeMoGym是开源的,开发者可在为特定领域任务定制模型时复用、扩展甚至创建自己的环境。

这些环境和RL数据集连同NeMoGym一起上线,供有意使用这些环境训练自己模型的用户使用。

图2:Nemotron3 Nano通过混合MoE架构实现极高的吞吐效率,并借助NeMoGym的先进强化学习技术达到领先精度

100万token上下文长度

Nemotron3的100万token上下文使其能够在大型代码库、长文档、扩展对话及聚合检索内容中进行持续推理。智能体无需依赖碎片化的分块启发式方法,就可以在单个上下文窗口中完整保留证据集、历史缓冲及多阶段计划。

这种长上下文窗口得益于Nemotron3的混合Mamba-Transformer架构,它能够高效处理超大规模的序列。MoE路由也能保持较低的单个token计算成本,使得在推理时处理这些大型序列成为可能。

对于企业级检索增强生成、合规性分析、多小时智能体会话或整体存储库理解等场景,100万token窗口可显著加固事实基础并减少上下文碎片化。

Nemotron3 Super与Ultra的核心技术

潜在MoE

Nemotron3 Super与Ultra引入了潜在MoE,其中专家先在共享潜在表示中运行,然后再将输出结果投影回token空间。该方法使模型能够在相同推理成本下调用多达4倍的专家,从而更好地围绕微妙语义结构、领域抽象或多跳推理模式实现专业化。

图3:标准MoE与潜在MoE架构对比。在潜在MoE中,token被投影至更小的潜在维度进行专家路由与计算,在降低通信成本的同时支持更多专家参与,并提高每字节精度。

多token预测(MTP)

MTP使模型能够在一次前向传播中预测多个未来token,从而显著提高长推理序列和结构化输出的吞吐量。对于规划、轨迹生成、扩展思维链或代码生成,MTP可降低延迟并提高智能体的响应速度。

图4:多token预测(源自论文《通过多token预测实现更优更快的大语言模型》)可同时预测多个未来token,在训练阶段将精度提高约2.4%,在推理阶段实现了推测性解码加速。

NVFP4训练

Super与Ultra模型采用NVFP4精度进行预训练,NVIDIA的4位浮点格式可为训练与推理提供业界领先的成本精度比。我们为Nemotron3设计了更新版NVFP4方案,确保在25万亿token预训练数据集上能够实现精准且稳定的预训练。预训练过程中的大部分浮点乘加运算均采用NVFP4格式。

持续致力于开放模型

Nemotron3彰显了NVIDIA对透明度与开发者赋能的承诺。该模型的权重已根据NVIDIA开放模型许可协议(NVIDIA Open Model License)公开发布。NVIDIA的合成预训练语料库(近10万亿token)可以被查阅或重用。开发者还可获取NemotronGitHub库中的详细训练与后训练方案,实现完全的可复现性与定制化。

Nemotron3 Nano已发布,为高吞吐量、长上下文代理式系统奠定了基础。Super与Ultra将于2026年上半年发布,将在此基础上进一步深化推理能力和提高架构效率。

Nemotron3 Nano现已发布

系列首款模型Nemotron3 Nano已于近日发布。这个总参数300亿、激活参数30亿的模型专为DGX Spark、Hopper GPU及Blackwell GPU设计,让用户能够使用Nemotron3系列中较高效的模型进行开发。

如果您想要了解更多关于Nemotron3 Nano的技术细节,可访问Hugging Face博客,或阅读技术报告。

该模型可达到极高的吞吐量效率,在Artificial Analysis Intelligence Index上成绩领先,并且在Artificial AnalysisOpenness Index上保持了与NVIDIANemotronNano V2相同的分数。这充分展现了其在多智能体任务中的高效性,同时兼具透明度与可定制性。

图5:在Artificial AnalysisIntelligence Indexv3.0上,Nemotron3 Nano的精度(52)领先于同等规模模型。

开发者现可在多种部署与开发工作流中使用Nemotron3 Nano:

通过NVIDIA使用指南启动模型

我们为多个主流推理引擎提供现成使用指南:

vLLM使用指南:通过高吞吐量连续批处理和流式输出部署Nemotron3 Nano。

SGLang使用指南:运行专为多智能体工具调用工作负载优化的快速、轻量级推理。

TRT LLM使用指南:部署专为低延迟生产级环境完全优化的TensorRTLLM引擎。

每套使用指南均包含配置模板、性能优化建议及参考脚本,助您在数分钟内启动Nemotron3 Nano。

此外,从GeForce RTX台式电脑/笔记本电脑、RTX Pro工作站到DGX Spark,您可以立即在任意NVIDIA GPU上使用Nemotron,并借助Llama.cpp、LM Studio和Unsloth等顶级框架与工具上手。

使用Nemotron开放训练数据集进行开发

NVIDIA同时发布了在整个模型开发期间使用的开放数据集,为高性能、可信模型的构建带来了空前的透明度。

新数据集的特点包括:

Nemotron预训练:新的3万亿token数据集,通过合成增强与标注管道进行增强,更加全面地覆盖代码、数学及推理场景。

Nemotron后训练3.0:1,300万样本语料库,用于监督式微调与强化学习,为Nemotron3 Nano的对齐与推理能力提供支持。

Nemotron强化学习数据集:精选的强化学习数据集与环境集合,涵盖工具使用、规划及多步骤推理。

Nemotron智能体安全数据集:近1.1万条AI智能体工作流轨迹集合,帮助研究人员评估和减轻代理式系统中的新型安全风险。

配合NVIDIANeMoGym、RL、Data Designer及Evaluator开放库,这些开放数据集使开发者能够训练、增强和评估他们自己的Nemotron模型。

探索NemotronGitHub:预训练与强化学习方案

NVIDIA维护着一个开放的NemotronGitHub库,其中包含:

预训练方案(已发布),展示Nemotron3 Nano的训练过程

用于多环境优化的强化学习对齐方案

数据处理管道、分词器配置及长上下文设置

后续更新将加入更多后训练与微调方案

如果您想训练自己的Nemotron、扩展Nano或创建特定领域的变体,GitHub库提供了文档、配置及工具,可从头至尾重现关键步骤。

这种开放性实现了完整闭环:您可以运行、部署模型,查验模型的构建方式,甚至训练您自己的模型,全程仅需使用NVIDIA开放资源。

Nemotron3 Nano现已上线。即刻开始使用NVIDIA开放模型、开放工具、开放数据及开放训练基础设施,构建长上下文、高吞吐量的代理式系统。

Nemotron模型推理挑战赛

加速开放研究是Nemotron团队的核心使命。为此,我们十分高兴地宣布一项新的社区竞赛,其内容是使用Nemotron的开放模型与数据集提高Nemotron的推理性能。

关于作者

Chris Alexiuk 是 NVIDIA 的深度学习开发者倡导者,负责创建技术资源,帮助开发者使用 NVIDIA 提供的一整套强大 AI 工具。Chris 拥有机器学习和数据科学背景,对大型语言模型的一切充满热情。

Shashank Verma 是 NVIDIA 的一名深入学习的技术营销工程师。他负责开发和展示各种深度学习框架中以开发人员为中心的内容。他从威斯康星大学麦迪逊分校获得电气工程硕士学位,在那里他专注于计算机视觉、数据科学的安全方面和 HPC 。

Chintan Patel是NVIDIA的高级产品经理,致力于将GPU加速的解决方案引入HPC社区。 他负责NVIDIA GPU Cloud注册表中HPC应用程序容器的管理和提供。 在加入NVIDIA之前,他曾在Micrel,Inc.担任产品管理,市场营销和工程职位。他拥有圣塔克拉拉大学的MBA学位以及UC Berkeley的电气工程和计算机科学学士学位。

免责声明:本文为转载,非本网原创内容,不代表本网观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。

如有疑问请发送邮件至:bangqikeconnect@gmail.com