NVIDIA Nemotron 3 Ultra 发布:面向长时间运行 Agent 的开放推理模型

整理 NVIDIA 发布的 Nemotron 3 Ultra:一个 550B 参数、55B active 的 MoE 开放模型,面向长时间运行 Agent 的推理编排、长上下文、高吞吐、低成本和企业可定制部署。

NVIDIA 在 2026 年 6 月 4 日发布了 Nemotron 3 Ultra。这是一个面向长时间运行 Agent 的开放推理模型,采用 550B 参数的 Mixture-of-Experts 架构,每次推理激活约 55B 参数。

这次发布的重点不是“又一个大模型聊天助手”,而是一个更明确的方向:让多轮、多工具、多子代理的 Agent 工作流跑得更快、更便宜、更稳定。

为什么 NVIDIA 强调 long-running agents

普通聊天模型面对的是一次提问、一次回答。Agent 面对的是一串任务链。

一个真正长时间运行的 Agent 可能会:

  • 制定计划;
  • 调用搜索、代码、数据库或企业工具;
  • 把任务分给子 Agent;
  • 接收工具结果;
  • 继续推理下一步;
  • 验证输出;
  • 遇到错误后恢复。

这个过程会让 token 数量快速膨胀。任务跑得越久,历史消息、工具输出、推理步骤和中间结果越多,模型调用成本越高,目标漂移的风险也越大。

NVIDIA 的思路是用“模型系统”解决这个问题:关键推理和编排交给更强的 frontier reasoning 模型,高频执行、验证和工具调用交给更高效的模型。Nemotron 3 Ultra 的位置,就是这个系统里的高能力编排模型。

Nemotron 3 Ultra 的核心定位

Nemotron 3 Ultra 是一个 550B 参数 MoE 模型,但每次推理只激活约 55B 参数。它面向的不是轻量聊天,而是 Agent 工作流里的困难调用。

官方举的例子包括:

  • 在长时间代码任务中保持架构决策一致;
  • 从数百个研究来源里综合互相矛盾的证据;
  • 在数千个约束下验证芯片设计;
  • 在多轮任务中规划、调用工具、恢复错误和继续执行。

也就是说,Ultra 更像是 Agent 系统里的“总调度 + 深推理”组件,而不是每一次工具调用都要用的便宜执行模型。

性能和效率指标

NVIDIA 在官方博客中给出了一组对比指标。Nemotron 3 Ultra 在多个 Agent 和长上下文相关测试中表现接近或领先同级开放模型:

  • PinchBench91%
  • EnterpriseOps-Gym33%
  • Terminal-Bench 2.054%
  • IFBench82%
  • Ruler @1M95%

官方还强调,它在同级开放模型中可以达到最高 5x 的吞吐优势。对于长时间运行 Agent,这个数字比单轮 benchmark 更重要,因为 Agent 任务通常不是一次回答结束,而是连续多轮调用。

另一个关键点是成本。NVIDIA 表示,在 SWE-bench 和 Terminal-Bench 2.0 实验中,Nemotron 3 Ultra 用更少的总 token 和每轮 token 完成任务,让 Agent 任务成本最多下降 30%

对开发者来说,这意味着 Nemotron 3 Ultra 不只是在追求“答得对”,也在优化“完成整个任务要花多少 token、多少时间、多少钱”。

Hybrid Mamba-Transformer:为了长上下文效率

长上下文 Agent 有两个矛盾需求。

一方面,它需要高效处理很长的序列,因为工具输出和历史轨迹会不断增长。另一方面,它又需要精准回忆上下文里的具体事实,例如某一步工具输出、某个文件路径、某个约束条件。

Nemotron 3 Ultra 采用 Hybrid Mamba-Transformer 架构来平衡这两点:

  • Mamba layers 提高长序列处理效率;
  • Transformer layers 保留对具体上下文事实的精准召回能力。

这种设计很适合 Agent 场景。Agent 不只是读长文档,也会不断把自己的行动轨迹写进上下文。如果模型长上下文效率不够,任务越跑越慢;如果精准召回能力不够,任务又容易在后半程忘记关键约束。

NVFP4:同一 checkpoint 覆盖多代 NVIDIA GPU

NVIDIA 还强调了 NVFP4 精度。

官方说,同一个 NVFP4 checkpoint 可以运行在 NVIDIA Hopper、Blackwell 和 Ampere GPU 上。借助专门的 NVFP4 量化 kernel,开发者可以用同一份 checkpoint 覆盖多代 NVIDIA GPU 架构。

在 Blackwell 上,NVIDIA 称 NVFP4 相比 BF16 在相同交互性下可以带来最高 5x 的每 GPU 吞吐提升。

这对企业部署很现实。很多公司不会只有一种 GPU,可能同时有 Ampere、Hopper、Blackwell。模型如果需要为每一代硬件维护不同版本,会增加部署和验证成本。

LatentMoE 和 MTP

Nemotron 3 Ultra 还用了 LatentMoEMulti-token prediction

LatentMoE 负责更高效的专家路由。MoE 模型的关键问题之一,就是不同请求该走哪些专家。Agent 工作流可能同时包含推理、代码生成、工具调用和领域逻辑,专家路由是否高效,直接影响吞吐和能力。

Multi-token prediction,也就是 MTP,则用于提升生成速度。它不是每次只预测下一个 token,而是尝试一次 forward pass 预测多个未来 token,减少长输出和多轮任务中的等待时间。

这两个点放在一起看,NVIDIA 想优化的不是单点模型能力,而是 Agent 长时间运行时的整体吞吐、延迟和成本。

MOPD:多教师 On-Policy 蒸馏

这次发布里一个比较重要的训练方法是 Multi-Teacher On-Policy Distillation,简称 MOPD

简单理解,Ultra 在训练时不是只向一个教师模型学习,而是向十多个领域专用教师模型学习。每个教师模型都有自己的领域训练管线,负责在自己的专业范围里给 Ultra 打分和反馈。

MOPD 的特点包括:

  • 学生模型自己生成尝试;
  • 不同领域的教师模型给出密集 reward 信号;
  • 学生 rollout、教师评分、学生优化异步流水化;
  • 训练过程可以迭代,新的学生 checkpoint 又能成为下一轮教师训练的起点。

这套方法的目标,是让模型在多个领域持续提升,而不是只在通用对话上变强。对于企业 Agent 来说,这很重要,因为真实任务往往包含法律、代码、知识问答、企业流程、安全规则等混合能力。

训练数据和开放 recipe

NVIDIA 这次继续强调开放数据和训练配方。

在一个 10T token 的预训练基础上,Nemotron 3 Ultra 增加了 212B 新 token,用于弥补三个高价值领域差距:

  • 4B 合成法律数据;
  • 35B 基于 Wiki 的合成数据;
  • 173B 刷新的 GitHub token,覆盖到 2025 年 9 月 30 日。

后训练方面,这次还发布了:

  • 10M 新 SFT 样本;
  • 1M 新 RL 任务;
  • 15 个全新的 RL 环境。

累计来看,Nemotron 开放数据总量达到 50M SFT 样本、2M RL 任务和 55 个 RL 环境。

这对企业和主权 AI 项目尤其重要。能力只是一个维度,训练数据透明度、来源和可追溯性同样会影响模型是否能进入生产环境。

开发者可以怎么用

Nemotron 3 Ultra 是开放模型,NVIDIA 表示权重、数据和 recipe 都会开放,开发者可以按领域工作流适配。

官方提到的使用方式包括:

  • 通过 Hugging Face 下载权重;
  • 使用 NVIDIA NIM microservice 部署;
  • 在 build.nvidia.com 上试用;
  • 通过 OpenRouter、Anaconda、Perplexity Pro 等入口使用;
  • 使用 SGLang、TRT-LLM、vLLM 等推理软件;
  • 用 NeMo 相关库进行 LoRA、SFT 和强化学习微调。

如果你正在做企业 Agent,Nemotron 3 Ultra 更适合放在这些位置:

  • 复杂任务规划;
  • 多工具调用编排;
  • 长上下文证据综合;
  • 代码 Agent 的关键决策;
  • 多 Agent 系统里的总控模型;
  • 领域 Agent 的高难推理层。

它不一定适合每个小请求都调用。更现实的架构是:Ultra 处理关键推理,高频简单步骤交给更小、更便宜的模型。

安全运行 Agent:NemoClaw 和 OpenShell

NVIDIA 还同时强调了 Agent 安全运行环境。

官方提到三块:

  • Hermes Agent 和 OpenClaw:用于多轮工作流的 agent harness,提供编排循环、记忆和工具;
  • NVIDIA OpenShell:安全运行环境,让自治 Agent 和它生成的代码在受控环境中执行;
  • NVIDIA NemoClaw:开源 blueprint,用单条命令安装 OpenShell runtime,把 agent harness、运行环境和开放模型组合起来。

这点很关键。越强的 Agent 越不应该直接裸跑在生产机器上。只要模型能写代码、调用工具或操作文件,就需要沙箱、权限边界、日志和人工确认机制。

Nemotron 3.5 Content Safety 和 ASR

除了 Nemotron 3 Ultra,NVIDIA 还发布了两个相关模型。

第一个是 Nemotron 3.5 Content Safety。这是一个开放的 4B 安全护栏模型,用于识别文本、图像和混合输入中的不安全、违规或策略不允许内容。它覆盖 23 个安全类别和 12 种语言,可用于推理时护栏、LLM 安全评测 judge,或配合训练数据做安全后训练。

第二个是 Nemotron 3.5 ASR。这是面向语音原生 Agent 的自动语音识别模型,使用 cache-aware streaming 架构,目标是低延迟处理音频 delta。官方称它支持 40+ 种语言,并延续 Nemotron 3 ASR 面向实时语音的设计。

这说明 NVIDIA 不是只发布一个推理模型,而是在补全 Agent 堆栈:推理、语音输入、安全护栏、运行时沙箱和部署工具都在同一套生态里。

开放许可和部署生态

Nemotron 模型发布转向 OpenMDW-1.1,这是 Linux Foundation 面向开放 AI 模型分发设计的宽松许可证。NVIDIA 表示它覆盖架构、参数、文档、软件和相关材料,目的是减少开放模型在评估和采用时的许可不确定性。

对企业来说,许可清晰度很重要。很多模型不是能力不够,而是权重、数据、recipe、商业使用和再分发条款不够清楚,导致法务和合规评估难以推进。

这次 NVIDIA 同时列出了一大批部署和服务伙伴,包括推理软件、云服务、模型定制服务和 inference service providers。它的目标很清楚:让 Nemotron 3 Ultra 不只是研究模型,而是能进入真实 Agent 生产链路。

需要保持冷静的地方

Nemotron 3 Ultra 很强,但它不是给普通个人电脑随手跑的模型。

550B MoE、55B active 参数,意味着它更适合企业级 GPU 集群、云服务、NIM 或专业推理平台。普通开发者更现实的入口,是通过 API、托管服务、build.nvidia.com 或 Hugging Face 生态里的部署方案试用。

另外,官方 benchmark 很有参考价值,但不能直接等同于你的业务结果。Agent 系统是否好用,还取决于:

  • agent harness 设计;
  • 工具权限和可靠性;
  • 长上下文裁剪策略;
  • 任务分解方式;
  • 错误恢复机制;
  • 安全沙箱和审计。

强模型只是 Agent 系统的一层。真正决定生产质量的,往往是模型、工具、上下文管理、运行环境和评估体系的组合。

小结

Nemotron 3 Ultra 的重点,是把开放推理模型推向长时间运行 Agent 的真实需求:更长上下文、更高吞吐、更低完成任务成本、更清晰的训练数据和可定制部署路径。

它不是一个普通聊天模型发布,而是 NVIDIA 对 Agent 基础设施的一次打包推进:Ultra 负责高难推理和编排,Content Safety 负责安全护栏,ASR 负责语音入口,OpenShell 和 NemoClaw 负责运行环境,NIM 和各类推理平台负责部署。

如果你正在做企业 Agent、代码 Agent、研究自动化、多工具编排或主权 AI 项目,Nemotron 3 Ultra 值得重点关注。它真正要竞争的不是一次问答体验,而是长链路任务能不能更快、更稳、更便宜地完成。

参考来源

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计