NVIDIA 在 2026 年 6 月 4 日发布了 Nemotron 3 Ultra。这是一个面向长时间运行 Agent 的开放推理模型,采用 550B 参数的 Mixture-of-Experts 架构,每次推理激活约 55B 参数。
这次发布的重点不是“又一个大模型聊天助手”,而是一个更明确的方向:让多轮、多工具、多子代理的 Agent 工作流跑得更快、更便宜、更稳定。
为什么 NVIDIA 强调 long-running agents
普通聊天模型面对的是一次提问、一次回答。Agent 面对的是一串任务链。
一个真正长时间运行的 Agent 可能会:
- 制定计划;
- 调用搜索、代码、数据库或企业工具;
- 把任务分给子 Agent;
- 接收工具结果;
- 继续推理下一步;
- 验证输出;
- 遇到错误后恢复。
这个过程会让 token 数量快速膨胀。任务跑得越久,历史消息、工具输出、推理步骤和中间结果越多,模型调用成本越高,目标漂移的风险也越大。
NVIDIA 的思路是用“模型系统”解决这个问题:关键推理和编排交给更强的 frontier reasoning 模型,高频执行、验证和工具调用交给更高效的模型。Nemotron 3 Ultra 的位置,就是这个系统里的高能力编排模型。
Nemotron 3 Ultra 的核心定位
Nemotron 3 Ultra 是一个 550B 参数 MoE 模型,但每次推理只激活约 55B 参数。它面向的不是轻量聊天,而是 Agent 工作流里的困难调用。
官方举的例子包括:
- 在长时间代码任务中保持架构决策一致;
- 从数百个研究来源里综合互相矛盾的证据;
- 在数千个约束下验证芯片设计;
- 在多轮任务中规划、调用工具、恢复错误和继续执行。
也就是说,Ultra 更像是 Agent 系统里的“总调度 + 深推理”组件,而不是每一次工具调用都要用的便宜执行模型。
性能和效率指标
NVIDIA 在官方博客中给出了一组对比指标。Nemotron 3 Ultra 在多个 Agent 和长上下文相关测试中表现接近或领先同级开放模型:
PinchBench:91%EnterpriseOps-Gym:33%Terminal-Bench 2.0:54%IFBench:82%Ruler @1M:95%
官方还强调,它在同级开放模型中可以达到最高 5x 的吞吐优势。对于长时间运行 Agent,这个数字比单轮 benchmark 更重要,因为 Agent 任务通常不是一次回答结束,而是连续多轮调用。
另一个关键点是成本。NVIDIA 表示,在 SWE-bench 和 Terminal-Bench 2.0 实验中,Nemotron 3 Ultra 用更少的总 token 和每轮 token 完成任务,让 Agent 任务成本最多下降 30%。
对开发者来说,这意味着 Nemotron 3 Ultra 不只是在追求“答得对”,也在优化“完成整个任务要花多少 token、多少时间、多少钱”。
Hybrid Mamba-Transformer:为了长上下文效率
长上下文 Agent 有两个矛盾需求。
一方面,它需要高效处理很长的序列,因为工具输出和历史轨迹会不断增长。另一方面,它又需要精准回忆上下文里的具体事实,例如某一步工具输出、某个文件路径、某个约束条件。
Nemotron 3 Ultra 采用 Hybrid Mamba-Transformer 架构来平衡这两点:
- Mamba layers 提高长序列处理效率;
- Transformer layers 保留对具体上下文事实的精准召回能力。
这种设计很适合 Agent 场景。Agent 不只是读长文档,也会不断把自己的行动轨迹写进上下文。如果模型长上下文效率不够,任务越跑越慢;如果精准召回能力不够,任务又容易在后半程忘记关键约束。
NVFP4:同一 checkpoint 覆盖多代 NVIDIA GPU
NVIDIA 还强调了 NVFP4 精度。
官方说,同一个 NVFP4 checkpoint 可以运行在 NVIDIA Hopper、Blackwell 和 Ampere GPU 上。借助专门的 NVFP4 量化 kernel,开发者可以用同一份 checkpoint 覆盖多代 NVIDIA GPU 架构。
在 Blackwell 上,NVIDIA 称 NVFP4 相比 BF16 在相同交互性下可以带来最高 5x 的每 GPU 吞吐提升。
这对企业部署很现实。很多公司不会只有一种 GPU,可能同时有 Ampere、Hopper、Blackwell。模型如果需要为每一代硬件维护不同版本,会增加部署和验证成本。
LatentMoE 和 MTP
Nemotron 3 Ultra 还用了 LatentMoE 和 Multi-token prediction。
LatentMoE 负责更高效的专家路由。MoE 模型的关键问题之一,就是不同请求该走哪些专家。Agent 工作流可能同时包含推理、代码生成、工具调用和领域逻辑,专家路由是否高效,直接影响吞吐和能力。
Multi-token prediction,也就是 MTP,则用于提升生成速度。它不是每次只预测下一个 token,而是尝试一次 forward pass 预测多个未来 token,减少长输出和多轮任务中的等待时间。
这两个点放在一起看,NVIDIA 想优化的不是单点模型能力,而是 Agent 长时间运行时的整体吞吐、延迟和成本。
MOPD:多教师 On-Policy 蒸馏
这次发布里一个比较重要的训练方法是 Multi-Teacher On-Policy Distillation,简称 MOPD。
简单理解,Ultra 在训练时不是只向一个教师模型学习,而是向十多个领域专用教师模型学习。每个教师模型都有自己的领域训练管线,负责在自己的专业范围里给 Ultra 打分和反馈。
MOPD 的特点包括:
- 学生模型自己生成尝试;
- 不同领域的教师模型给出密集 reward 信号;
- 学生 rollout、教师评分、学生优化异步流水化;
- 训练过程可以迭代,新的学生 checkpoint 又能成为下一轮教师训练的起点。
这套方法的目标,是让模型在多个领域持续提升,而不是只在通用对话上变强。对于企业 Agent 来说,这很重要,因为真实任务往往包含法律、代码、知识问答、企业流程、安全规则等混合能力。
训练数据和开放 recipe
NVIDIA 这次继续强调开放数据和训练配方。
在一个 10T token 的预训练基础上,Nemotron 3 Ultra 增加了 212B 新 token,用于弥补三个高价值领域差距:
4B合成法律数据;35B基于 Wiki 的合成数据;173B刷新的 GitHub token,覆盖到 2025 年 9 月 30 日。
后训练方面,这次还发布了:
10M新 SFT 样本;1M新 RL 任务;15个全新的 RL 环境。
累计来看,Nemotron 开放数据总量达到 50M SFT 样本、2M RL 任务和 55 个 RL 环境。
这对企业和主权 AI 项目尤其重要。能力只是一个维度,训练数据透明度、来源和可追溯性同样会影响模型是否能进入生产环境。
开发者可以怎么用
Nemotron 3 Ultra 是开放模型,NVIDIA 表示权重、数据和 recipe 都会开放,开发者可以按领域工作流适配。
官方提到的使用方式包括:
- 通过 Hugging Face 下载权重;
- 使用 NVIDIA NIM microservice 部署;
- 在 build.nvidia.com 上试用;
- 通过 OpenRouter、Anaconda、Perplexity Pro 等入口使用;
- 使用 SGLang、TRT-LLM、vLLM 等推理软件;
- 用 NeMo 相关库进行 LoRA、SFT 和强化学习微调。
如果你正在做企业 Agent,Nemotron 3 Ultra 更适合放在这些位置:
- 复杂任务规划;
- 多工具调用编排;
- 长上下文证据综合;
- 代码 Agent 的关键决策;
- 多 Agent 系统里的总控模型;
- 领域 Agent 的高难推理层。
它不一定适合每个小请求都调用。更现实的架构是:Ultra 处理关键推理,高频简单步骤交给更小、更便宜的模型。
安全运行 Agent:NemoClaw 和 OpenShell
NVIDIA 还同时强调了 Agent 安全运行环境。
官方提到三块:
- Hermes Agent 和 OpenClaw:用于多轮工作流的 agent harness,提供编排循环、记忆和工具;
- NVIDIA OpenShell:安全运行环境,让自治 Agent 和它生成的代码在受控环境中执行;
- NVIDIA NemoClaw:开源 blueprint,用单条命令安装 OpenShell runtime,把 agent harness、运行环境和开放模型组合起来。
这点很关键。越强的 Agent 越不应该直接裸跑在生产机器上。只要模型能写代码、调用工具或操作文件,就需要沙箱、权限边界、日志和人工确认机制。
Nemotron 3.5 Content Safety 和 ASR
除了 Nemotron 3 Ultra,NVIDIA 还发布了两个相关模型。
第一个是 Nemotron 3.5 Content Safety。这是一个开放的 4B 安全护栏模型,用于识别文本、图像和混合输入中的不安全、违规或策略不允许内容。它覆盖 23 个安全类别和 12 种语言,可用于推理时护栏、LLM 安全评测 judge,或配合训练数据做安全后训练。
第二个是 Nemotron 3.5 ASR。这是面向语音原生 Agent 的自动语音识别模型,使用 cache-aware streaming 架构,目标是低延迟处理音频 delta。官方称它支持 40+ 种语言,并延续 Nemotron 3 ASR 面向实时语音的设计。
这说明 NVIDIA 不是只发布一个推理模型,而是在补全 Agent 堆栈:推理、语音输入、安全护栏、运行时沙箱和部署工具都在同一套生态里。
开放许可和部署生态
Nemotron 模型发布转向 OpenMDW-1.1,这是 Linux Foundation 面向开放 AI 模型分发设计的宽松许可证。NVIDIA 表示它覆盖架构、参数、文档、软件和相关材料,目的是减少开放模型在评估和采用时的许可不确定性。
对企业来说,许可清晰度很重要。很多模型不是能力不够,而是权重、数据、recipe、商业使用和再分发条款不够清楚,导致法务和合规评估难以推进。
这次 NVIDIA 同时列出了一大批部署和服务伙伴,包括推理软件、云服务、模型定制服务和 inference service providers。它的目标很清楚:让 Nemotron 3 Ultra 不只是研究模型,而是能进入真实 Agent 生产链路。
需要保持冷静的地方
Nemotron 3 Ultra 很强,但它不是给普通个人电脑随手跑的模型。
550B MoE、55B active 参数,意味着它更适合企业级 GPU 集群、云服务、NIM 或专业推理平台。普通开发者更现实的入口,是通过 API、托管服务、build.nvidia.com 或 Hugging Face 生态里的部署方案试用。
另外,官方 benchmark 很有参考价值,但不能直接等同于你的业务结果。Agent 系统是否好用,还取决于:
- agent harness 设计;
- 工具权限和可靠性;
- 长上下文裁剪策略;
- 任务分解方式;
- 错误恢复机制;
- 安全沙箱和审计。
强模型只是 Agent 系统的一层。真正决定生产质量的,往往是模型、工具、上下文管理、运行环境和评估体系的组合。
小结
Nemotron 3 Ultra 的重点,是把开放推理模型推向长时间运行 Agent 的真实需求:更长上下文、更高吞吐、更低完成任务成本、更清晰的训练数据和可定制部署路径。
它不是一个普通聊天模型发布,而是 NVIDIA 对 Agent 基础设施的一次打包推进:Ultra 负责高难推理和编排,Content Safety 负责安全护栏,ASR 负责语音入口,OpenShell 和 NemoClaw 负责运行环境,NIM 和各类推理平台负责部署。
如果你正在做企业 Agent、代码 Agent、研究自动化、多工具编排或主权 AI 项目,Nemotron 3 Ultra 值得重点关注。它真正要竞争的不是一次问答体验,而是长链路任务能不能更快、更稳、更便宜地完成。