NVIDIA Nemotron 3 Ultra 发布：面向长时间运行 Agent 的开放推理模型

NVIDIA 在 2026 年 6 月 4 日发布了 Nemotron 3 Ultra。这是一个面向长时间运行 Agent 的开放推理模型，采用 550B 参数的 Mixture-of-Experts 架构，每次推理激活约 55B 参数。

这次发布的重点不是“又一个大模型聊天助手”，而是一个更明确的方向：让多轮、多工具、多子代理的 Agent 工作流跑得更快、更便宜、更稳定。

为什么 NVIDIA 强调 long-running agents

普通聊天模型面对的是一次提问、一次回答。Agent 面对的是一串任务链。

一个真正长时间运行的 Agent 可能会：

制定计划；
调用搜索、代码、数据库或企业工具；
把任务分给子 Agent；
接收工具结果；
继续推理下一步；
验证输出；
遇到错误后恢复。

这个过程会让 token 数量快速膨胀。任务跑得越久，历史消息、工具输出、推理步骤和中间结果越多，模型调用成本越高，目标漂移的风险也越大。

NVIDIA 的思路是用“模型系统”解决这个问题：关键推理和编排交给更强的 frontier reasoning 模型，高频执行、验证和工具调用交给更高效的模型。Nemotron 3 Ultra 的位置，就是这个系统里的高能力编排模型。

Nemotron 3 Ultra 的核心定位

Nemotron 3 Ultra 是一个 550B 参数 MoE 模型，但每次推理只激活约 55B 参数。它面向的不是轻量聊天，而是 Agent 工作流里的困难调用。

官方举的例子包括：

在长时间代码任务中保持架构决策一致；
从数百个研究来源里综合互相矛盾的证据；
在数千个约束下验证芯片设计；
在多轮任务中规划、调用工具、恢复错误和继续执行。

也就是说，Ultra 更像是 Agent 系统里的“总调度 + 深推理”组件，而不是每一次工具调用都要用的便宜执行模型。

性能和效率指标

NVIDIA 在官方博客中给出了一组对比指标。Nemotron 3 Ultra 在多个 Agent 和长上下文相关测试中表现接近或领先同级开放模型：

PinchBench：91%
EnterpriseOps-Gym：33%
Terminal-Bench 2.0：54%
IFBench：82%
Ruler @1M：95%

官方还强调，它在同级开放模型中可以达到最高 5x 的吞吐优势。对于长时间运行 Agent，这个数字比单轮 benchmark 更重要，因为 Agent 任务通常不是一次回答结束，而是连续多轮调用。

另一个关键点是成本。NVIDIA 表示，在 SWE-bench 和 Terminal-Bench 2.0 实验中，Nemotron 3 Ultra 用更少的总 token 和每轮 token 完成任务，让 Agent 任务成本最多下降 30%。

对开发者来说，这意味着 Nemotron 3 Ultra 不只是在追求“答得对”，也在优化“完成整个任务要花多少 token、多少时间、多少钱”。

Hybrid Mamba-Transformer：为了长上下文效率

长上下文 Agent 有两个矛盾需求。

一方面，它需要高效处理很长的序列，因为工具输出和历史轨迹会不断增长。另一方面，它又需要精准回忆上下文里的具体事实，例如某一步工具输出、某个文件路径、某个约束条件。

Nemotron 3 Ultra 采用 Hybrid Mamba-Transformer 架构来平衡这两点：

Mamba layers 提高长序列处理效率；
Transformer layers 保留对具体上下文事实的精准召回能力。

这种设计很适合 Agent 场景。Agent 不只是读长文档，也会不断把自己的行动轨迹写进上下文。如果模型长上下文效率不够，任务越跑越慢；如果精准召回能力不够，任务又容易在后半程忘记关键约束。

NVFP4：同一 checkpoint 覆盖多代 NVIDIA GPU

NVIDIA 还强调了 NVFP4 精度。

官方说，同一个 NVFP4 checkpoint 可以运行在 NVIDIA Hopper、Blackwell 和 Ampere GPU 上。借助专门的 NVFP4 量化 kernel，开发者可以用同一份 checkpoint 覆盖多代 NVIDIA GPU 架构。

在 Blackwell 上，NVIDIA 称 NVFP4 相比 BF16 在相同交互性下可以带来最高 5x 的每 GPU 吞吐提升。

这对企业部署很现实。很多公司不会只有一种 GPU，可能同时有 Ampere、Hopper、Blackwell。模型如果需要为每一代硬件维护不同版本，会增加部署和验证成本。

LatentMoE 和 MTP

Nemotron 3 Ultra 还用了 LatentMoE 和 Multi-token prediction。

LatentMoE 负责更高效的专家路由。MoE 模型的关键问题之一，就是不同请求该走哪些专家。Agent 工作流可能同时包含推理、代码生成、工具调用和领域逻辑，专家路由是否高效，直接影响吞吐和能力。

Multi-token prediction，也就是 MTP，则用于提升生成速度。它不是每次只预测下一个 token，而是尝试一次 forward pass 预测多个未来 token，减少长输出和多轮任务中的等待时间。

这两个点放在一起看，NVIDIA 想优化的不是单点模型能力，而是 Agent 长时间运行时的整体吞吐、延迟和成本。

MOPD：多教师 On-Policy 蒸馏

这次发布里一个比较重要的训练方法是 Multi-Teacher On-Policy Distillation，简称 MOPD。

简单理解，Ultra 在训练时不是只向一个教师模型学习，而是向十多个领域专用教师模型学习。每个教师模型都有自己的领域训练管线，负责在自己的专业范围里给 Ultra 打分和反馈。

MOPD 的特点包括：

学生模型自己生成尝试；
不同领域的教师模型给出密集 reward 信号；
学生 rollout、教师评分、学生优化异步流水化；
训练过程可以迭代，新的学生 checkpoint 又能成为下一轮教师训练的起点。

这套方法的目标，是让模型在多个领域持续提升，而不是只在通用对话上变强。对于企业 Agent 来说，这很重要，因为真实任务往往包含法律、代码、知识问答、企业流程、安全规则等混合能力。

训练数据和开放 recipe

NVIDIA 这次继续强调开放数据和训练配方。

在一个 10T token 的预训练基础上，Nemotron 3 Ultra 增加了 212B 新 token，用于弥补三个高价值领域差距：

4B 合成法律数据；
35B 基于 Wiki 的合成数据；
173B 刷新的 GitHub token，覆盖到 2025 年 9 月 30 日。

后训练方面，这次还发布了：

10M 新 SFT 样本；
1M 新 RL 任务；
15 个全新的 RL 环境。

累计来看，Nemotron 开放数据总量达到 50M SFT 样本、2M RL 任务和 55 个 RL 环境。

这对企业和主权 AI 项目尤其重要。能力只是一个维度，训练数据透明度、来源和可追溯性同样会影响模型是否能进入生产环境。

开发者可以怎么用

Nemotron 3 Ultra 是开放模型，NVIDIA 表示权重、数据和 recipe 都会开放，开发者可以按领域工作流适配。

官方提到的使用方式包括：

通过 Hugging Face 下载权重；
使用 NVIDIA NIM microservice 部署；
在 build.nvidia.com 上试用；
通过 OpenRouter、Anaconda、Perplexity Pro 等入口使用；
使用 SGLang、TRT-LLM、vLLM 等推理软件；
用 NeMo 相关库进行 LoRA、SFT 和强化学习微调。

如果你正在做企业 Agent，Nemotron 3 Ultra 更适合放在这些位置：

复杂任务规划；
多工具调用编排；
长上下文证据综合；
代码 Agent 的关键决策；
多 Agent 系统里的总控模型；
领域 Agent 的高难推理层。

它不一定适合每个小请求都调用。更现实的架构是：Ultra 处理关键推理，高频简单步骤交给更小、更便宜的模型。

安全运行 Agent：NemoClaw 和 OpenShell

NVIDIA 还同时强调了 Agent 安全运行环境。

官方提到三块：

Hermes Agent 和 OpenClaw：用于多轮工作流的 agent harness，提供编排循环、记忆和工具；
NVIDIA OpenShell：安全运行环境，让自治 Agent 和它生成的代码在受控环境中执行；
NVIDIA NemoClaw：开源 blueprint，用单条命令安装 OpenShell runtime，把 agent harness、运行环境和开放模型组合起来。

这点很关键。越强的 Agent 越不应该直接裸跑在生产机器上。只要模型能写代码、调用工具或操作文件，就需要沙箱、权限边界、日志和人工确认机制。

Nemotron 3.5 Content Safety 和 ASR

除了 Nemotron 3 Ultra，NVIDIA 还发布了两个相关模型。

第一个是 Nemotron 3.5 Content Safety。这是一个开放的 4B 安全护栏模型，用于识别文本、图像和混合输入中的不安全、违规或策略不允许内容。它覆盖 23 个安全类别和 12 种语言，可用于推理时护栏、LLM 安全评测 judge，或配合训练数据做安全后训练。

第二个是 Nemotron 3.5 ASR。这是面向语音原生 Agent 的自动语音识别模型，使用 cache-aware streaming 架构，目标是低延迟处理音频 delta。官方称它支持 40+ 种语言，并延续 Nemotron 3 ASR 面向实时语音的设计。

这说明 NVIDIA 不是只发布一个推理模型，而是在补全 Agent 堆栈：推理、语音输入、安全护栏、运行时沙箱和部署工具都在同一套生态里。

开放许可和部署生态

Nemotron 模型发布转向 OpenMDW-1.1，这是 Linux Foundation 面向开放 AI 模型分发设计的宽松许可证。NVIDIA 表示它覆盖架构、参数、文档、软件和相关材料，目的是减少开放模型在评估和采用时的许可不确定性。

对企业来说，许可清晰度很重要。很多模型不是能力不够，而是权重、数据、recipe、商业使用和再分发条款不够清楚，导致法务和合规评估难以推进。

这次 NVIDIA 同时列出了一大批部署和服务伙伴，包括推理软件、云服务、模型定制服务和 inference service providers。它的目标很清楚：让 Nemotron 3 Ultra 不只是研究模型，而是能进入真实 Agent 生产链路。

需要保持冷静的地方

Nemotron 3 Ultra 很强，但它不是给普通个人电脑随手跑的模型。

550B MoE、55B active 参数，意味着它更适合企业级 GPU 集群、云服务、NIM 或专业推理平台。普通开发者更现实的入口，是通过 API、托管服务、build.nvidia.com 或 Hugging Face 生态里的部署方案试用。

另外，官方 benchmark 很有参考价值，但不能直接等同于你的业务结果。Agent 系统是否好用，还取决于：

agent harness 设计；
工具权限和可靠性；
长上下文裁剪策略；
任务分解方式；
错误恢复机制；
安全沙箱和审计。

强模型只是 Agent 系统的一层。真正决定生产质量的，往往是模型、工具、上下文管理、运行环境和评估体系的组合。

小结

Nemotron 3 Ultra 的重点，是把开放推理模型推向长时间运行 Agent 的真实需求：更长上下文、更高吞吐、更低完成任务成本、更清晰的训练数据和可定制部署路径。

它不是一个普通聊天模型发布，而是 NVIDIA 对 Agent 基础设施的一次打包推进：Ultra 负责高难推理和编排，Content Safety 负责安全护栏，ASR 负责语音入口，OpenShell 和 NemoClaw 负责运行环境，NIM 和各类推理平台负责部署。

如果你正在做企业 Agent、代码 Agent、研究自动化、多工具编排或主权 AI 项目，Nemotron 3 Ultra 值得重点关注。它真正要竞争的不是一次问答体验，而是长链路任务能不能更快、更稳、更便宜地完成。

参考来源

NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents