NVIDIA Nemotron 3 Ultra 發布：面向長時間運行 Agent 的開放推理模型

NVIDIA 在 2026 年 6 月 4 日發布了 Nemotron 3 Ultra。這是一個面向長時間運行 Agent 的開放推理模型，採用 550B 參數的 Mixture-of-Experts 架構，每次推理激活約 55B 參數。

這次發布的重點不是「又一個大模型聊天助手」，而是一個更明確的方向：讓多輪、多工具、多子代理的 Agent 工作流跑得更快、更便宜、更穩定。

為什麼 NVIDIA 強調 long-running agents

普通聊天模型面對的是一次提問、一次回答。Agent 面對的是一串任務鏈。

一個真正長時間運行的 Agent 可能會：

制定計畫；
調用搜尋、程式碼、資料庫或企業工具；
把任務分給子 Agent；
接收工具結果；
繼續推理下一步；
驗證輸出；
遇到錯誤後恢復。

這個過程會讓 token 數量快速膨脹。任務跑得越久，歷史訊息、工具輸出、推理步驟和中間結果越多，模型調用成本越高，目標漂移的風險也越大。

NVIDIA 的思路是用「模型系統」解決這個問題：關鍵推理和編排交給更強的 frontier reasoning 模型，高頻執行、驗證和工具調用交給更高效的模型。Nemotron 3 Ultra 的位置，就是這個系統裡的高能力編排模型。

Nemotron 3 Ultra 的核心定位

Nemotron 3 Ultra 是一個 550B 參數 MoE 模型，但每次推理只激活約 55B 參數。它面向的不是輕量聊天，而是 Agent 工作流裡的困難調用。

官方舉的例子包括：

在長時間程式碼任務中保持架構決策一致；
從數百個研究來源裡綜合互相矛盾的證據；
在數千個約束下驗證晶片設計；
在多輪任務中規劃、調用工具、恢復錯誤和繼續執行。

也就是說，Ultra 更像是 Agent 系統裡的「總調度 + 深推理」元件，而不是每一次工具調用都要用的便宜執行模型。

性能和效率指標

NVIDIA 在官方部落格中給出了一組對比指標。Nemotron 3 Ultra 在多個 Agent 和長上下文相關測試中表現接近或領先同級開放模型：

PinchBench：91%
EnterpriseOps-Gym：33%
Terminal-Bench 2.0：54%
IFBench：82%
Ruler @1M：95%

官方還強調，它在同級開放模型中可以達到最高 5x 的吞吐優勢。對於長時間運行 Agent，這個數字比單輪 benchmark 更重要，因為 Agent 任務通常不是一次回答結束，而是連續多輪調用。

另一個關鍵點是成本。NVIDIA 表示，在 SWE-bench 和 Terminal-Bench 2.0 實驗中，Nemotron 3 Ultra 用更少的總 token 和每輪 token 完成任務，讓 Agent 任務成本最多下降 30%。

對開發者來說，這意味著 Nemotron 3 Ultra 不只是在追求「答得對」，也在優化「完成整個任務要花多少 token、多少時間、多少錢」。

Hybrid Mamba-Transformer：為了長上下文效率

長上下文 Agent 有兩個矛盾需求。

一方面，它需要高效處理很長的序列，因為工具輸出和歷史軌跡會不斷增長。另一方面，它又需要精準回憶上下文裡的具體事實，例如某一步工具輸出、某個檔案路徑、某個約束條件。

Nemotron 3 Ultra 採用 Hybrid Mamba-Transformer 架構來平衡這兩點：

Mamba layers 提高長序列處理效率；
Transformer layers 保留對具體上下文事實的精準召回能力。

這種設計很適合 Agent 場景。Agent 不只是讀長文件，也會不斷把自己的行動軌跡寫進上下文。如果模型長上下文效率不夠，任務越跑越慢；如果精準召回能力不夠，任務又容易在後半程忘記關鍵約束。

NVFP4：同一 checkpoint 覆蓋多代 NVIDIA GPU

NVIDIA 還強調了 NVFP4 精度。

官方說，同一個 NVFP4 checkpoint 可以運行在 NVIDIA Hopper、Blackwell 和 Ampere GPU 上。借助專門的 NVFP4 量化 kernel，開發者可以用同一份 checkpoint 覆蓋多代 NVIDIA GPU 架構。

在 Blackwell 上，NVIDIA 稱 NVFP4 相比 BF16 在相同互動性下可以帶來最高 5x 的每 GPU 吞吐提升。

這對企業部署很現實。很多公司不會只有一種 GPU，可能同時有 Ampere、Hopper、Blackwell。模型如果需要為每一代硬體維護不同版本，會增加部署和驗證成本。

LatentMoE 和 MTP

Nemotron 3 Ultra 還用了 LatentMoE 和 Multi-token prediction。

LatentMoE 負責更高效的專家路由。MoE 模型的關鍵問題之一，就是不同請求該走哪些專家。Agent 工作流可能同時包含推理、程式碼生成、工具調用和領域邏輯，專家路由是否高效，直接影響吞吐和能力。

Multi-token prediction，也就是 MTP，則用於提升生成速度。它不是每次只預測下一個 token，而是嘗試一次 forward pass 預測多個未來 token，減少長輸出和多輪任務中的等待時間。

這兩個點放在一起看，NVIDIA 想優化的不是單點模型能力，而是 Agent 長時間運行時的整體吞吐、延遲和成本。

MOPD：多教師 On-Policy 蒸餾

這次發布裡一個比較重要的訓練方法是 Multi-Teacher On-Policy Distillation，簡稱 MOPD。

簡單理解，Ultra 在訓練時不是只向一個教師模型學習，而是向十多個領域專用教師模型學習。每個教師模型都有自己的領域訓練管線，負責在自己的專業範圍裡給 Ultra 打分和反饋。

MOPD 的特點包括：

學生模型自己生成嘗試；
不同領域的教師模型給出密集 reward 信號；
學生 rollout、教師評分、學生優化非同步流水化；
訓練過程可以迭代，新的學生 checkpoint 又能成為下一輪教師訓練的起點。

這套方法的目標，是讓模型在多個領域持續提升，而不是只在通用對話上變強。對於企業 Agent 來說，這很重要，因為真實任務往往包含法律、程式碼、知識問答、企業流程、安全規則等混合能力。

訓練資料和開放 recipe

NVIDIA 這次繼續強調開放資料和訓練配方。

在一個 10T token 的預訓練基礎上，Nemotron 3 Ultra 增加了 212B 新 token，用於彌補三個高價值領域差距：

4B 合成法律資料；
35B 基於 Wiki 的合成資料；
173B 刷新的 GitHub token，覆蓋到 2025 年 9 月 30 日。

後訓練方面，這次還發布了：

10M 新 SFT 樣本；
1M 新 RL 任務；
15 個全新的 RL 環境。

累計來看，Nemotron 開放資料總量達到 50M SFT 樣本、2M RL 任務和 55 個 RL 環境。

這對企業和主權 AI 專案尤其重要。能力只是一個維度，訓練資料透明度、來源和可追溯性同樣會影響模型是否能進入生產環境。

開發者可以怎麼用

Nemotron 3 Ultra 是開放模型，NVIDIA 表示權重、資料和 recipe 都會開放，開發者可以按領域工作流適配。

官方提到的使用方式包括：

透過 Hugging Face 下載權重；
使用 NVIDIA NIM microservice 部署；
在 build.nvidia.com 上試用；
透過 OpenRouter、Anaconda、Perplexity Pro 等入口使用；
使用 SGLang、TRT-LLM、vLLM 等推理軟體；
用 NeMo 相關庫進行 LoRA、SFT 和強化學習微調。

如果你正在做企業 Agent，Nemotron 3 Ultra 更適合放在這些位置：

複雜任務規劃；
多工具調用編排；
長上下文證據綜合；
程式碼 Agent 的關鍵決策；
多 Agent 系統裡的總控模型；
領域 Agent 的高難推理層。

它不一定適合每個小請求都調用。更現實的架構是：Ultra 處理關鍵推理，高頻簡單步驟交給更小、更便宜的模型。

安全運行 Agent：NemoClaw 和 OpenShell

NVIDIA 還同時強調了 Agent 安全運行環境。

官方提到三塊：

Hermes Agent 和 OpenClaw：用於多輪工作流的 agent harness，提供編排循環、記憶和工具；
NVIDIA OpenShell：安全運行環境，讓自治 Agent 和它生成的程式碼在受控環境中執行；
NVIDIA NemoClaw：開源 blueprint，用單條命令安裝 OpenShell runtime，把 agent harness、運行環境和開放模型組合起來。

這點很關鍵。越強的 Agent 越不應該直接裸跑在生產機器上。只要模型能寫程式碼、調用工具或操作檔案，就需要沙箱、權限邊界、日誌和人工確認機制。

Nemotron 3.5 Content Safety 和 ASR

除了 Nemotron 3 Ultra，NVIDIA 還發布了兩個相關模型。

第一個是 Nemotron 3.5 Content Safety。這是一個開放的 4B 安全護欄模型，用於識別文本、圖像和混合輸入中的不安全、違規或策略不允許內容。它覆蓋 23 個安全類別和 12 種語言，可用於推理時護欄、LLM 安全評測 judge，或配合訓練資料做安全後訓練。

第二個是 Nemotron 3.5 ASR。這是面向語音原生 Agent 的自動語音辨識模型，使用 cache-aware streaming 架構，目標是低延遲處理音訊 delta。官方稱它支援 40+ 種語言，並延續 Nemotron 3 ASR 面向即時語音的設計。

這說明 NVIDIA 不是只發布一個推理模型，而是在補全 Agent 堆疊：推理、語音輸入、安全護欄、運行時沙箱和部署工具都在同一套生態裡。

開放授權和部署生態

Nemotron 模型發布轉向 OpenMDW-1.1，這是 Linux Foundation 面向開放 AI 模型分發設計的寬鬆授權。NVIDIA 表示它覆蓋架構、參數、文件、軟體和相關材料，目的是減少開放模型在評估和採用時的授權不確定性。

對企業來說，授權清晰度很重要。很多模型不是能力不夠，而是權重、資料、recipe、商業使用和再分發條款不夠清楚，導致法務和合規評估難以推進。

這次 NVIDIA 同時列出了一大批部署和服務夥伴，包括推理軟體、雲服務、模型定制服務和 inference service providers。它的目標很清楚：讓 Nemotron 3 Ultra 不只是研究模型，而是能進入真實 Agent 生產鏈路。

需要保持冷靜的地方

Nemotron 3 Ultra 很強，但它不是給普通個人電腦隨手跑的模型。

550B MoE、55B active 參數，意味著它更適合企業級 GPU 叢集、雲服務、NIM 或專業推理平台。普通開發者更現實的入口，是透過 API、託管服務、build.nvidia.com 或 Hugging Face 生態裡的部署方案試用。

另外，官方 benchmark 很有參考價值，但不能直接等同於你的業務結果。Agent 系統是否好用，還取決於：

agent harness 設計；
工具權限和可靠性；
長上下文裁剪策略；
任務分解方式；
錯誤恢復機制；
安全沙箱和審計。

強模型只是 Agent 系統的一層。真正決定生產品質的，往往是模型、工具、上下文管理、運行環境和評估體系的組合。

小結

Nemotron 3 Ultra 的重點，是把開放推理模型推向長時間運行 Agent 的真實需求：更長上下文、更高吞吐、更低完成任務成本、更清晰的訓練資料和可定制部署路徑。

它不是一個普通聊天模型發布，而是 NVIDIA 對 Agent 基礎設施的一次打包推進：Ultra 負責高難推理和編排，Content Safety 負責安全護欄，ASR 負責語音入口，OpenShell 和 NemoClaw 負責運行環境，NIM 和各類推理平台負責部署。

如果你正在做企業 Agent、程式碼 Agent、研究自動化、多工具編排或主權 AI 專案，Nemotron 3 Ultra 值得重點關注。它真正要競爭的不是一次問答體驗，而是長鏈路任務能不能更快、更穩、更便宜地完成。

參考來源

NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents