NVIDIA Nemotron 3 Ultra 發布:面向長時間運行 Agent 的開放推理模型

整理 NVIDIA 發布的 Nemotron 3 Ultra:一個 550B 參數、55B active 的 MoE 開放模型,面向長時間運行 Agent 的推理編排、長上下文、高吞吐、低成本和企業可定制部署。

NVIDIA 在 2026 年 6 月 4 日發布了 Nemotron 3 Ultra。這是一個面向長時間運行 Agent 的開放推理模型,採用 550B 參數的 Mixture-of-Experts 架構,每次推理激活約 55B 參數。

這次發布的重點不是「又一個大模型聊天助手」,而是一個更明確的方向:讓多輪、多工具、多子代理的 Agent 工作流跑得更快、更便宜、更穩定。

為什麼 NVIDIA 強調 long-running agents

普通聊天模型面對的是一次提問、一次回答。Agent 面對的是一串任務鏈。

一個真正長時間運行的 Agent 可能會:

  • 制定計畫;
  • 調用搜尋、程式碼、資料庫或企業工具;
  • 把任務分給子 Agent;
  • 接收工具結果;
  • 繼續推理下一步;
  • 驗證輸出;
  • 遇到錯誤後恢復。

這個過程會讓 token 數量快速膨脹。任務跑得越久,歷史訊息、工具輸出、推理步驟和中間結果越多,模型調用成本越高,目標漂移的風險也越大。

NVIDIA 的思路是用「模型系統」解決這個問題:關鍵推理和編排交給更強的 frontier reasoning 模型,高頻執行、驗證和工具調用交給更高效的模型。Nemotron 3 Ultra 的位置,就是這個系統裡的高能力編排模型。

Nemotron 3 Ultra 的核心定位

Nemotron 3 Ultra 是一個 550B 參數 MoE 模型,但每次推理只激活約 55B 參數。它面向的不是輕量聊天,而是 Agent 工作流裡的困難調用。

官方舉的例子包括:

  • 在長時間程式碼任務中保持架構決策一致;
  • 從數百個研究來源裡綜合互相矛盾的證據;
  • 在數千個約束下驗證晶片設計;
  • 在多輪任務中規劃、調用工具、恢復錯誤和繼續執行。

也就是說,Ultra 更像是 Agent 系統裡的「總調度 + 深推理」元件,而不是每一次工具調用都要用的便宜執行模型。

性能和效率指標

NVIDIA 在官方部落格中給出了一組對比指標。Nemotron 3 Ultra 在多個 Agent 和長上下文相關測試中表現接近或領先同級開放模型:

  • PinchBench91%
  • EnterpriseOps-Gym33%
  • Terminal-Bench 2.054%
  • IFBench82%
  • Ruler @1M95%

官方還強調,它在同級開放模型中可以達到最高 5x 的吞吐優勢。對於長時間運行 Agent,這個數字比單輪 benchmark 更重要,因為 Agent 任務通常不是一次回答結束,而是連續多輪調用。

另一個關鍵點是成本。NVIDIA 表示,在 SWE-bench 和 Terminal-Bench 2.0 實驗中,Nemotron 3 Ultra 用更少的總 token 和每輪 token 完成任務,讓 Agent 任務成本最多下降 30%

對開發者來說,這意味著 Nemotron 3 Ultra 不只是在追求「答得對」,也在優化「完成整個任務要花多少 token、多少時間、多少錢」。

Hybrid Mamba-Transformer:為了長上下文效率

長上下文 Agent 有兩個矛盾需求。

一方面,它需要高效處理很長的序列,因為工具輸出和歷史軌跡會不斷增長。另一方面,它又需要精準回憶上下文裡的具體事實,例如某一步工具輸出、某個檔案路徑、某個約束條件。

Nemotron 3 Ultra 採用 Hybrid Mamba-Transformer 架構來平衡這兩點:

  • Mamba layers 提高長序列處理效率;
  • Transformer layers 保留對具體上下文事實的精準召回能力。

這種設計很適合 Agent 場景。Agent 不只是讀長文件,也會不斷把自己的行動軌跡寫進上下文。如果模型長上下文效率不夠,任務越跑越慢;如果精準召回能力不夠,任務又容易在後半程忘記關鍵約束。

NVFP4:同一 checkpoint 覆蓋多代 NVIDIA GPU

NVIDIA 還強調了 NVFP4 精度。

官方說,同一個 NVFP4 checkpoint 可以運行在 NVIDIA Hopper、Blackwell 和 Ampere GPU 上。借助專門的 NVFP4 量化 kernel,開發者可以用同一份 checkpoint 覆蓋多代 NVIDIA GPU 架構。

在 Blackwell 上,NVIDIA 稱 NVFP4 相比 BF16 在相同互動性下可以帶來最高 5x 的每 GPU 吞吐提升。

這對企業部署很現實。很多公司不會只有一種 GPU,可能同時有 Ampere、Hopper、Blackwell。模型如果需要為每一代硬體維護不同版本,會增加部署和驗證成本。

LatentMoE 和 MTP

Nemotron 3 Ultra 還用了 LatentMoEMulti-token prediction

LatentMoE 負責更高效的專家路由。MoE 模型的關鍵問題之一,就是不同請求該走哪些專家。Agent 工作流可能同時包含推理、程式碼生成、工具調用和領域邏輯,專家路由是否高效,直接影響吞吐和能力。

Multi-token prediction,也就是 MTP,則用於提升生成速度。它不是每次只預測下一個 token,而是嘗試一次 forward pass 預測多個未來 token,減少長輸出和多輪任務中的等待時間。

這兩個點放在一起看,NVIDIA 想優化的不是單點模型能力,而是 Agent 長時間運行時的整體吞吐、延遲和成本。

MOPD:多教師 On-Policy 蒸餾

這次發布裡一個比較重要的訓練方法是 Multi-Teacher On-Policy Distillation,簡稱 MOPD

簡單理解,Ultra 在訓練時不是只向一個教師模型學習,而是向十多個領域專用教師模型學習。每個教師模型都有自己的領域訓練管線,負責在自己的專業範圍裡給 Ultra 打分和反饋。

MOPD 的特點包括:

  • 學生模型自己生成嘗試;
  • 不同領域的教師模型給出密集 reward 信號;
  • 學生 rollout、教師評分、學生優化非同步流水化;
  • 訓練過程可以迭代,新的學生 checkpoint 又能成為下一輪教師訓練的起點。

這套方法的目標,是讓模型在多個領域持續提升,而不是只在通用對話上變強。對於企業 Agent 來說,這很重要,因為真實任務往往包含法律、程式碼、知識問答、企業流程、安全規則等混合能力。

訓練資料和開放 recipe

NVIDIA 這次繼續強調開放資料和訓練配方。

在一個 10T token 的預訓練基礎上,Nemotron 3 Ultra 增加了 212B 新 token,用於彌補三個高價值領域差距:

  • 4B 合成法律資料;
  • 35B 基於 Wiki 的合成資料;
  • 173B 刷新的 GitHub token,覆蓋到 2025 年 9 月 30 日。

後訓練方面,這次還發布了:

  • 10M 新 SFT 樣本;
  • 1M 新 RL 任務;
  • 15 個全新的 RL 環境。

累計來看,Nemotron 開放資料總量達到 50M SFT 樣本、2M RL 任務和 55 個 RL 環境。

這對企業和主權 AI 專案尤其重要。能力只是一個維度,訓練資料透明度、來源和可追溯性同樣會影響模型是否能進入生產環境。

開發者可以怎麼用

Nemotron 3 Ultra 是開放模型,NVIDIA 表示權重、資料和 recipe 都會開放,開發者可以按領域工作流適配。

官方提到的使用方式包括:

  • 透過 Hugging Face 下載權重;
  • 使用 NVIDIA NIM microservice 部署;
  • 在 build.nvidia.com 上試用;
  • 透過 OpenRouter、Anaconda、Perplexity Pro 等入口使用;
  • 使用 SGLang、TRT-LLM、vLLM 等推理軟體;
  • 用 NeMo 相關庫進行 LoRA、SFT 和強化學習微調。

如果你正在做企業 Agent,Nemotron 3 Ultra 更適合放在這些位置:

  • 複雜任務規劃;
  • 多工具調用編排;
  • 長上下文證據綜合;
  • 程式碼 Agent 的關鍵決策;
  • 多 Agent 系統裡的總控模型;
  • 領域 Agent 的高難推理層。

它不一定適合每個小請求都調用。更現實的架構是:Ultra 處理關鍵推理,高頻簡單步驟交給更小、更便宜的模型。

安全運行 Agent:NemoClaw 和 OpenShell

NVIDIA 還同時強調了 Agent 安全運行環境。

官方提到三塊:

  • Hermes Agent 和 OpenClaw:用於多輪工作流的 agent harness,提供編排循環、記憶和工具;
  • NVIDIA OpenShell:安全運行環境,讓自治 Agent 和它生成的程式碼在受控環境中執行;
  • NVIDIA NemoClaw:開源 blueprint,用單條命令安裝 OpenShell runtime,把 agent harness、運行環境和開放模型組合起來。

這點很關鍵。越強的 Agent 越不應該直接裸跑在生產機器上。只要模型能寫程式碼、調用工具或操作檔案,就需要沙箱、權限邊界、日誌和人工確認機制。

Nemotron 3.5 Content Safety 和 ASR

除了 Nemotron 3 Ultra,NVIDIA 還發布了兩個相關模型。

第一個是 Nemotron 3.5 Content Safety。這是一個開放的 4B 安全護欄模型,用於識別文本、圖像和混合輸入中的不安全、違規或策略不允許內容。它覆蓋 23 個安全類別和 12 種語言,可用於推理時護欄、LLM 安全評測 judge,或配合訓練資料做安全後訓練。

第二個是 Nemotron 3.5 ASR。這是面向語音原生 Agent 的自動語音辨識模型,使用 cache-aware streaming 架構,目標是低延遲處理音訊 delta。官方稱它支援 40+ 種語言,並延續 Nemotron 3 ASR 面向即時語音的設計。

這說明 NVIDIA 不是只發布一個推理模型,而是在補全 Agent 堆疊:推理、語音輸入、安全護欄、運行時沙箱和部署工具都在同一套生態裡。

開放授權和部署生態

Nemotron 模型發布轉向 OpenMDW-1.1,這是 Linux Foundation 面向開放 AI 模型分發設計的寬鬆授權。NVIDIA 表示它覆蓋架構、參數、文件、軟體和相關材料,目的是減少開放模型在評估和採用時的授權不確定性。

對企業來說,授權清晰度很重要。很多模型不是能力不夠,而是權重、資料、recipe、商業使用和再分發條款不夠清楚,導致法務和合規評估難以推進。

這次 NVIDIA 同時列出了一大批部署和服務夥伴,包括推理軟體、雲服務、模型定制服務和 inference service providers。它的目標很清楚:讓 Nemotron 3 Ultra 不只是研究模型,而是能進入真實 Agent 生產鏈路。

需要保持冷靜的地方

Nemotron 3 Ultra 很強,但它不是給普通個人電腦隨手跑的模型。

550B MoE、55B active 參數,意味著它更適合企業級 GPU 叢集、雲服務、NIM 或專業推理平台。普通開發者更現實的入口,是透過 API、託管服務、build.nvidia.com 或 Hugging Face 生態裡的部署方案試用。

另外,官方 benchmark 很有參考價值,但不能直接等同於你的業務結果。Agent 系統是否好用,還取決於:

  • agent harness 設計;
  • 工具權限和可靠性;
  • 長上下文裁剪策略;
  • 任務分解方式;
  • 錯誤恢復機制;
  • 安全沙箱和審計。

強模型只是 Agent 系統的一層。真正決定生產品質的,往往是模型、工具、上下文管理、運行環境和評估體系的組合。

小結

Nemotron 3 Ultra 的重點,是把開放推理模型推向長時間運行 Agent 的真實需求:更長上下文、更高吞吐、更低完成任務成本、更清晰的訓練資料和可定制部署路徑。

它不是一個普通聊天模型發布,而是 NVIDIA 對 Agent 基礎設施的一次打包推進:Ultra 負責高難推理和編排,Content Safety 負責安全護欄,ASR 負責語音入口,OpenShell 和 NemoClaw 負責運行環境,NIM 和各類推理平台負責部署。

如果你正在做企業 Agent、程式碼 Agent、研究自動化、多工具編排或主權 AI 專案,Nemotron 3 Ultra 值得重點關注。它真正要競爭的不是一次問答體驗,而是長鏈路任務能不能更快、更穩、更便宜地完成。

參考來源

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計