NVIDIA Nemotron 3 Ultra 発表：長時間実行 Agent 向けのオープン推論モデル

NVIDIA は 2026 年 6 月 4 日に Nemotron 3 Ultra を発表しました。これは長時間実行 Agent 向けのオープン推論モデルで、550B パラメータの Mixture-of-Experts アーキテクチャを採用し、推論ごとに約 55B パラメータをアクティブにします。

今回の発表は「また別の大型チャットモデル」ではありません。より明確に、多ターン、多ツール、複数サブ Agent のワークフローをより速く、安く、安定して動かすことを狙っています。

NVIDIA が long-running agents を強調する理由

通常のチャットモデルが扱うのは、1 回の質問と 1 回の回答です。Agent が扱うのは、一連のタスクチェーンです。

本格的な長時間実行 Agent は、次のようなことを行います。

計画を立てる；
検索、コード、データベース、企業ツールを呼び出す；
タスクをサブ Agent に分配する；
ツール結果を受け取る；
次のステップを推論する；
出力を検証する；
エラー発生後に復旧する。

このプロセスでは token 数が急速に増えます。タスクが長く続くほど、履歴、ツール出力、推論ステップ、中間結果が増え、モデル呼び出しコストが上がり、目標がずれるリスクも高まります。

NVIDIA の考え方は、これを「モデルのシステム」で解決することです。重要な推論とオーケストレーションは強力な frontier reasoning モデルに任せ、高頻度の実行、検証、ツール呼び出しは効率的なモデルに任せる。Nemotron 3 Ultra は、その中の高能力なオーケストレーションモデルという位置づけです。

Nemotron 3 Ultra の中心的な位置づけ

Nemotron 3 Ultra は 550B パラメータの MoE モデルですが、推論時にアクティブになるのは約 55B パラメータです。軽量チャット向けではなく、Agent ワークフローの難しい呼び出しを担当します。

公式が挙げる例は次のとおりです。

長時間のコード作業でアーキテクチャ上の判断を一貫させる；
数百の研究ソースから矛盾する証拠を統合する；
数千の制約に対してチップ設計を検証する；
多ターンのタスクで計画し、ツールを呼び、エラーから回復して実行を続ける。

つまり Ultra は、Agent システム内の「総合司令 + 深い推論」コンポーネントに近く、すべての小さなツール呼び出しに使う安価な実行モデルではありません。

性能と効率

NVIDIA は公式ブログで複数の指標を示しています。Nemotron 3 Ultra は Agent と長文脈関連の評価で、同クラスのオープンモデルに対して競争力のある結果を出しています。

PinchBench：91%
EnterpriseOps-Gym：33%
Terminal-Bench 2.0：54%
IFBench：82%
Ruler @1M：95%

NVIDIA はさらに、同クラスのオープンモデルと比べて最大 5x のスループット優位を持つと説明しています。長時間実行 Agent では、単発 benchmark よりこの数字が重要です。Agent タスクは通常、1 回の回答で終わらず、多くのターンで継続的に呼び出しが発生するからです。

もう 1 つの重要点はコストです。NVIDIA によれば、SWE-bench と Terminal-Bench 2.0 の実験で、Nemotron 3 Ultra はより少ない総 token とターンごとの token でタスクを完了し、Agent タスクのコストを最大 30% 下げます。

開発者にとってこれは、Nemotron 3 Ultra が「正しく答える」だけでなく、「タスク全体を完了するために token、時間、費用がどれだけ必要か」も最適化していることを意味します。

Hybrid Mamba-Transformer：長文脈効率のために

長文脈 Agent には、相反する 2 つの要求があります。

一方では、ツール出力や行動履歴が増え続けるため、非常に長いシーケンスを効率的に処理する必要があります。もう一方では、文脈内の特定の事実、たとえばツール結果、ファイルパス、制約条件を正確に思い出す必要があります。

Nemotron 3 Ultra は Hybrid Mamba-Transformer アーキテクチャでこの 2 点を両立します。

Mamba layers は長いシーケンスの処理効率を高める；
Transformer layers は文脈内の具体的事実の正確な想起を保つ。

これは Agent の場面に向いています。Agent は長文書を読むだけでなく、自分の行動履歴を文脈に書き込み続けます。長文脈効率が低いと、タスクが進むほど遅くなります。正確な想起が弱いと、後半で重要な制約を忘れやすくなります。

NVFP4：1 つの checkpoint で複数世代の NVIDIA GPU をカバー

NVIDIA は NVFP4 精度も強調しています。

公式によると、同じ NVFP4 checkpoint が NVIDIA Hopper、Blackwell、Ampere GPU 上で動作します。専用の NVFP4 量子化 kernel により、開発者は 1 つの checkpoint を複数世代の NVIDIA GPU アーキテクチャで使えます。

Blackwell 上では、NVIDIA は NVFP4 が BF16 と比べ、同じインタラクティブ性で GPU あたり最大 5x のスループット向上をもたらすと述べています。

これは企業デプロイでは現実的に重要です。多くの企業は 1 種類の GPU だけを持っているわけではなく、Ampere、Hopper、Blackwell が混在することがあります。世代ごとに異なるモデル版を維持すると、デプロイと検証のコストが増えます。

LatentMoE と MTP

Nemotron 3 Ultra は LatentMoE と Multi-token prediction も使っています。

LatentMoE はより効率的な expert routing を担当します。MoE モデルでは、各リクエストをどの expert に流すかが重要です。Agent ワークフローは推論、コード生成、ツール呼び出し、領域固有ロジックを同時に含むことがあるため、routing 効率はスループットと能力に直結します。

Multi-token prediction、つまり MTP は生成速度を高めます。毎回次の token だけを予測するのではなく、1 回の forward pass で複数の未来 token を予測し、長い出力や多ターンタスクでの待ち時間を減らします。

この 2 つを見ると、NVIDIA が最適化しているのは単発のモデル能力ではなく、Agent が長時間動くときの総合的なスループット、遅延、コストだとわかります。

MOPD：Multi-Teacher On-Policy Distillation

今回の発表で重要な訓練方法の 1 つが Multi-Teacher On-Policy Distillation、略して MOPD です。

簡単にいうと、Ultra は 1 つの教師モデルだけから学ぶのではなく、10 以上の領域特化教師モデルから学びます。各教師モデルは独自の領域別訓練パイプラインを持ち、自分の専門範囲で Ultra を採点しフィードバックします。

MOPD の特徴は次のとおりです。

学生モデルが自分で試行を生成する；
領域ごとの教師モデルが密な reward 信号を与える；
学生 rollout、教師採点、学生最適化が非同期にパイプライン化される；
訓練は反復可能で、新しい学生 checkpoint が次の教師訓練の出発点になる。

この方法の狙いは、汎用会話だけでなく複数領域で継続的に能力を高めることです。企業 Agent では、法律、コード、知識作業、業務プロセス、安全ルールなどが混ざるため、これは重要です。

訓練データとオープン recipe

NVIDIA は今回も、オープンデータと訓練 recipe を強調しています。

10T token の事前訓練基盤の上に、Nemotron 3 Ultra は 212B の新規 token を追加し、3 つの高価値領域のギャップを埋めます。

4B の合成法律データ；
35B の Wiki ベース合成データ；
2025 年 9 月 30 日まで更新された 173B の GitHub token。

ポストトレーニングでは、次も公開されます。

10M の新規 SFT サンプル；
1M の新規 RL タスク；
15 の新規 RL 環境。

累計では、Nemotron のオープンデータは 50M SFT サンプル、2M RL タスク、55 RL 環境に達します。

これは企業や sovereign AI プロジェクトにとって特に重要です。能力は 1 つの側面にすぎません。訓練データの透明性、出所、追跡可能性も、モデルを本番環境に入れられるかに影響します。

開発者はどう使えるか

Nemotron 3 Ultra はオープンモデルであり、NVIDIA は weights、data、recipe を公開し、開発者が領域固有ワークフローに適応できると説明しています。

公式が挙げる利用方法には次があります。

Hugging Face から weights をダウンロードする；
NVIDIA NIM microservice でデプロイする；
build.nvidia.com で試す；
OpenRouter、Anaconda、Perplexity Pro などから利用する；
SGLang、TRT-LLM、vLLM などの推論ソフトウェアを使う；
NeMo 関連ライブラリで LoRA、SFT、強化学習の微調整を行う。

企業 Agent を作っているなら、Nemotron 3 Ultra は次のような場所に向いています。

複雑なタスク計画；
複数ツールのオーケストレーション；
長文脈での証拠統合；
コード Agent の重要判断；
複数 Agent システムの上位制御モデル；
領域 Agent の高難度推論層。

すべての小さなリクエストに呼ぶ必要はありません。現実的には、Ultra が重要な推論を担当し、高頻度で単純なステップはより小さく安価なモデルに任せる構成です。

Agent を安全に動かす：NemoClaw と OpenShell

NVIDIA は Agent の安全な実行環境も強調しています。

公式が示す構成は次の 3 つです。

Hermes Agent と OpenClaw：多ターンワークフロー向けの agent harness で、オーケストレーションループ、メモリ、ツールを提供する；
NVIDIA OpenShell：自律 Agent と生成コードを制御された環境で実行する安全な runtime；
NVIDIA NemoClaw：OpenShell runtime を 1 コマンドでインストールし、agent harness、runtime、オープンモデルをつなぐ open-source blueprint。

これは重要です。Agent が強くなるほど、本番マシン上で裸のまま直接動かすべきではありません。モデルがコードを書き、ツールを呼び、ファイルを操作できるなら、サンドボックス、権限境界、ログ、人間の確認が必要です。

Nemotron 3.5 Content Safety と ASR

Nemotron 3 Ultra に加えて、NVIDIA は 2 つの関連モデルも発表しました。

1 つ目は Nemotron 3.5 Content Safety です。これは 4B のオープンな安全 guardrail モデルで、テキスト、画像、混合入力に含まれる unsafe、disallowed、policy-violating content を識別します。23 の安全カテゴリと 12 言語をカバーし、推論時 guardrail、LLM 安全評価 judge、安全ポストトレーニングに使えます。

2 つ目は Nemotron 3.5 ASR です。音声ネイティブ Agent 向けの自動音声認識モデルで、cache-aware streaming アーキテクチャにより、低遅延で audio delta を処理します。NVIDIA は 40+ 言語をサポートし、Nemotron 3 ASR のリアルタイム音声設計を継承していると説明しています。

これは、NVIDIA が単に推論モデルを 1 つ出したのではなく、Agent スタックを補完していることを示します。推論、音声入力、安全 guardrail、runtime sandbox、デプロイツールが同じエコシステム内にあります。

オープンライセンスとデプロイエコシステム

Nemotron モデルのリリースは OpenMDW-1.1 に移行します。これは Linux Foundation がオープン AI モデル配布向けに設計した permissive license です。NVIDIA は、アーキテクチャ、パラメータ、ドキュメント、ソフトウェア、関連素材をカバーし、評価と採用時のライセンス上の曖昧さを減らすと述べています。

企業にとって、ライセンスの明確さは重要です。多くのモデルは能力が足りないのではなく、weights、data、recipe、商用利用、再配布条件が不明確なため、法務やコンプライアンス評価が進みにくくなります。

NVIDIA は今回、推論ソフトウェア、クラウドサービス、モデルカスタマイズサービス、inference service providers など、多くのパートナーも示しています。狙いは明確です。Nemotron 3 Ultra を研究モデルにとどめず、実際の Agent 本番パイプラインに入れることです。

冷静に見ておきたい点

Nemotron 3 Ultra は強力ですが、一般的な個人 PC で気軽に動かすモデルではありません。

550B MoE、55B active パラメータという規模は、企業向け GPU クラスタ、クラウドサービス、NIM、または専門の推論プラットフォームに向いています。一般開発者にとって現実的な入口は、API、ホスト型サービス、build.nvidia.com、Hugging Face エコシステムのデプロイ手段です。

また、公式 benchmark は参考になりますが、そのまま自分の業務結果になるわけではありません。Agent システムがうまく動くかは次にも依存します。

agent harness の設計；
ツール権限と信頼性；
長文脈のトリミング戦略；
タスク分解方法；
エラー復旧；
セキュリティサンドボックスと監査。

強いモデルは Agent システムの 1 層にすぎません。本番品質を決めるのは、多くの場合、モデル、ツール、文脈管理、runtime、評価体系の組み合わせです。

まとめ

Nemotron 3 Ultra の要点は、オープン推論モデルを長時間実行 Agent の現実的な要求へ押し出すことです。より長い文脈、より高いスループット、より低いタスク完了コスト、より明確な訓練データ、カスタマイズ可能なデプロイ経路が中心です。

これは普通のチャットモデル発表ではありません。NVIDIA が Agent インフラをまとめて前進させる動きです。Ultra は高難度推論とオーケストレーションを担当し、Content Safety は guardrail を担当し、ASR は音声入力を担当し、OpenShell と NemoClaw は runtime を担当し、NIM と各種推論プラットフォームはデプロイを担当します。

企業 Agent、コード Agent、研究自動化、複数ツール編成、sovereign AI プロジェクトを作っているなら、Nemotron 3 Ultra は注目に値します。競争相手は単発の Q&A 体験ではなく、長いタスクチェーンをより速く、安定して、低コストで完了できるかです。

参考ソース

NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents