开源模型 on KnightLi的博客

NVIDIA Nemotron 3 Ultra 发布：面向长时间运行 Agent 的开放推理模型

Sat, 06 Jun 2026 11:51:55 +0800

NVIDIA 在 2026 年 6 月 4 日发布了 Nemotron 3 Ultra。这是一个面向长时间运行 Agent 的开放推理模型，采用 550B 参数的 Mixture-of-Experts 架构，每次推理激活约 55B 参数。

这次发布的重点不是“又一个大模型聊天助手”，而是一个更明确的方向：让多轮、多工具、多子代理的 Agent 工作流跑得更快、更便宜、更稳定。

为什么 NVIDIA 强调 long-running agents

普通聊天模型面对的是一次提问、一次回答。Agent 面对的是一串任务链。

一个真正长时间运行的 Agent 可能会：

制定计划；
调用搜索、代码、数据库或企业工具；
把任务分给子 Agent；
接收工具结果；
继续推理下一步；
验证输出；
遇到错误后恢复。

这个过程会让 token 数量快速膨胀。任务跑得越久，历史消息、工具输出、推理步骤和中间结果越多，模型调用成本越高，目标漂移的风险也越大。

NVIDIA 的思路是用“模型系统”解决这个问题：关键推理和编排交给更强的 frontier reasoning 模型，高频执行、验证和工具调用交给更高效的模型。Nemotron 3 Ultra 的位置，就是这个系统里的高能力编排模型。

Nemotron 3 Ultra 的核心定位

Nemotron 3 Ultra 是一个 550B 参数 MoE 模型，但每次推理只激活约 55B 参数。它面向的不是轻量聊天，而是 Agent 工作流里的困难调用。

官方举的例子包括：

在长时间代码任务中保持架构决策一致；
从数百个研究来源里综合互相矛盾的证据；
在数千个约束下验证芯片设计；
在多轮任务中规划、调用工具、恢复错误和继续执行。

也就是说，Ultra 更像是 Agent 系统里的“总调度 + 深推理”组件，而不是每一次工具调用都要用的便宜执行模型。

性能和效率指标

NVIDIA 在官方博客中给出了一组对比指标。Nemotron 3 Ultra 在多个 Agent 和长上下文相关测试中表现接近或领先同级开放模型：

PinchBench：91%
EnterpriseOps-Gym：33%
Terminal-Bench 2.0：54%
IFBench：82%
Ruler @1M：95%

官方还强调，它在同级开放模型中可以达到最高 5x 的吞吐优势。对于长时间运行 Agent，这个数字比单轮 benchmark 更重要，因为 Agent 任务通常不是一次回答结束，而是连续多轮调用。

另一个关键点是成本。NVIDIA 表示，在 SWE-bench 和 Terminal-Bench 2.0 实验中，Nemotron 3 Ultra 用更少的总 token 和每轮 token 完成任务，让 Agent 任务成本最多下降 30%。

对开发者来说，这意味着 Nemotron 3 Ultra 不只是在追求“答得对”，也在优化“完成整个任务要花多少 token、多少时间、多少钱”。

Hybrid Mamba-Transformer：为了长上下文效率

长上下文 Agent 有两个矛盾需求。

一方面，它需要高效处理很长的序列，因为工具输出和历史轨迹会不断增长。另一方面，它又需要精准回忆上下文里的具体事实，例如某一步工具输出、某个文件路径、某个约束条件。

Nemotron 3 Ultra 采用 Hybrid Mamba-Transformer 架构来平衡这两点：

Mamba layers 提高长序列处理效率；
Transformer layers 保留对具体上下文事实的精准召回能力。

这种设计很适合 Agent 场景。Agent 不只是读长文档，也会不断把自己的行动轨迹写进上下文。如果模型长上下文效率不够，任务越跑越慢；如果精准召回能力不够，任务又容易在后半程忘记关键约束。

NVFP4：同一 checkpoint 覆盖多代 NVIDIA GPU

NVIDIA 还强调了 NVFP4 精度。

官方说，同一个 NVFP4 checkpoint 可以运行在 NVIDIA Hopper、Blackwell 和 Ampere GPU 上。借助专门的 NVFP4 量化 kernel，开发者可以用同一份 checkpoint 覆盖多代 NVIDIA GPU 架构。

在 Blackwell 上，NVIDIA 称 NVFP4 相比 BF16 在相同交互性下可以带来最高 5x 的每 GPU 吞吐提升。

这对企业部署很现实。很多公司不会只有一种 GPU，可能同时有 Ampere、Hopper、Blackwell。模型如果需要为每一代硬件维护不同版本，会增加部署和验证成本。

LatentMoE 和 MTP

Nemotron 3 Ultra 还用了 LatentMoE 和 Multi-token prediction。

LatentMoE 负责更高效的专家路由。MoE 模型的关键问题之一，就是不同请求该走哪些专家。Agent 工作流可能同时包含推理、代码生成、工具调用和领域逻辑，专家路由是否高效，直接影响吞吐和能力。

Multi-token prediction，也就是 MTP，则用于提升生成速度。它不是每次只预测下一个 token，而是尝试一次 forward pass 预测多个未来 token，减少长输出和多轮任务中的等待时间。

这两个点放在一起看，NVIDIA 想优化的不是单点模型能力，而是 Agent 长时间运行时的整体吞吐、延迟和成本。

MOPD：多教师 On-Policy 蒸馏

这次发布里一个比较重要的训练方法是 Multi-Teacher On-Policy Distillation，简称 MOPD。

简单理解，Ultra 在训练时不是只向一个教师模型学习，而是向十多个领域专用教师模型学习。每个教师模型都有自己的领域训练管线，负责在自己的专业范围里给 Ultra 打分和反馈。

MOPD 的特点包括：

学生模型自己生成尝试；
不同领域的教师模型给出密集 reward 信号；
学生 rollout、教师评分、学生优化异步流水化；
训练过程可以迭代，新的学生 checkpoint 又能成为下一轮教师训练的起点。

这套方法的目标，是让模型在多个领域持续提升，而不是只在通用对话上变强。对于企业 Agent 来说，这很重要，因为真实任务往往包含法律、代码、知识问答、企业流程、安全规则等混合能力。

训练数据和开放 recipe

NVIDIA 这次继续强调开放数据和训练配方。

在一个 10T token 的预训练基础上，Nemotron 3 Ultra 增加了 212B 新 token，用于弥补三个高价值领域差距：

4B 合成法律数据；
35B 基于 Wiki 的合成数据；
173B 刷新的 GitHub token，覆盖到 2025 年 9 月 30 日。

后训练方面，这次还发布了：

10M 新 SFT 样本；
1M 新 RL 任务；
15 个全新的 RL 环境。

累计来看，Nemotron 开放数据总量达到 50M SFT 样本、2M RL 任务和 55 个 RL 环境。

这对企业和主权 AI 项目尤其重要。能力只是一个维度，训练数据透明度、来源和可追溯性同样会影响模型是否能进入生产环境。

开发者可以怎么用

Nemotron 3 Ultra 是开放模型，NVIDIA 表示权重、数据和 recipe 都会开放，开发者可以按领域工作流适配。

官方提到的使用方式包括：

通过 Hugging Face 下载权重；
使用 NVIDIA NIM microservice 部署；
在 build.nvidia.com 上试用；
通过 OpenRouter、Anaconda、Perplexity Pro 等入口使用；
使用 SGLang、TRT-LLM、vLLM 等推理软件；
用 NeMo 相关库进行 LoRA、SFT 和强化学习微调。

如果你正在做企业 Agent，Nemotron 3 Ultra 更适合放在这些位置：

复杂任务规划；
多工具调用编排；
长上下文证据综合；
代码 Agent 的关键决策；
多 Agent 系统里的总控模型；
领域 Agent 的高难推理层。

它不一定适合每个小请求都调用。更现实的架构是：Ultra 处理关键推理，高频简单步骤交给更小、更便宜的模型。

安全运行 Agent：NemoClaw 和 OpenShell

NVIDIA 还同时强调了 Agent 安全运行环境。

官方提到三块：

Hermes Agent 和 OpenClaw：用于多轮工作流的 agent harness，提供编排循环、记忆和工具；
NVIDIA OpenShell：安全运行环境，让自治 Agent 和它生成的代码在受控环境中执行；
NVIDIA NemoClaw：开源 blueprint，用单条命令安装 OpenShell runtime，把 agent harness、运行环境和开放模型组合起来。

这点很关键。越强的 Agent 越不应该直接裸跑在生产机器上。只要模型能写代码、调用工具或操作文件，就需要沙箱、权限边界、日志和人工确认机制。

Nemotron 3.5 Content Safety 和 ASR

除了 Nemotron 3 Ultra，NVIDIA 还发布了两个相关模型。

第一个是 Nemotron 3.5 Content Safety。这是一个开放的 4B 安全护栏模型，用于识别文本、图像和混合输入中的不安全、违规或策略不允许内容。它覆盖 23 个安全类别和 12 种语言，可用于推理时护栏、LLM 安全评测 judge，或配合训练数据做安全后训练。

第二个是 Nemotron 3.5 ASR。这是面向语音原生 Agent 的自动语音识别模型，使用 cache-aware streaming 架构，目标是低延迟处理音频 delta。官方称它支持 40+ 种语言，并延续 Nemotron 3 ASR 面向实时语音的设计。

这说明 NVIDIA 不是只发布一个推理模型，而是在补全 Agent 堆栈：推理、语音输入、安全护栏、运行时沙箱和部署工具都在同一套生态里。

开放许可和部署生态

Nemotron 模型发布转向 OpenMDW-1.1，这是 Linux Foundation 面向开放 AI 模型分发设计的宽松许可证。NVIDIA 表示它覆盖架构、参数、文档、软件和相关材料，目的是减少开放模型在评估和采用时的许可不确定性。

对企业来说，许可清晰度很重要。很多模型不是能力不够，而是权重、数据、recipe、商业使用和再分发条款不够清楚，导致法务和合规评估难以推进。

这次 NVIDIA 同时列出了一大批部署和服务伙伴，包括推理软件、云服务、模型定制服务和 inference service providers。它的目标很清楚：让 Nemotron 3 Ultra 不只是研究模型，而是能进入真实 Agent 生产链路。

需要保持冷静的地方

Nemotron 3 Ultra 很强，但它不是给普通个人电脑随手跑的模型。

550B MoE、55B active 参数，意味着它更适合企业级 GPU 集群、云服务、NIM 或专业推理平台。普通开发者更现实的入口，是通过 API、托管服务、build.nvidia.com 或 Hugging Face 生态里的部署方案试用。

另外，官方 benchmark 很有参考价值，但不能直接等同于你的业务结果。Agent 系统是否好用，还取决于：

agent harness 设计；
工具权限和可靠性；
长上下文裁剪策略；
任务分解方式；
错误恢复机制；
安全沙箱和审计。

强模型只是 Agent 系统的一层。真正决定生产质量的，往往是模型、工具、上下文管理、运行环境和评估体系的组合。

小结

Nemotron 3 Ultra 的重点，是把开放推理模型推向长时间运行 Agent 的真实需求：更长上下文、更高吞吐、更低完成任务成本、更清晰的训练数据和可定制部署路径。

它不是一个普通聊天模型发布，而是 NVIDIA 对 Agent 基础设施的一次打包推进：Ultra 负责高难推理和编排，Content Safety 负责安全护栏，ASR 负责语音入口，OpenShell 和 NemoClaw 负责运行环境，NIM 和各类推理平台负责部署。

如果你正在做企业 Agent、代码 Agent、研究自动化、多工具编排或主权 AI 项目，Nemotron 3 Ultra 值得重点关注。它真正要竞争的不是一次问答体验，而是长链路任务能不能更快、更稳、更便宜地完成。

参考来源

NVIDIA Nemotron 3 Ultra Powers Faster, More Efficient Reasoning for Long-Running Agents

Sulphur 2 为什么火了？开源 AI 视频生成、无审查争议和本地部署门槛

Mon, 18 May 2026 00:27:37 +0800

Sulphur 2 最近在 AI 视频生成社区里引发了不少讨论。

它不是 Sora、Runway、Pika 那样的在线商业产品，也不是从零训练出来的新架构。更准确地说，Sulphur 2 是一个基于 LTX 2.3 微调的开源权重视频生成模型，面向本地生成、可控工作流和更开放的提示词响应。

真正让它受到关注的，不只是“能生成视频”，而是它把一个老问题重新推到台前：AI 视频模型到底应该由平台统一设定内容边界，还是让本地用户在合法范围内自行承担责任？

Sulphur 2 和 LTX 2.3 的关系

Sulphur 2 的底座是 Lightricks 开源的 LTX 2.3。

LTX 2.3 本身就是一个较完整的视频生成模型路线，支持文生视频、图生视频、可变帧率、首尾帧控制、音频同步等能力。它的生态也更容易接入 ComfyUI 等本地工作流。

Sulphur 2 并没有改变这个基础结构，而是在 LTX 2.3 上做了针对性微调。原文提到，开发团队使用了超过 12.5 万个视频样本进行训练，并提供了 BF16、FP8 mixed、Distill LoRA 等不同版本，方便用户按硬件条件选择。

这意味着，Sulphur 2 更像是 LTX 2.3 生态里的一个衍生模型包，而不是一个完全独立的新平台。

如果你关心本地部署、显存需求和 ComfyUI 工作流，可以参考站内之前的部署记录：Sulphur 2 能在 8G 显存上跑吗？LTX 2.3 视频模型本地部署记录。

为什么它会被称为“无审查”

Sulphur 2 最有争议的标签，是 uncensored，也就是常被翻译成“无审查”。

这个词很容易被误解。它不应该被理解成“可以生成任何内容”，更不意味着可以用于违法、侵权、骚扰、伪造身份或制作非自愿影像。更准确的理解是：相比很多商业视频生成平台，Sulphur 2 更少因为某些敏感但合法的题材直接拒绝响应。

商业平台通常会采取保守策略。为了降低法律、品牌和合规风险，它们可能会屏蔽一批模糊地带的提示词。这样做能降低滥用概率，但也会误伤一些正常创作场景，例如：

医学教育。
历史题材。
新闻再现。
艺术实验。
小众风格创作。
严肃纪录片素材构思。

Sulphur 2 的思路是把更多判断权交给本地用户，同时保留对非法内容的底线过滤。这个方向会带来更高创作自由度，也会带来更高责任要求。

技术上不只是“去掉限制”

把 Sulphur 2 说成“删掉审查层的 LTX 2.3”并不完整。

从公开信息看，它提供的是一组围绕 LTX 2.3 的模型权重和配套工具，包括：

BF16 全精度版本，适合显存更充足的硬件。
FP8 mixed 版本，用更低显存换取更好的可用性。
Distill LoRA 版本，适合在速度和质量之间取舍。
ComfyUI 工作流，方便用户进行文生视频和图生视频测试。
Prompt Enhancer，用于把简短描述扩展成更适合视频生成的提示词。

视频生成和图片生成不同。视频里不只有主体和风格，还包含镜头运动、人物动作、时间连续性、帧间一致性、景别变化和节奏控制。提示词写得太短，模型经常会补出不稳定细节。

所以 Prompt Enhancer 的意义在于降低提示词门槛：用户给出一个简单想法，小模型把它扩展成更适合视频模型理解的描述，再交给 Sulphur 2 工作流生成。

实际体验：更听话，但不是万能

从社区反馈看，Sulphur 2 的一个明显特点是更愿意遵循提示词。

因为限制更少，它不容易在某些合法题材上突然拒绝、降级或绕开用户意图。这对需要精确控制内容的人很有吸引力，尤其是本地创作、实验影像、概念短片和小众题材。

但它并不是“视频生成终局”。

当前开源视频模型仍然普遍存在这些问题：

人体动作不自然。
肢体和手部容易变形。
长镜头一致性不足。
多主体交互容易混乱。
复杂场景理解偏字面。
画面符合提示词，但美感和剪辑感不足。

这些问题不是 Sulphur 2 独有，而是当前 AI 视频生成模型的共性。它能改善一部分提示词响应问题，但不能消除视频生成本身的技术难点。

硬件门槛仍然存在

Sulphur 2 被称为开源模型，但开源不等于普通电脑随便跑。

如果想获得较好效果，仍然需要比较强的显卡。原文提到，FP8 版本降低了显存需求，但想稳定使用，通常仍需要较高显存。BF16 版本对硬件要求更高，更适合高端显卡或云端 GPU。

这意味着 Sulphur 2 的“大众化”并不是一键网页工具式的大众化，而是开源社区意义上的大众化：

权重可以下载。
工作流可以修改。
用户可以本地运行。
开发者可以二次微调。
社区可以共享参数和节点配置。

它降低的是控制权门槛，不一定降低硬件门槛。

最大争议：开放和安全怎么平衡

Sulphur 2 的争议，本质上不是某个模型参数好不好，而是开源 AI 视频生成的治理问题。

支持者认为，开源模型不应该替用户做过度判断。只要内容合法，用户就应该能在本地环境里探索艺术、教育、研究和创作边界。

质疑者担心，视频比图片更容易造成现实伤害。更开放的模型可能被用于伪造、骚扰、侵权、误导传播或其他滥用场景。即使开发者保留了非法内容过滤，也很难完全阻止二次修改和恶意使用。

这两种观点都不能简单忽视。

开源模型需要自由，也需要责任。比较可行的方向不是把模型彻底封死，也不是完全放任，而是建立更清晰的社区规范、模型卡说明、使用限制、溯源工具和举报机制。

适合哪些人关注

Sulphur 2 更适合这些用户：

已经熟悉 ComfyUI 或本地视频生成工作流的人。
想研究 LTX 2.3 衍生模型效果的开发者。
需要更高提示词响应度的创作者。
希望在本地环境里做可控实验的团队。
想做二次微调、LoRA 或工作流优化的模型玩家。

如果你只是想快速生成一个可发社交平台的短视频，在线产品可能仍然更省心。Sulphur 2 的价值不在于“点一下就出片”，而在于给愿意折腾的人更多控制权。

小结

Sulphur 2 的意义，不只是又多了一个 AI 视频生成模型。

它更像是开源视频生成社区对商业平台保守策略的一次回应：当模型越来越强，内容边界应该由谁来定义？

从技术角度看，它基于 LTX 2.3，提供多种精度版本、LoRA、ComfyUI 工作流和 Prompt Enhancer，适合本地生成和二次开发。

从生态角度看，它也提醒我们：视频生成的开放会带来更大创作自由，也会带来更高滥用风险。未来开源 AI 视频模型能否健康发展，取决于技术能力、社区规范和使用者责任能否一起跟上。