NVIDIA 在 Hugging Face 上发布了 nvidia/Qwen3.6-35B-A3B-NVFP4。这是基于阿里 Qwen3.6-35B-A3B 的量化版本,使用 NVIDIA Model Optimizer 处理,目标是让开发者更方便地把模型部署到 vLLM、Agent、RAG、聊天机器人等推理场景中。
模型卡显示,它采用 Apache-2.0 许可证,可以用于商业和非商业场景。需要注意的是,NVIDIA 明确说明该模型并不是 NVIDIA 自研基础模型,而是基于第三方模型 Qwen3.6-35B-A3B 的量化版本。
模型基本信息
根据模型卡,Qwen3.6-35B-A3B-NVFP4 的关键参数如下:
- 基础模型:
Qwen/Qwen3.6-35B-A3B - 发布方:NVIDIA
- 量化工具:NVIDIA Model Optimizer
- 许可证:Apache-2.0
- 架构:Transformer
- 网络结构:MoE with Hybrid Attention
- 参数规模:总参数 35B,激活参数 3B
- 输入:文本、图像、视频
- 输出:文本
- 上下文长度:最高 262K
- 推理引擎:vLLM
- 推荐硬件:NVIDIA Hopper、NVIDIA Blackwell
- 推荐系统:Linux
Hugging Face 页面侧边栏同时显示了模型文件相关的体积与张量类型信息。阅读时不要把页面侧边栏里的文件统计口径,直接等同于基础模型的架构参数。
NVFP4 量化做了什么
这个版本的重点是 NVFP4 量化。模型卡描述中提到,NVIDIA 对 Qwen3.6-35B-A3B 的权重做了 NVFP4 量化,使其可以配合 vLLM 推理使用。
这次量化不是把所有内容都粗暴压到 4-bit,而是针对 MoE Transformer block 中线性算子的权重和激活做处理。官方给出的结果是:每个参数的位宽从 16 bit 降到 4 bit,磁盘占用和 GPU 显存需求约降低 3.06 倍。
对部署来说,这类预量化版本的意义很直接:不用自己重新跑量化流程,就可以直接拿来测试吞吐、显存占用和长上下文推理表现。
vLLM 部署命令
模型卡给出的基础启动命令如下:
|
|
这条命令保留了 262K 上下文长度,适合先在高显存环境中验证模型能力。如果显存紧张,可以先降低 --max-model-len,再逐步上调。
针对 NVIDIA DGX Spark,模型卡给了另一组环境变量和 vLLM 参数:
|
|
这组参数更偏向实际部署调优:降低上下文到 65536,启用 FP8 KV cache、chunked prefill、prefix caching,并配置 speculative decoding。它不是所有机器都能直接复制使用,尤其是 CUTE_DSL_ARCH=sm_121a、FlashInfer、MoE backend 等参数,都和具体 GPU、驱动、CUDA、vLLM 版本有关。
评测结果怎么看
模型卡对比了 BF16 基线和 NVFP4 量化版本的结果:
| Precision | MMLU Pro | GPQA Diamond | τ²-Bench Telecom | SciCode | AIME 2025 | AA-LCR | IFBench | MMMU Pro |
|---|---|---|---|---|---|---|---|---|
| BF16 | 85.6 | 84.9 | 95.5 | 40.8 | 89.2 | 62.0 | 62.3 | 74.1 |
| NVFP4 | 85.0 | 84.8 | 94.7 | 40.6 | 88.8 | 62.0 | 62.8 | 74.5 |
从表格看,NVFP4 相比 BF16 有小幅波动:部分指标略降,IFBench 和 MMMU Pro 反而略高。更稳妥的理解是:这个量化版本在这些公开评测上尽量接近 BF16,但部署前仍然需要用自己的业务数据测试。
尤其是 Agent、RAG、代码生成、长上下文检索这类场景,公开 benchmark 只能给一个参考。真正上线前,还是要看:
- 长上下文下是否稳定遵循指令;
- RAG 场景中是否会忽略引用材料;
- 工具调用是否容易产生错误参数;
- 中文、英文和多模态输入是否符合你的业务要求;
- 低显存配置下吞吐和延迟是否能接受。
适合哪些场景
这个模型更适合已经准备使用 NVIDIA GPU 和 vLLM 做推理服务的团队。典型场景包括:
- 本地或私有化聊天机器人;
- RAG 知识库问答;
- Agent 系统中的规划与工具调用;
- 长文档阅读与摘要;
- 需要更低显存占用的大模型推理测试;
- 想比较 BF16 与 FP4 量化效果的部署团队。
如果只是想在普通消费级显卡上随便跑一跑,要先确认显存、vLLM 版本和量化支持情况。预量化模型可以降低部署门槛,但不等于所有硬件都能无痛运行 262K 上下文。
使用限制
模型卡中也提醒了常见限制:基础模型的训练数据来自互联网,可能包含有害内容和社会偏见,因此模型可能在某些提示下放大偏见、生成不准确内容、遗漏关键信息,或者输出不合适的文本。
如果用于生产环境,建议至少增加几层保护:
- 针对业务场景做安全评测;
- 给 RAG 和工具调用增加结果校验;
- 对高风险输出增加人工复核;
- 记录推理版本、量化配置和 vLLM 参数;
- 对重要任务保留回滚到其他模型或 BF16 版本的方案。
小结
nvidia/Qwen3.6-35B-A3B-NVFP4 的价值在于:它把 Qwen3.6-35B-A3B 做成了一个可以直接面向 vLLM 部署的 NVIDIA 量化版本。NVFP4 降低了显存和磁盘压力,官方评测也显示它在多项指标上接近 BF16。
但它仍然是一个需要工程验证的推理模型。真正部署前,不要只看 benchmark 分数,更要结合自己的硬件、上下文长度、RAG 数据、Agent 工具链和安全要求做测试。
参考链接: