NVIDIA 发布 Qwen3.6-35B-A3B-NVFP4：面向 vLLM 部署的 FP4 量化版本

Sun, 31 May 2026 13:05:55 +0800

NVIDIA 在 Hugging Face 上发布了 nvidia/Qwen3.6-35B-A3B-NVFP4。这是基于阿里 Qwen3.6-35B-A3B 的量化版本，使用 NVIDIA Model Optimizer 处理，目标是让开发者更方便地把模型部署到 vLLM、Agent、RAG、聊天机器人等推理场景中。

模型卡显示，它采用 Apache-2.0 许可证，可以用于商业和非商业场景。需要注意的是，NVIDIA 明确说明该模型并不是 NVIDIA 自研基础模型，而是基于第三方模型 Qwen3.6-35B-A3B 的量化版本。

模型基本信息

根据模型卡，Qwen3.6-35B-A3B-NVFP4 的关键参数如下：

基础模型：Qwen/Qwen3.6-35B-A3B
发布方：NVIDIA
量化工具：NVIDIA Model Optimizer
许可证：Apache-2.0
架构：Transformer
网络结构：MoE with Hybrid Attention
参数规模：总参数 35B，激活参数 3B
输入：文本、图像、视频
输出：文本
上下文长度：最高 262K
推理引擎：vLLM
推荐硬件：NVIDIA Hopper、NVIDIA Blackwell
推荐系统：Linux

Hugging Face 页面侧边栏同时显示了模型文件相关的体积与张量类型信息。阅读时不要把页面侧边栏里的文件统计口径，直接等同于基础模型的架构参数。

NVFP4 量化做了什么

这个版本的重点是 NVFP4 量化。模型卡描述中提到，NVIDIA 对 Qwen3.6-35B-A3B 的权重做了 NVFP4 量化，使其可以配合 vLLM 推理使用。

这次量化不是把所有内容都粗暴压到 4-bit，而是针对 MoE Transformer block 中线性算子的权重和激活做处理。官方给出的结果是：每个参数的位宽从 16 bit 降到 4 bit，磁盘占用和 GPU 显存需求约降低 3.06 倍。

对部署来说，这类预量化版本的意义很直接：不用自己重新跑量化流程，就可以直接拿来测试吞吐、显存占用和长上下文推理表现。

vLLM 部署命令

模型卡给出的基础启动命令如下：

`1`	`vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --quantization modelopt --max-model-len 262144 --reasoning-parser qwen3`

这条命令保留了 262K 上下文长度，适合先在高显存环境中验证模型能力。如果显存紧张，可以先降低 --max-model-len，再逐步上调。

针对 NVIDIA DGX Spark，模型卡给了另一组环境变量和 vLLM 参数：

export VLLM_USE_FLASHINFER_MOE_FP4=0
export VLLM_FP8_MOE_BACKEND=flashinfer_cutlass
export FLASHINFER_DISABLE_VERSION_CHECK=1
export CUTE_DSL_ARCH=sm_121a
vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --tensor-parallel-size 1 --trust-remote-code --dtype auto --quantization modelopt --kv-cache-dtype fp8 --attention-backend flashinfer --moe-backend marlin --gpu-memory-utilization 0.85 --max-model-len 65536 --max-num-seqs 4 --max-num-batched-tokens 8192 --enable-chunked-prefill --async-scheduling --enable-prefix-caching --speculative-config '{"method":"mtp","num_speculative_tokens":3,"moe_backend":"triton"}'

这组参数更偏向实际部署调优：降低上下文到 65536，启用 FP8 KV cache、chunked prefill、prefix caching，并配置 speculative decoding。它不是所有机器都能直接复制使用，尤其是 CUTE_DSL_ARCH=sm_121a、FlashInfer、MoE backend 等参数，都和具体 GPU、驱动、CUDA、vLLM 版本有关。

评测结果怎么看

模型卡对比了 BF16 基线和 NVFP4 量化版本的结果：

Precision	MMLU Pro	GPQA Diamond	τ²-Bench Telecom	SciCode	AIME 2025	AA-LCR	IFBench	MMMU Pro
BF16	85.6	84.9	95.5	40.8	89.2	62.0	62.3	74.1
NVFP4	85.0	84.8	94.7	40.6	88.8	62.0	62.8	74.5

从表格看，NVFP4 相比 BF16 有小幅波动：部分指标略降，IFBench 和 MMMU Pro 反而略高。更稳妥的理解是：这个量化版本在这些公开评测上尽量接近 BF16，但部署前仍然需要用自己的业务数据测试。

尤其是 Agent、RAG、代码生成、长上下文检索这类场景，公开 benchmark 只能给一个参考。真正上线前，还是要看：

长上下文下是否稳定遵循指令；
RAG 场景中是否会忽略引用材料；
工具调用是否容易产生错误参数；
中文、英文和多模态输入是否符合你的业务要求；
低显存配置下吞吐和延迟是否能接受。

适合哪些场景

这个模型更适合已经准备使用 NVIDIA GPU 和 vLLM 做推理服务的团队。典型场景包括：

本地或私有化聊天机器人；
RAG 知识库问答；
Agent 系统中的规划与工具调用；
长文档阅读与摘要；
需要更低显存占用的大模型推理测试；
想比较 BF16 与 FP4 量化效果的部署团队。

如果只是想在普通消费级显卡上随便跑一跑，要先确认显存、vLLM 版本和量化支持情况。预量化模型可以降低部署门槛，但不等于所有硬件都能无痛运行 262K 上下文。

使用限制

模型卡中也提醒了常见限制：基础模型的训练数据来自互联网，可能包含有害内容和社会偏见，因此模型可能在某些提示下放大偏见、生成不准确内容、遗漏关键信息，或者输出不合适的文本。

如果用于生产环境，建议至少增加几层保护：

针对业务场景做安全评测；
给 RAG 和工具调用增加结果校验；
对高风险输出增加人工复核；
记录推理版本、量化配置和 vLLM 参数；
对重要任务保留回滚到其他模型或 BF16 版本的方案。

小结

nvidia/Qwen3.6-35B-A3B-NVFP4 的价值在于：它把 Qwen3.6-35B-A3B 做成了一个可以直接面向 vLLM 部署的 NVIDIA 量化版本。NVFP4 降低了显存和磁盘压力，官方评测也显示它在多项指标上接近 BF16。

但它仍然是一个需要工程验证的推理模型。真正部署前，不要只看 benchmark 分数，更要结合自己的硬件、上下文长度、RAG 数据、Agent 工具链和安全要求做测试。

参考链接：

模型量化 on KnightLi的博客