NVIDIA が Qwen3.6-35B-A3B-NVFP4 を公開：vLLM デプロイ向けの FP4 量子化版

NVIDIA は Hugging Face で nvidia/Qwen3.6-35B-A3B-NVFP4 を公開しました。これは Alibaba の Qwen3.6-35B-A3B をベースにした量子化版で、NVIDIA Model Optimizer によって処理されています。開発者が vLLM、Agent、RAG、チャットボットなどの推論シナリオへより簡単にデプロイできるようにすることが目的です。

モデルカードによると、このモデルは Apache-2.0 ライセンスで提供され、商用・非商用のどちらにも利用できます。注意すべき点として、NVIDIA はこのモデルが NVIDIA 自社開発の基盤モデルではなく、サードパーティモデル Qwen3.6-35B-A3B をベースにした量子化版であることを明記しています。

モデルの基本情報

モデルカードによると、Qwen3.6-35B-A3B-NVFP4 の主なパラメータは次のとおりです。

ベースモデル：Qwen/Qwen3.6-35B-A3B
公開元：NVIDIA
量子化ツール：NVIDIA Model Optimizer
ライセンス：Apache-2.0
アーキテクチャ：Transformer
ネットワーク構造：MoE with Hybrid Attention
パラメータ規模：総パラメータ 35B、活性化パラメータ 3B
入力：テキスト、画像、動画
出力：テキスト
コンテキスト長：最大 262K
推論エンジン：vLLM
推奨ハードウェア：NVIDIA Hopper、NVIDIA Blackwell
推奨システム：Linux

Hugging Face ページのサイドバーには、モデルファイルに関するサイズやテンソル型の情報も表示されています。読む際には、サイドバー上のファイル統計をベースモデルのアーキテクチャパラメータとそのまま同一視しないようにしてください。

NVFP4 量子化で何が行われたか

このバージョンの中心は NVFP4 量子化です。モデルカードの説明では、NVIDIA が Qwen3.6-35B-A3B の重みに NVFP4 量子化を適用し、vLLM 推論で利用できるようにしたとされています。

今回の量子化は、すべてを単純に 4-bit へ押し込むものではありません。MoE Transformer block 内の線形演算子の重みと活性化値を対象に処理しています。公式の結果では、各パラメータのビット幅は 16 bit から 4 bit に下がり、ディスク使用量と GPU メモリ要件は約 3.06 倍削減されています。

デプロイの観点では、このような事前量子化版の意味は明確です。自分で量子化フローを再実行しなくても、スループット、メモリ使用量、長文コンテキスト推論の挙動を直接テストできます。

vLLM デプロイコマンド

モデルカードに記載されている基本的な起動コマンドは次のとおりです。

1

vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --quantization modelopt --max-model-len 262144 --reasoning-parser qwen3

このコマンドは 262K のコンテキスト長を維持しており、まず高メモリ環境でモデル能力を検証するのに向いています。GPU メモリが厳しい場合は、先に --max-model-len を下げ、そこから段階的に引き上げるとよいでしょう。

NVIDIA DGX Spark 向けには、モデルカードで別の環境変数と vLLM パラメータの組み合わせも示されています。

1
2
3
4
5


export VLLM_USE_FLASHINFER_MOE_FP4=0
export VLLM_FP8_MOE_BACKEND=flashinfer_cutlass
export FLASHINFER_DISABLE_VERSION_CHECK=1
export CUTE_DSL_ARCH=sm_121a
vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port 8000 --tensor-parallel-size 1 --trust-remote-code --dtype auto --quantization modelopt --kv-cache-dtype fp8 --attention-backend flashinfer --moe-backend marlin --gpu-memory-utilization 0.85 --max-model-len 65536 --max-num-seqs 4 --max-num-batched-tokens 8192 --enable-chunked-prefill --async-scheduling --enable-prefix-caching --speculative-config '{"method":"mtp","num_speculative_tokens":3,"moe_backend":"triton"}'

こちらのパラメータ群は、より実運用のチューニングに近いものです。コンテキストを 65536 に下げ、FP8 KV cache、chunked prefill、prefix caching を有効にし、speculative decoding も設定しています。ただし、すべてのマシンでそのままコピーして使えるわけではありません。特に CUTE_DSL_ARCH=sm_121a、FlashInfer、MoE backend などのパラメータは、具体的な GPU、ドライバ、CUDA、vLLM のバージョンに依存します。

評価結果をどう読むか

モデルカードでは、BF16 ベースラインと NVFP4 量子化版の結果が比較されています。

Precision	MMLU Pro	GPQA Diamond	τ²-Bench Telecom	SciCode	AIME 2025	AA-LCR	IFBench	MMMU Pro
BF16	85.6	84.9	95.5	40.8	89.2	62.0	62.3	74.1
NVFP4	85.0	84.8	94.7	40.6	88.8	62.0	62.8	74.5

表を見ると、NVFP4 は BF16 と比べて小さな変動があります。一部の指標はわずかに下がり、IFBench と MMMU Pro はむしろ少し高くなっています。より慎重に捉えるなら、この量子化版はこれらの公開評価では BF16 にできるだけ近い結果を示しているものの、デプロイ前には自社の業務データで検証する必要があります。

特に Agent、RAG、コード生成、長文コンテキスト検索のような場面では、公開 benchmark はあくまで参考です。本番投入前には、次の点を確認する必要があります。

長いコンテキストでも安定して指示に従うか；
RAG シナリオで参照資料を無視しないか；
ツール呼び出しで誤ったパラメータを生成しやすくないか；
中国語、英語、マルチモーダル入力が業務要件に合うか；
低メモリ構成でスループットとレイテンシを許容できるか。

どのような場面に向いているか

このモデルは、すでに NVIDIA GPU と vLLM を使って推論サービスを構築しようとしているチームにより向いています。典型的な用途は次のとおりです。

ローカルまたはプライベート環境のチャットボット；
RAG ナレッジベース QA；
Agent システムにおける計画とツール呼び出し；
長文ドキュメントの読解と要約；
GPU メモリ使用量を抑えた大規模モデル推論テスト；
BF16 と FP4 量子化の効果を比較したいデプロイチーム。

一般的なコンシューマ向け GPU で軽く試したいだけなら、まず GPU メモリ、vLLM バージョン、量子化サポート状況を確認する必要があります。事前量子化モデルはデプロイのハードルを下げますが、あらゆるハードウェアで 262K コンテキストを問題なく実行できるという意味ではありません。

利用上の制限

モデルカードでは一般的な制限についても注意喚起されています。基盤モデルの学習データはインターネット由来であり、有害な内容や社会的バイアスを含む可能性があります。そのため、特定のプロンプトではバイアスを増幅したり、不正確な内容を生成したり、重要な情報を抜かしたり、不適切なテキストを出力したりする可能性があります。

本番環境で利用する場合は、少なくとも次のような保護策を追加することをおすすめします。

業務シナリオに合わせた安全性評価を行う；
RAG とツール呼び出しに結果検証を追加する；
高リスクな出力には人手レビューを追加する；
推論バージョン、量子化設定、vLLM パラメータを記録する；
重要なタスクでは他のモデルや BF16 版へ戻せる計画を残しておく。

まとめ

nvidia/Qwen3.6-35B-A3B-NVFP4 の価値は、Qwen3.6-35B-A3B を vLLM デプロイに直接使える NVIDIA 量子化版にした点にあります。NVFP4 は GPU メモリとディスクの負担を下げ、公式評価でも複数の指標で BF16 に近い結果を示しています。

ただし、これは依然としてエンジニアリング検証が必要な推論モデルです。実際にデプロイする前には、benchmark スコアだけを見るのではなく、自分たちのハードウェア、コンテキスト長、RAG データ、Agent ツールチェーン、安全要件と組み合わせてテストする必要があります。

参考リンク：