<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>模型量化 on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/%E6%A8%A1%E5%9E%8B%E9%87%8F%E5%8C%96/</link>
        <description>Recent content in 模型量化 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Sun, 31 May 2026 13:05:55 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/%E6%A8%A1%E5%9E%8B%E9%87%8F%E5%8C%96/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>NVIDIA 發布 Qwen3.6-35B-A3B-NVFP4：面向 vLLM 部署的 FP4 量化版本</title>
        <link>https://knightli.com/zh-tw/2026/05/31/nvidia-qwen3-6-35b-a3b-nvfp4/</link>
        <pubDate>Sun, 31 May 2026 13:05:55 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/31/nvidia-qwen3-6-35b-a3b-nvfp4/</guid>
        <description>&lt;p&gt;NVIDIA 在 Hugging Face 上發布了 &lt;code&gt;nvidia/Qwen3.6-35B-A3B-NVFP4&lt;/code&gt;。這是基於阿里 Qwen3.6-35B-A3B 的量化版本，使用 NVIDIA Model Optimizer 處理，目標是讓開發者更方便地把模型部署到 vLLM、Agent、RAG、聊天機器人等推理場景中。&lt;/p&gt;
&lt;p&gt;模型卡顯示，它採用 Apache-2.0 授權，可以用於商業和非商業場景。需要注意的是，NVIDIA 明確說明該模型並不是 NVIDIA 自研基礎模型，而是基於第三方模型 Qwen3.6-35B-A3B 的量化版本。&lt;/p&gt;
&lt;h2 id=&#34;模型基本資訊&#34;&gt;模型基本資訊
&lt;/h2&gt;&lt;p&gt;根據模型卡，&lt;code&gt;Qwen3.6-35B-A3B-NVFP4&lt;/code&gt; 的關鍵參數如下：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;基礎模型：&lt;code&gt;Qwen/Qwen3.6-35B-A3B&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;發布方：NVIDIA&lt;/li&gt;
&lt;li&gt;量化工具：NVIDIA Model Optimizer&lt;/li&gt;
&lt;li&gt;授權：Apache-2.0&lt;/li&gt;
&lt;li&gt;架構：Transformer&lt;/li&gt;
&lt;li&gt;網路結構：MoE with Hybrid Attention&lt;/li&gt;
&lt;li&gt;參數規模：總參數 35B，啟用參數 3B&lt;/li&gt;
&lt;li&gt;輸入：文字、圖像、影片&lt;/li&gt;
&lt;li&gt;輸出：文字&lt;/li&gt;
&lt;li&gt;上下文長度：最高 262K&lt;/li&gt;
&lt;li&gt;推理引擎：vLLM&lt;/li&gt;
&lt;li&gt;建議硬體：NVIDIA Hopper、NVIDIA Blackwell&lt;/li&gt;
&lt;li&gt;建議系統：Linux&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Hugging Face 頁面側邊欄同時顯示了模型檔案相關的體積與張量類型資訊。閱讀時不要把頁面側邊欄裡的檔案統計口徑，直接等同於基礎模型的架構參數。&lt;/p&gt;
&lt;h2 id=&#34;nvfp4-量化做了什麼&#34;&gt;NVFP4 量化做了什麼
&lt;/h2&gt;&lt;p&gt;這個版本的重點是 NVFP4 量化。模型卡描述中提到，NVIDIA 對 Qwen3.6-35B-A3B 的權重做了 NVFP4 量化，使其可以配合 vLLM 推理使用。&lt;/p&gt;
&lt;p&gt;這次量化不是把所有內容都粗暴壓到 4-bit，而是針對 MoE Transformer block 中線性算子的權重和啟用值做處理。官方給出的結果是：每個參數的位寬從 16 bit 降到 4 bit，磁碟占用和 GPU 顯存需求約降低 3.06 倍。&lt;/p&gt;
&lt;p&gt;對部署來說，這類預量化版本的意義很直接：不用自己重新跑量化流程，就可以直接拿來測試吞吐、顯存占用和長上下文推理表現。&lt;/p&gt;
&lt;h2 id=&#34;vllm-部署命令&#34;&gt;vLLM 部署命令
&lt;/h2&gt;&lt;p&gt;模型卡給出的基礎啟動命令如下：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port &lt;span class=&#34;m&#34;&gt;8000&lt;/span&gt; --quantization modelopt --max-model-len &lt;span class=&#34;m&#34;&gt;262144&lt;/span&gt; --reasoning-parser qwen3
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;這條命令保留了 262K 上下文長度，適合先在高顯存環境中驗證模型能力。如果顯存緊張，可以先降低 &lt;code&gt;--max-model-len&lt;/code&gt;，再逐步上調。&lt;/p&gt;
&lt;p&gt;針對 NVIDIA DGX Spark，模型卡給了另一組環境變數和 vLLM 參數：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-bash&#34; data-lang=&#34;bash&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;VLLM_USE_FLASHINFER_MOE_FP4&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;0&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;VLLM_FP8_MOE_BACKEND&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;flashinfer_cutlass
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;FLASHINFER_DISABLE_VERSION_CHECK&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;&lt;span class=&#34;m&#34;&gt;1&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;&lt;span class=&#34;nb&#34;&gt;export&lt;/span&gt; &lt;span class=&#34;nv&#34;&gt;CUTE_DSL_ARCH&lt;/span&gt;&lt;span class=&#34;o&#34;&gt;=&lt;/span&gt;sm_121a
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;vllm serve nvidia/Qwen3.6-35B-A3B-NVFP4 --port &lt;span class=&#34;m&#34;&gt;8000&lt;/span&gt; --tensor-parallel-size &lt;span class=&#34;m&#34;&gt;1&lt;/span&gt; --trust-remote-code --dtype auto --quantization modelopt --kv-cache-dtype fp8 --attention-backend flashinfer --moe-backend marlin --gpu-memory-utilization 0.85 --max-model-len &lt;span class=&#34;m&#34;&gt;65536&lt;/span&gt; --max-num-seqs &lt;span class=&#34;m&#34;&gt;4&lt;/span&gt; --max-num-batched-tokens &lt;span class=&#34;m&#34;&gt;8192&lt;/span&gt; --enable-chunked-prefill --async-scheduling --enable-prefix-caching --speculative-config &lt;span class=&#34;s1&#34;&gt;&amp;#39;{&amp;#34;method&amp;#34;:&amp;#34;mtp&amp;#34;,&amp;#34;num_speculative_tokens&amp;#34;:3,&amp;#34;moe_backend&amp;#34;:&amp;#34;triton&amp;#34;}&amp;#39;&lt;/span&gt;
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;這組參數更偏向實際部署調優：降低上下文到 65536，啟用 FP8 KV cache、chunked prefill、prefix caching，並配置 speculative decoding。它不是所有機器都能直接複製使用，尤其是 &lt;code&gt;CUTE_DSL_ARCH=sm_121a&lt;/code&gt;、FlashInfer、MoE backend 等參數，都和具體 GPU、驅動、CUDA、vLLM 版本有關。&lt;/p&gt;
&lt;h2 id=&#34;評測結果怎麼看&#34;&gt;評測結果怎麼看
&lt;/h2&gt;&lt;p&gt;模型卡對比了 BF16 基線和 NVFP4 量化版本的結果：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;Precision&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;MMLU Pro&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;GPQA Diamond&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;τ²-Bench Telecom&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;SciCode&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;AIME 2025&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;AA-LCR&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;IFBench&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;MMMU Pro&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;BF16&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;85.6&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;84.9&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;95.5&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;89.2&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.0&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.3&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74.1&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;NVFP4&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;85.0&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;84.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;94.7&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40.6&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;88.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.0&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;62.8&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74.5&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;從表格看，NVFP4 相比 BF16 有小幅波動：部分指標略降，IFBench 和 MMMU Pro 反而略高。更穩妥的理解是：這個量化版本在這些公開評測上盡量接近 BF16，但部署前仍然需要用自己的業務資料測試。&lt;/p&gt;
&lt;p&gt;尤其是 Agent、RAG、程式碼生成、長上下文檢索這類場景，公開 benchmark 只能給一個參考。真正上線前，還是要看：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;長上下文下是否穩定遵循指令；&lt;/li&gt;
&lt;li&gt;RAG 場景中是否會忽略引用材料；&lt;/li&gt;
&lt;li&gt;工具呼叫是否容易產生錯誤參數；&lt;/li&gt;
&lt;li&gt;中文、英文和多模態輸入是否符合你的業務要求；&lt;/li&gt;
&lt;li&gt;低顯存配置下吞吐和延遲是否能接受。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;適合哪些場景&#34;&gt;適合哪些場景
&lt;/h2&gt;&lt;p&gt;這個模型更適合已經準備使用 NVIDIA GPU 和 vLLM 做推理服務的團隊。典型場景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;本地或私有化聊天機器人；&lt;/li&gt;
&lt;li&gt;RAG 知識庫問答；&lt;/li&gt;
&lt;li&gt;Agent 系統中的規劃與工具呼叫；&lt;/li&gt;
&lt;li&gt;長文件閱讀與摘要；&lt;/li&gt;
&lt;li&gt;需要更低顯存占用的大模型推理測試；&lt;/li&gt;
&lt;li&gt;想比較 BF16 與 FP4 量化效果的部署團隊。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果只是想在普通消費級顯示卡上隨便跑一跑，要先確認顯存、vLLM 版本和量化支援情況。預量化模型可以降低部署門檻，但不等於所有硬體都能無痛運行 262K 上下文。&lt;/p&gt;
&lt;h2 id=&#34;使用限制&#34;&gt;使用限制
&lt;/h2&gt;&lt;p&gt;模型卡中也提醒了常見限制：基礎模型的訓練資料來自網際網路，可能包含有害內容和社會偏見，因此模型可能在某些提示下放大偏見、生成不準確內容、遺漏關鍵資訊，或者輸出不合適的文字。&lt;/p&gt;
&lt;p&gt;如果用於生產環境，建議至少增加幾層保護：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;針對業務場景做安全評測；&lt;/li&gt;
&lt;li&gt;給 RAG 和工具呼叫增加結果校驗；&lt;/li&gt;
&lt;li&gt;對高風險輸出增加人工複核；&lt;/li&gt;
&lt;li&gt;記錄推理版本、量化配置和 vLLM 參數；&lt;/li&gt;
&lt;li&gt;對重要任務保留回滾到其他模型或 BF16 版本的方案。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;小結&#34;&gt;小結
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;nvidia/Qwen3.6-35B-A3B-NVFP4&lt;/code&gt; 的價值在於：它把 Qwen3.6-35B-A3B 做成了一個可以直接面向 vLLM 部署的 NVIDIA 量化版本。NVFP4 降低了顯存和磁碟壓力，官方評測也顯示它在多項指標上接近 BF16。&lt;/p&gt;
&lt;p&gt;但它仍然是一個需要工程驗證的推理模型。真正部署前，不要只看 benchmark 分數，更要結合自己的硬體、上下文長度、RAG 資料、Agent 工具鏈和安全要求做測試。&lt;/p&gt;
&lt;p&gt;參考連結：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/nvidia/Qwen3.6-35B-A3B-NVFP4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;nvidia/Qwen3.6-35B-A3B-NVFP4 - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://github.com/NVIDIA/Model-Optimizer&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;NVIDIA Model Optimizer&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/Qwen/Qwen3.6-35B-A3B&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Qwen/Qwen3.6-35B-A3B&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
