<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>MoE on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/moe/</link>
        <description>Recent content in MoE on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Sun, 17 May 2026 08:53:29 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/moe/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>2023-2026 大模型架構演進全復盤：分詞器、位置編碼、注意力機制、MoE、歸一化與激活函數</title>
        <link>https://knightli.com/zh-tw/2026/05/17/llm-architecture-evolution-2023-2026/</link>
        <pubDate>Sun, 17 May 2026 08:53:29 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/17/llm-architecture-evolution-2023-2026/</guid>
        <description>&lt;p&gt;2023 到 2026 年，大模型架構看起來變化很多：分詞器變大，位置編碼換成 RoPE，注意力機制從 MHA 走向 GQA、滑動視窗和 MLA，MoE 重新成為主流，歸一化和激活函數也從傳統寫法變成 RMSNorm、SwiGLU 這類組合。&lt;/p&gt;
&lt;p&gt;但如果用一句話概括，這幾年的主線並不是「Transformer 被推翻了」，而是：在 Transformer 主體不變的前提下，圍繞更長上下文、更低推理成本、更高訓練效率和更強多語言能力做工程優化。&lt;/p&gt;
&lt;h2 id=&#34;先理解一張大圖&#34;&gt;先理解一張大圖
&lt;/h2&gt;&lt;p&gt;大模型可以先粗略拆成幾層：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;分詞器：把文字切成模型能理解的 token。&lt;/li&gt;
&lt;li&gt;位置編碼：告訴模型每個 token 在句子裡的位置。&lt;/li&gt;
&lt;li&gt;注意力機制：決定每個 token 要看哪些上下文。&lt;/li&gt;
&lt;li&gt;前饋網路：對每個位置做更複雜的非線性變換。&lt;/li&gt;
&lt;li&gt;歸一化：讓訓練過程更穩定。&lt;/li&gt;
&lt;li&gt;激活函數：決定網路如何表達非線性關係。&lt;/li&gt;
&lt;li&gt;MoE：把一部分前饋網路拆成多個專家，每次只呼叫少數幾個。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;2023-2026 年的演進，基本就是這些部件輪流被優化。&lt;/p&gt;
&lt;h2 id=&#34;分詞器從能切詞到更省-token&#34;&gt;分詞器：從「能切詞」到「更省 token」
&lt;/h2&gt;&lt;p&gt;分詞器的任務，是把自然語言變成 token 序列。模型看到的不是「你好世界」四個字，而是一串 token ID。&lt;/p&gt;
&lt;p&gt;早期模型的分詞器常常對英文更友好，對中文、程式碼、多語言文本不夠省 token。同樣一段中文或程式碼，如果被切得很碎，就會占用更多上下文視窗，也會增加訓練和推理成本。&lt;/p&gt;
&lt;p&gt;這幾年一個明顯趨勢是詞表變大、多語言支援變強。Llama 3 使用 128K token 詞表，Meta 明確提到這樣可以更高效地編碼語言，提高模型表現。Qwen、DeepSeek 等模型也很重視中文、程式碼和多語言場景下的 token 效率。&lt;/p&gt;
&lt;p&gt;零基礎可以這樣理解：分詞器越合適，同樣一句話越不容易被切得支離破碎，模型能在同樣上下文長度裡裝下更多有效資訊。&lt;/p&gt;
&lt;h2 id=&#34;位置編碼rope-成為主流&#34;&gt;位置編碼：RoPE 成為主流
&lt;/h2&gt;&lt;p&gt;語言是有順序的。「狗咬人」和「人咬狗」詞差不多，但位置不同，意思完全不一樣。位置編碼就是把順序資訊注入模型。&lt;/p&gt;
&lt;p&gt;早期 Transformer 使用絕對位置編碼，位置 1、位置 2、位置 3 各有自己的向量。後來大模型更常用 RoPE，也就是 Rotary Positional Embedding。RoPE 的特點是把位置資訊融合進注意力計算中，對長上下文擴展更友好。&lt;/p&gt;
&lt;p&gt;從 Llama 系列到很多開源模型，RoPE 已經成為事實標準之一。後來為了支援更長上下文，模型還會調整 RoPE 的 base frequency、做 RoPE scaling，或者配合滑動視窗、分塊注意力等方案。&lt;/p&gt;
&lt;p&gt;簡單說，RoPE 不是讓模型「突然變聰明」，而是讓模型在更長文本裡更好地理解相對位置關係。&lt;/p&gt;
&lt;h2 id=&#34;注意力機制從-mha-到-gqa滑動視窗和-mla&#34;&gt;注意力機制：從 MHA 到 GQA、滑動視窗和 MLA
&lt;/h2&gt;&lt;p&gt;注意力機制是 Transformer 的核心。它讓每個 token 可以根據目前任務，去關注上下文裡最相關的 token。&lt;/p&gt;
&lt;p&gt;最經典的是 MHA，也就是 Multi-Head Attention。它會有多個注意力頭，每個頭學習不同的關注方式。問題是，模型越大、上下文越長，KV cache 占用越高，推理成本也越高。&lt;/p&gt;
&lt;p&gt;所以 2023 之後，注意力機制的主要優化方向是降低推理成本。&lt;/p&gt;
&lt;p&gt;GQA，也就是 Grouped-Query Attention，是非常重要的一步。它讓多個 query head 共享較少的 key/value head，從而降低 KV cache 壓力。Meta 在 Llama 3 中明確採用了 GQA，以提高推理效率。&lt;/p&gt;
&lt;p&gt;Mistral 7B 代表了另一個方向：滑動視窗注意力。它不讓每個 token 都看完整歷史，而是主要看附近視窗裡的上下文，從而降低長序列計算壓力。對於很多任務來說，局部上下文已經足夠有用。&lt;/p&gt;
&lt;p&gt;DeepSeek-V2/V3 則把注意力優化推到更激進的方向：MLA，也就是 Multi-head Latent Attention。它的重點是壓縮 KV cache，把推理時的顯存壓力降下來。DeepSeek-V3 技術報告把 MLA 和 DeepSeekMoE 列為架構核心。&lt;/p&gt;
&lt;p&gt;可以把這幾種方法放在一起理解：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;MHA：經典做法，效果好但成本高。&lt;/li&gt;
&lt;li&gt;GQA：犧牲很少表達能力，明顯降低 KV cache 成本。&lt;/li&gt;
&lt;li&gt;滑動視窗注意力：減少長上下文中全域注意力的計算壓力。&lt;/li&gt;
&lt;li&gt;MLA：進一步壓縮注意力快取，面向高效推理。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;moe讓模型參數很多但每次只用一部分&#34;&gt;MoE：讓模型「參數很多，但每次只用一部分」
&lt;/h2&gt;&lt;p&gt;MoE 是 Mixture of Experts，中文常叫混合專家模型。&lt;/p&gt;
&lt;p&gt;普通 Dense 模型會在每個 token 上激活全部參數。MoE 的思路是：模型裡放很多專家，但每個 token 只路由到少數幾個專家。這樣總參數量可以很大，但單次推理激活的參數量相對小。&lt;/p&gt;
&lt;p&gt;2023 年底的 Mixtral 8x7B 是 MoE 重新進入大眾視野的重要節點。Mistral 的論文說明，Mixtral 8x7B 基本沿用 Mistral 7B 架構，但把每層前饋網路換成 8 個專家，並透過稀疏路由選擇部分專家參與計算。&lt;/p&gt;
&lt;p&gt;後來的 DeepSeek-V3 進一步把 MoE 做成核心路線。它總參數量很大，但每個 token 只激活其中一部分參數，透過 DeepSeekMoE 降低訓練和推理成本。Qwen3 等模型也同時提供 Dense 和 MoE 路線，說明 MoE 已經從「研究技巧」變成了主流工程選項。&lt;/p&gt;
&lt;p&gt;零基礎可以這樣理解：Dense 模型像一個全員開會的公司，任何問題都讓所有人參與；MoE 像把公司分成多個專家小組，每次只叫最相關的小組來處理。&lt;/p&gt;
&lt;p&gt;MoE 的難點也很明顯：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;路由器要學會把 token 分給合適專家。&lt;/li&gt;
&lt;li&gt;專家負載要均衡，不能所有 token 都擠到少數專家。&lt;/li&gt;
&lt;li&gt;分散式訓練和推理會更複雜。&lt;/li&gt;
&lt;li&gt;總參數大，不等於每次推理都便宜，部署仍然有門檻。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;歸一化rmsnorm-成為常見選擇&#34;&gt;歸一化：RMSNorm 成為常見選擇
&lt;/h2&gt;&lt;p&gt;歸一化的作用，是讓神經網路中間層的數值分布更穩定。訓練大模型時，如果數值波動太大，訓練會更難收斂，也更容易不穩定。&lt;/p&gt;
&lt;p&gt;早期 Transformer 常用 LayerNorm。後來很多 Llama 系模型改用 RMSNorm。RMSNorm 相比 LayerNorm 更簡化，不計算均值，只關注均方根尺度，計算更輕，也足夠穩定。&lt;/p&gt;
&lt;p&gt;對普通讀者來說，不需要記公式，只要知道：RMSNorm 是一種更輕量的穩定器。它不能單獨決定模型能力，但會影響訓練穩定性、速度和工程實現。&lt;/p&gt;
&lt;h2 id=&#34;激活函數從-relugelu-到-swiglu&#34;&gt;激活函數：從 ReLU/GELU 到 SwiGLU
&lt;/h2&gt;&lt;p&gt;激活函數負責給神經網路加入非線性能力。沒有激活函數，多層網路很容易退化成線性變換。&lt;/p&gt;
&lt;p&gt;早期很多 Transformer 使用 GELU。Llama 系列、Mistral、Qwen、DeepSeek 等現代大模型中，更常見的是 SwiGLU 或類似 GLU 變體。SwiGLU 通常出現在前饋網路裡，透過「門控」方式控制資訊流。&lt;/p&gt;
&lt;p&gt;可以粗略理解為：普通激活函數像一個固定開關，而 SwiGLU 更像一個可學習的閥門。它不只是決定資訊過不過，還能學習哪些資訊更應該被放大。&lt;/p&gt;
&lt;p&gt;SwiGLU 的代價是前饋層結構稍複雜，參數和計算形式也不同，但在大模型實踐中，它已經成為高性能架構的常見組件。&lt;/p&gt;
&lt;h2 id=&#34;2023-2026-的整體趨勢&#34;&gt;2023-2026 的整體趨勢
&lt;/h2&gt;&lt;p&gt;如果按時間線看，可以這樣總結：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;2023：Llama、Mistral 7B、Mixtral 等開源模型讓 RoPE、RMSNorm、SwiGLU、GQA、滑動視窗、MoE 等組合走向普及。&lt;/li&gt;
&lt;li&gt;2024：Llama 3、Qwen2.5、DeepSeek-V2/V3 等模型繼續擴大詞表、改進長上下文、強化推理效率，MoE 和高效注意力成為重點。&lt;/li&gt;
&lt;li&gt;2025：DeepSeek-V3/R1 引發更多人關注 MLA、DeepSeekMoE、FP8、MTP 等訓練和推理效率設計，架構優化和系統工程深度綁定。&lt;/li&gt;
&lt;li&gt;2026：趨勢仍然是高效化和工程化：Dense 模型繼續追求穩定通用，MoE 模型負責擴大容量，高效注意力負責降低長上下文成本。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這幾年最重要的變化，不是某個單點組件取代了 Transformer，而是大家越來越清楚：只堆參數不夠，架構、資料、訓練系統、推理服務必須一起優化。&lt;/p&gt;
&lt;h2 id=&#34;新手應該怎麼學&#34;&gt;新手應該怎麼學
&lt;/h2&gt;&lt;p&gt;如果你是零基礎，不建議一開始就硬啃所有論文。更好的順序是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;先理解 Transformer 的基本結構：token、embedding、attention、FFN。&lt;/li&gt;
&lt;li&gt;再理解 RoPE、RMSNorm、SwiGLU 為什麼會成為常見組合。&lt;/li&gt;
&lt;li&gt;接著看 GQA 和 KV cache，理解推理為什麼會吃顯存。&lt;/li&gt;
&lt;li&gt;再學 MoE，重點理解「總參數」和「激活參數」的區別。&lt;/li&gt;
&lt;li&gt;最後看 DeepSeek-V3、Mixtral、Llama 3 這類模型報告，把組件放回真實模型裡理解。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;不要把這些名詞當成孤立知識點。它們大多是在回答同一個問題：如何讓模型更強，同時還能訓練得起、部署得動、推理得快。&lt;/p&gt;
&lt;h2 id=&#34;總結&#34;&gt;總結
&lt;/h2&gt;&lt;p&gt;2023-2026 年的大模型架構演進，可以看成 Transformer 的工程成熟期。分詞器負責減少 token 浪費，RoPE 負責更好表達位置，GQA、滑動視窗和 MLA 負責降低注意力成本，MoE 負責擴大容量但控制激活計算，RMSNorm 和 SwiGLU 則讓訓練和表達更穩定高效。&lt;/p&gt;
&lt;p&gt;對新手來說，最重要的不是背名詞，而是抓住主線：現代大模型架構的每一次改動，幾乎都在圍繞成本、效率、上下文長度和可擴展性做權衡。&lt;/p&gt;
&lt;p&gt;參考連結：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://ai.meta.com/blog/meta-llama-3/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Meta：Introducing Meta Llama 3&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://mistral.ai/en/news/mixtral-of-experts&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Mistral AI：Mixtral of experts&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2401.04088&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;arXiv：Mixtral of Experts&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://arxiv.org/abs/2412.19437&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;arXiv：DeepSeek-V3 Technical Report&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V3&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Hugging Face：DeepSeek-V3&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>本地部署 DeepSeek V4：Pro、Flash 與 Base 版本顯存占用估算表</title>
        <link>https://knightli.com/zh-tw/2026/05/01/deepseek-v4-local-vram-quantization-table/</link>
        <pubDate>Fri, 01 May 2026 11:55:25 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/05/01/deepseek-v4-local-vram-quantization-table/</guid>
        <description>&lt;p&gt;DeepSeek V4 和 Gemma 4 的本地部署不是一個量級。
Gemma 4 的 26B、31B 還能討論 24GB、32GB 顯卡怎麼選量化版；DeepSeek V4 則是超大 MoE 模型，真正完整本地部署時，顯存需求會直接進入多卡工作站或伺服器級別。&lt;/p&gt;
&lt;p&gt;官方發布的 DeepSeek V4 Preview 主要包含兩個推理版本：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;：&lt;code&gt;1.6T total / 49B active params&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;：&lt;code&gt;284B total / 13B active params&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Hugging Face 官方 collection 裡還包含兩個 Base 版本：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這篇只討論&lt;strong&gt;完整載入模型權重&lt;/strong&gt;時的大致顯存門檻。
MoE 的 &lt;code&gt;active params&lt;/code&gt; 主要影響每個 token 的計算量，不等於只需要載入這部分參數。
如果沒有專家按需載入、CPU/NVMe offload、分散式推理或專門執行時最佳化，顯存仍然要按完整權重來估。&lt;/p&gt;
&lt;h2 id=&#34;先看結論&#34;&gt;先看結論
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;顯存規模&lt;/th&gt;
          &lt;th&gt;能比較現實地嘗試什麼&lt;/th&gt;
          &lt;th&gt;不建議期待什麼&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;24GB&lt;/td&gt;
          &lt;td&gt;不能完整跑 DeepSeek V4；只能跑小型蒸餾模型或 API&lt;/td&gt;
          &lt;td&gt;V4-Flash / V4-Pro 完整本地載入&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;48GB&lt;/td&gt;
          &lt;td&gt;仍不適合完整載入；可做小模型或遠端 API 用戶端&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 穩定執行&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;80GB&lt;/td&gt;
          &lt;td&gt;理論上可嘗試 V4-Flash Q2/Q3 或強 offload&lt;/td&gt;
          &lt;td&gt;V4-Pro&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;128GB&lt;/td&gt;
          &lt;td&gt;V4-Flash Q4 比較現實；Q5/Q6 仍緊&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;192GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8/Q6 更從容；Pro Q2 勉強進入討論&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;256GB&lt;/td&gt;
          &lt;td&gt;V4-Flash FP8 比較穩；Pro Q2/Q3 可實驗&lt;/td&gt;
          &lt;td&gt;V4-Pro Q5 以上&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;512GB&lt;/td&gt;
          &lt;td&gt;V4-Pro Q4 開始進入可討論範圍&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;1TB+&lt;/td&gt;
          &lt;td&gt;V4-Pro FP8、Pro-Base 低位寬更現實&lt;/td&gt;
          &lt;td&gt;單機低成本部署&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;2TB+&lt;/td&gt;
          &lt;td&gt;Pro-Base FP8 級別&lt;/td&gt;
          &lt;td&gt;普通工作站部署&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;如果你的目標是個人電腦本地執行，DeepSeek V4 並不是合適對象。
更現實的路線是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;用 DeepSeek 官方 API 或相容服務；&lt;/li&gt;
&lt;li&gt;等社群穩定的 GGUF/EXL2/MLX 量化和推理支援；&lt;/li&gt;
&lt;li&gt;使用更小的 DeepSeek 蒸餾模型；&lt;/li&gt;
&lt;li&gt;或者把本地模型換成 Qwen、Gemma、Llama 等 7B 到 70B 級別模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;官方權重體積&#34;&gt;官方權重體積
&lt;/h2&gt;&lt;p&gt;以下是 Hugging Face 官方倉庫的 &lt;code&gt;model.safetensors.index.json&lt;/code&gt; 中統計到的權重總量。
它反映的是目前公開權重檔案大小，不等於長上下文執行時的完整顯存占用。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模型&lt;/th&gt;
          &lt;th&gt;參數規模&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;官方權重體積&lt;/th&gt;
          &lt;th&gt;說明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total / 13B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td&gt;推理版，體積相對最小&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total / 49B active&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td&gt;推理版，能力更強，體積巨大&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Flash-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;284B total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td&gt;Base 版，更接近全量 FP8 權重體積&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;DeepSeek-V4-Pro-Base&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;1.6T total&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td&gt;Base 版，約 1.6TB 級別&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;可以看到，即使是最小的 &lt;code&gt;V4-Flash&lt;/code&gt;，官方權重也已經接近 160GB。
這就是為什麼它不能按「13B active params」理解成 13B 小模型。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-flash-顯存估算&#34;&gt;DeepSeek V4 Flash 顯存估算
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Flash&lt;/code&gt; 是 DeepSeek V4 裡最適合本地嘗試的一檔。
但「最適合」只是相對 Pro 而言，它仍然不是消費級單卡模型。&lt;/p&gt;
&lt;p&gt;下面按官方 159.61GB 權重體積做折算。
其中 Q4/Q3/Q2 是按位寬估算，不代表目前已經有穩定可用的官方 GGUF 版本。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版本/量化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;估算權重體積&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低顯存&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;更穩妥顯存&lt;/th&gt;
          &lt;th&gt;適合場景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 官方權重&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;159.61GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;多卡伺服器、推理服務&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;120GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td&gt;品質優先的量化嘗試&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;100GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;品質和體積折中&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;Flash 本地化較現實的起點&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;60GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;80GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td&gt;大顯存單卡或多卡實驗&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;40GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;48GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;64GB&lt;/td&gt;
          &lt;td&gt;極限低位寬實驗，品質風險明顯&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;如果未來社群出現成熟的 &lt;code&gt;V4-Flash Q4&lt;/code&gt;，它大機率也不是 24GB 顯卡的模型。
更現實的硬體起點是 96GB 到 128GB 級別的總顯存，或者依賴 CPU 記憶體/offload 換速度。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-pro-顯存估算&#34;&gt;DeepSeek V4 Pro 顯存估算
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Pro&lt;/code&gt; 是旗艦推理版，官方權重體積約 864.70GB。
即使做 4-bit 量化，完整權重也仍然是數百 GB 級別。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版本/量化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;估算權重體積&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低顯存&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;更穩妥顯存&lt;/th&gt;
          &lt;th&gt;適合場景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 官方權重&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;864.70GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB+&lt;/td&gt;
          &lt;td&gt;多機多卡推理服務&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;648GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;高品質量化服務&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;540GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td&gt;高品質與成本折中&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;432GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;Pro 本地化較現實的最低品質線&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;324GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;低位寬實驗&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;216GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;極限實驗，品質和穩定性風險高&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;對個人使用者來說，&lt;code&gt;V4-Pro&lt;/code&gt; 更適合透過 API 使用。
如果目標是完整本地部署，至少要把它當成多卡伺服器模型，而不是 4090、5090、RTX PRO 單卡模型。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-flash-base-顯存估算&#34;&gt;DeepSeek V4 Flash-Base 顯存估算
&lt;/h2&gt;&lt;p&gt;Base 版通常用於研究、微調或繼續訓練，不是普通聊天部署的首選。
&lt;code&gt;V4-Flash-Base&lt;/code&gt; 官方權重體積約 294.67GB。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版本/量化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;估算權重體積&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低顯存&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;更穩妥顯存&lt;/th&gt;
          &lt;th&gt;適合場景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 官方權重&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;294.67GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;384GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td&gt;研究、訓練前處理、評測&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;221GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;320GB&lt;/td&gt;
          &lt;td&gt;高品質量化研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;184GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;256GB&lt;/td&gt;
          &lt;td&gt;品質和體積折中&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;147GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;192GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;224GB&lt;/td&gt;
          &lt;td&gt;Base 版低成本實驗&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;111GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;160GB&lt;/td&gt;
          &lt;td&gt;低位寬實驗&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;74GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;96GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;128GB&lt;/td&gt;
          &lt;td&gt;極限實驗&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;如果只是要使用 DeepSeek V4 能力，不建議從 Base 版開始。
Base 版的部署和調優成本更高，普通應用更適合推理版或 API。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-pro-base-顯存估算&#34;&gt;DeepSeek V4 Pro-Base 顯存估算
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;V4-Pro-Base&lt;/code&gt; 是最重的一檔，官方權重體積約 1606.03GB。
這已經是 1.6TB 級別的模型檔案。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;版本/量化&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;估算權重體積&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;最低顯存&lt;/th&gt;
          &lt;th style=&#34;text-align: right&#34;&gt;更穩妥顯存&lt;/th&gt;
          &lt;th&gt;適合場景&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;FP8 / 官方權重&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1606.03GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2.4TB+&lt;/td&gt;
          &lt;td&gt;大規模研究叢集&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q6&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1205GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;2TB&lt;/td&gt;
          &lt;td&gt;高品質量化研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q5&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1004GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.5TB&lt;/td&gt;
          &lt;td&gt;研究與評測&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q4&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;803GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1.2TB&lt;/td&gt;
          &lt;td&gt;低位寬研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q3&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;602GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;768GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;1TB&lt;/td&gt;
          &lt;td&gt;極限低位寬研究&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;&lt;code&gt;Q2&lt;/code&gt;&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;402GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;512GB&lt;/td&gt;
          &lt;td style=&#34;text-align: right&#34;&gt;640GB&lt;/td&gt;
          &lt;td&gt;極限實驗&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;這類模型不適合被放進「家用顯卡能不能跑」的框架裡討論。
哪怕是 Q4，也已經超過絕大多數單機工作站的舒適範圍。&lt;/p&gt;
&lt;h2 id=&#34;為什麼不能只看-active-params&#34;&gt;為什麼不能只看 active params
&lt;/h2&gt;&lt;p&gt;DeepSeek V4 是 MoE 模型。
MoE 的特點是每個 token 只啟用一部分專家，因此計算量會明顯低於總參數量。
但這不等於顯存只需要放 active params。&lt;/p&gt;
&lt;p&gt;完整本地推理通常還要考慮：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;所有專家權重是否需要常駐 GPU；&lt;/li&gt;
&lt;li&gt;是否支援按需專家載入；&lt;/li&gt;
&lt;li&gt;CPU 記憶體與 GPU 顯存之間的資料搬運成本；&lt;/li&gt;
&lt;li&gt;NVMe offload 的延遲；&lt;/li&gt;
&lt;li&gt;KV cache 在長上下文下的增長；&lt;/li&gt;
&lt;li&gt;1M context 場景下的額外執行時開銷；&lt;/li&gt;
&lt;li&gt;多機多卡通訊成本。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以，&lt;code&gt;49B active&lt;/code&gt; 的 &lt;code&gt;V4-Pro&lt;/code&gt; 不能當成 49B 模型來部署。
&lt;code&gt;13B active&lt;/code&gt; 的 &lt;code&gt;V4-Flash&lt;/code&gt; 也不能當成 13B 小模型來部署。&lt;/p&gt;
&lt;h2 id=&#34;怎麼選&#34;&gt;怎麼選
&lt;/h2&gt;&lt;p&gt;如果你只是普通個人使用者：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;不建議完整本地部署 DeepSeek V4。&lt;/li&gt;
&lt;li&gt;需要 DeepSeek V4 能力時，優先用官方 API。&lt;/li&gt;
&lt;li&gt;需要本地私有化時，優先看是否有成熟推理服務商或內部多卡伺服器。&lt;/li&gt;
&lt;li&gt;只有 24GB 到 48GB 顯存時，轉向 7B、14B、32B、70B 級別量化模型更實際。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你有 128GB 到 256GB 總顯存：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;可以關注 &lt;code&gt;V4-Flash Q4/Q5&lt;/code&gt; 是否有穩定社群實作。&lt;/li&gt;
&lt;li&gt;不建議把 &lt;code&gt;V4-Pro&lt;/code&gt; 當成主力本地模型。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你有 512GB 以上總顯存：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;V4-Pro Q4&lt;/code&gt; 才開始進入工程驗證範圍。&lt;/li&gt;
&lt;li&gt;仍然要關注推理框架、專家調度、KV cache、吞吐和並發。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;DeepSeek V4 的本地部署重點不是「下載哪個量化檔案」，而是「有沒有足夠的系統級推理能力」。
它更接近一個伺服器模型，而不是普通桌面模型。&lt;/p&gt;
&lt;h2 id=&#34;參考來源&#34;&gt;參考來源
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://api-docs.deepseek.com/news/news260424&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek V4 Preview Release - DeepSeek API Docs&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/collections/deepseek-ai/deepseek-v4&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;DeepSeek-V4 collection - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Pro-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;deepseek-ai/DeepSeek-V4-Flash-Base - Hugging Face&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
