MoE on KnightLi的博客

2023-2026 大模型架構演進全復盤：分詞器、位置編碼、注意力機制、MoE、歸一化與激活函數

Sun, 17 May 2026 08:53:29 +0800

2023 到 2026 年，大模型架構看起來變化很多：分詞器變大，位置編碼換成 RoPE，注意力機制從 MHA 走向 GQA、滑動視窗和 MLA，MoE 重新成為主流，歸一化和激活函數也從傳統寫法變成 RMSNorm、SwiGLU 這類組合。

但如果用一句話概括，這幾年的主線並不是「Transformer 被推翻了」，而是：在 Transformer 主體不變的前提下，圍繞更長上下文、更低推理成本、更高訓練效率和更強多語言能力做工程優化。

先理解一張大圖

大模型可以先粗略拆成幾層：

分詞器：把文字切成模型能理解的 token。
位置編碼：告訴模型每個 token 在句子裡的位置。
注意力機制：決定每個 token 要看哪些上下文。
前饋網路：對每個位置做更複雜的非線性變換。
歸一化：讓訓練過程更穩定。
激活函數：決定網路如何表達非線性關係。
MoE：把一部分前饋網路拆成多個專家，每次只呼叫少數幾個。

2023-2026 年的演進，基本就是這些部件輪流被優化。

分詞器：從「能切詞」到「更省 token」

分詞器的任務，是把自然語言變成 token 序列。模型看到的不是「你好世界」四個字，而是一串 token ID。

早期模型的分詞器常常對英文更友好，對中文、程式碼、多語言文本不夠省 token。同樣一段中文或程式碼，如果被切得很碎，就會占用更多上下文視窗，也會增加訓練和推理成本。

這幾年一個明顯趨勢是詞表變大、多語言支援變強。Llama 3 使用 128K token 詞表，Meta 明確提到這樣可以更高效地編碼語言，提高模型表現。Qwen、DeepSeek 等模型也很重視中文、程式碼和多語言場景下的 token 效率。

零基礎可以這樣理解：分詞器越合適，同樣一句話越不容易被切得支離破碎，模型能在同樣上下文長度裡裝下更多有效資訊。

位置編碼：RoPE 成為主流

語言是有順序的。「狗咬人」和「人咬狗」詞差不多，但位置不同，意思完全不一樣。位置編碼就是把順序資訊注入模型。

早期 Transformer 使用絕對位置編碼，位置 1、位置 2、位置 3 各有自己的向量。後來大模型更常用 RoPE，也就是 Rotary Positional Embedding。RoPE 的特點是把位置資訊融合進注意力計算中，對長上下文擴展更友好。

從 Llama 系列到很多開源模型，RoPE 已經成為事實標準之一。後來為了支援更長上下文，模型還會調整 RoPE 的 base frequency、做 RoPE scaling，或者配合滑動視窗、分塊注意力等方案。

簡單說，RoPE 不是讓模型「突然變聰明」，而是讓模型在更長文本裡更好地理解相對位置關係。

注意力機制：從 MHA 到 GQA、滑動視窗和 MLA

注意力機制是 Transformer 的核心。它讓每個 token 可以根據目前任務，去關注上下文裡最相關的 token。

最經典的是 MHA，也就是 Multi-Head Attention。它會有多個注意力頭，每個頭學習不同的關注方式。問題是，模型越大、上下文越長，KV cache 占用越高，推理成本也越高。

所以 2023 之後，注意力機制的主要優化方向是降低推理成本。

GQA，也就是 Grouped-Query Attention，是非常重要的一步。它讓多個 query head 共享較少的 key/value head，從而降低 KV cache 壓力。Meta 在 Llama 3 中明確採用了 GQA，以提高推理效率。

Mistral 7B 代表了另一個方向：滑動視窗注意力。它不讓每個 token 都看完整歷史，而是主要看附近視窗裡的上下文，從而降低長序列計算壓力。對於很多任務來說，局部上下文已經足夠有用。

DeepSeek-V2/V3 則把注意力優化推到更激進的方向：MLA，也就是 Multi-head Latent Attention。它的重點是壓縮 KV cache，把推理時的顯存壓力降下來。DeepSeek-V3 技術報告把 MLA 和 DeepSeekMoE 列為架構核心。

可以把這幾種方法放在一起理解：

MHA：經典做法，效果好但成本高。
GQA：犧牲很少表達能力，明顯降低 KV cache 成本。
滑動視窗注意力：減少長上下文中全域注意力的計算壓力。
MLA：進一步壓縮注意力快取，面向高效推理。

MoE：讓模型「參數很多，但每次只用一部分」

MoE 是 Mixture of Experts，中文常叫混合專家模型。

普通 Dense 模型會在每個 token 上激活全部參數。MoE 的思路是：模型裡放很多專家，但每個 token 只路由到少數幾個專家。這樣總參數量可以很大，但單次推理激活的參數量相對小。

2023 年底的 Mixtral 8x7B 是 MoE 重新進入大眾視野的重要節點。Mistral 的論文說明，Mixtral 8x7B 基本沿用 Mistral 7B 架構，但把每層前饋網路換成 8 個專家，並透過稀疏路由選擇部分專家參與計算。

後來的 DeepSeek-V3 進一步把 MoE 做成核心路線。它總參數量很大，但每個 token 只激活其中一部分參數，透過 DeepSeekMoE 降低訓練和推理成本。Qwen3 等模型也同時提供 Dense 和 MoE 路線，說明 MoE 已經從「研究技巧」變成了主流工程選項。

零基礎可以這樣理解：Dense 模型像一個全員開會的公司，任何問題都讓所有人參與；MoE 像把公司分成多個專家小組，每次只叫最相關的小組來處理。

MoE 的難點也很明顯：

路由器要學會把 token 分給合適專家。
專家負載要均衡，不能所有 token 都擠到少數專家。
分散式訓練和推理會更複雜。
總參數大，不等於每次推理都便宜，部署仍然有門檻。

歸一化：RMSNorm 成為常見選擇

歸一化的作用，是讓神經網路中間層的數值分布更穩定。訓練大模型時，如果數值波動太大，訓練會更難收斂，也更容易不穩定。

早期 Transformer 常用 LayerNorm。後來很多 Llama 系模型改用 RMSNorm。RMSNorm 相比 LayerNorm 更簡化，不計算均值，只關注均方根尺度，計算更輕，也足夠穩定。

對普通讀者來說，不需要記公式，只要知道：RMSNorm 是一種更輕量的穩定器。它不能單獨決定模型能力，但會影響訓練穩定性、速度和工程實現。

激活函數：從 ReLU/GELU 到 SwiGLU

激活函數負責給神經網路加入非線性能力。沒有激活函數，多層網路很容易退化成線性變換。

早期很多 Transformer 使用 GELU。Llama 系列、Mistral、Qwen、DeepSeek 等現代大模型中，更常見的是 SwiGLU 或類似 GLU 變體。SwiGLU 通常出現在前饋網路裡，透過「門控」方式控制資訊流。

可以粗略理解為：普通激活函數像一個固定開關，而 SwiGLU 更像一個可學習的閥門。它不只是決定資訊過不過，還能學習哪些資訊更應該被放大。

SwiGLU 的代價是前饋層結構稍複雜，參數和計算形式也不同，但在大模型實踐中，它已經成為高性能架構的常見組件。

2023-2026 的整體趨勢

如果按時間線看，可以這樣總結：

2023：Llama、Mistral 7B、Mixtral 等開源模型讓 RoPE、RMSNorm、SwiGLU、GQA、滑動視窗、MoE 等組合走向普及。
2024：Llama 3、Qwen2.5、DeepSeek-V2/V3 等模型繼續擴大詞表、改進長上下文、強化推理效率，MoE 和高效注意力成為重點。
2025：DeepSeek-V3/R1 引發更多人關注 MLA、DeepSeekMoE、FP8、MTP 等訓練和推理效率設計，架構優化和系統工程深度綁定。
2026：趨勢仍然是高效化和工程化：Dense 模型繼續追求穩定通用，MoE 模型負責擴大容量，高效注意力負責降低長上下文成本。

這幾年最重要的變化，不是某個單點組件取代了 Transformer，而是大家越來越清楚：只堆參數不夠，架構、資料、訓練系統、推理服務必須一起優化。

新手應該怎麼學

如果你是零基礎，不建議一開始就硬啃所有論文。更好的順序是：

先理解 Transformer 的基本結構：token、embedding、attention、FFN。
再理解 RoPE、RMSNorm、SwiGLU 為什麼會成為常見組合。
接著看 GQA 和 KV cache，理解推理為什麼會吃顯存。
再學 MoE，重點理解「總參數」和「激活參數」的區別。
最後看 DeepSeek-V3、Mixtral、Llama 3 這類模型報告，把組件放回真實模型裡理解。

不要把這些名詞當成孤立知識點。它們大多是在回答同一個問題：如何讓模型更強，同時還能訓練得起、部署得動、推理得快。

總結

2023-2026 年的大模型架構演進，可以看成 Transformer 的工程成熟期。分詞器負責減少 token 浪費，RoPE 負責更好表達位置，GQA、滑動視窗和 MLA 負責降低注意力成本，MoE 負責擴大容量但控制激活計算，RMSNorm 和 SwiGLU 則讓訓練和表達更穩定高效。

對新手來說，最重要的不是背名詞，而是抓住主線：現代大模型架構的每一次改動，幾乎都在圍繞成本、效率、上下文長度和可擴展性做權衡。

參考連結：

本地部署 DeepSeek V4：Pro、Flash 與 Base 版本顯存占用估算表

Fri, 01 May 2026 11:55:25 +0800

DeepSeek V4 和 Gemma 4 的本地部署不是一個量級。 Gemma 4 的 26B、31B 還能討論 24GB、32GB 顯卡怎麼選量化版；DeepSeek V4 則是超大 MoE 模型，真正完整本地部署時，顯存需求會直接進入多卡工作站或伺服器級別。

官方發布的 DeepSeek V4 Preview 主要包含兩個推理版本：

DeepSeek-V4-Pro：1.6T total / 49B active params
DeepSeek-V4-Flash：284B total / 13B active params

Hugging Face 官方 collection 裡還包含兩個 Base 版本：

DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash-Base

這篇只討論完整載入模型權重時的大致顯存門檻。 MoE 的 active params 主要影響每個 token 的計算量，不等於只需要載入這部分參數。如果沒有專家按需載入、CPU/NVMe offload、分散式推理或專門執行時最佳化，顯存仍然要按完整權重來估。

先看結論

顯存規模	能比較現實地嘗試什麼	不建議期待什麼
24GB	不能完整跑 DeepSeek V4；只能跑小型蒸餾模型或 API	V4-Flash / V4-Pro 完整本地載入
48GB	仍不適合完整載入；可做小模型或遠端 API 用戶端	V4-Flash Q4 穩定執行
80GB	理論上可嘗試 V4-Flash Q2/Q3 或強 offload	V4-Pro
128GB	V4-Flash Q4 比較現實；Q5/Q6 仍緊	V4-Pro Q4
192GB	V4-Flash FP8/Q6 更從容；Pro Q2 勉強進入討論	V4-Pro Q4
256GB	V4-Flash FP8 比較穩；Pro Q2/Q3 可實驗	V4-Pro Q5 以上
512GB	V4-Pro Q4 開始進入可討論範圍	V4-Pro FP8
1TB+	V4-Pro FP8、Pro-Base 低位寬更現實	單機低成本部署
2TB+	Pro-Base FP8 級別	普通工作站部署

如果你的目標是個人電腦本地執行，DeepSeek V4 並不是合適對象。更現實的路線是：

用 DeepSeek 官方 API 或相容服務；
等社群穩定的 GGUF/EXL2/MLX 量化和推理支援；
使用更小的 DeepSeek 蒸餾模型；
或者把本地模型換成 Qwen、Gemma、Llama 等 7B 到 70B 級別模型。

官方權重體積

以下是 Hugging Face 官方倉庫的 model.safetensors.index.json 中統計到的權重總量。它反映的是目前公開權重檔案大小，不等於長上下文執行時的完整顯存占用。

模型	參數規模	官方權重體積	說明
`DeepSeek-V4-Flash`	284B total / 13B active	159.61GB	推理版，體積相對最小
`DeepSeek-V4-Pro`	1.6T total / 49B active	864.70GB	推理版，能力更強，體積巨大
`DeepSeek-V4-Flash-Base`	284B total	294.67GB	Base 版，更接近全量 FP8 權重體積
`DeepSeek-V4-Pro-Base`	1.6T total	1606.03GB	Base 版，約 1.6TB 級別

可以看到，即使是最小的 V4-Flash，官方權重也已經接近 160GB。這就是為什麼它不能按「13B active params」理解成 13B 小模型。

DeepSeek V4 Flash 顯存估算

V4-Flash 是 DeepSeek V4 裡最適合本地嘗試的一檔。但「最適合」只是相對 Pro 而言，它仍然不是消費級單卡模型。

下面按官方 159.61GB 權重體積做折算。其中 Q4/Q3/Q2 是按位寬估算，不代表目前已經有穩定可用的官方 GGUF 版本。

版本/量化	估算權重體積	最低顯存	更穩妥顯存	適合場景
`FP8 / 官方權重`	159.61GB	192GB	256GB	多卡伺服器、推理服務
`Q6`	120GB	160GB	192GB	品質優先的量化嘗試
`Q5`	100GB	128GB	160GB	品質和體積折中
`Q4`	80GB	96GB	128GB	Flash 本地化較現實的起點
`Q3`	60GB	80GB	96GB	大顯存單卡或多卡實驗
`Q2`	40GB	48GB	64GB	極限低位寬實驗，品質風險明顯

如果未來社群出現成熟的 V4-Flash Q4，它大機率也不是 24GB 顯卡的模型。更現實的硬體起點是 96GB 到 128GB 級別的總顯存，或者依賴 CPU 記憶體/offload 換速度。

DeepSeek V4 Pro 顯存估算

V4-Pro 是旗艦推理版，官方權重體積約 864.70GB。即使做 4-bit 量化，完整權重也仍然是數百 GB 級別。

版本/量化	估算權重體積	最低顯存	更穩妥顯存	適合場景
`FP8 / 官方權重`	864.70GB	1TB	1.2TB+	多機多卡推理服務
`Q6`	648GB	768GB	1TB	高品質量化服務
`Q5`	540GB	640GB	768GB	高品質與成本折中
`Q4`	432GB	512GB	640GB	Pro 本地化較現實的最低品質線
`Q3`	324GB	384GB	512GB	低位寬實驗
`Q2`	216GB	256GB	320GB	極限實驗，品質和穩定性風險高

對個人使用者來說，V4-Pro 更適合透過 API 使用。如果目標是完整本地部署，至少要把它當成多卡伺服器模型，而不是 4090、5090、RTX PRO 單卡模型。

DeepSeek V4 Flash-Base 顯存估算

Base 版通常用於研究、微調或繼續訓練，不是普通聊天部署的首選。 V4-Flash-Base 官方權重體積約 294.67GB。

版本/量化	估算權重體積	最低顯存	更穩妥顯存	適合場景
`FP8 / 官方權重`	294.67GB	384GB	512GB	研究、訓練前處理、評測
`Q6`	221GB	256GB	320GB	高品質量化研究
`Q5`	184GB	224GB	256GB	品質和體積折中
`Q4`	147GB	192GB	224GB	Base 版低成本實驗
`Q3`	111GB	128GB	160GB	低位寬實驗
`Q2`	74GB	96GB	128GB	極限實驗

如果只是要使用 DeepSeek V4 能力，不建議從 Base 版開始。 Base 版的部署和調優成本更高，普通應用更適合推理版或 API。

DeepSeek V4 Pro-Base 顯存估算

V4-Pro-Base 是最重的一檔，官方權重體積約 1606.03GB。這已經是 1.6TB 級別的模型檔案。

版本/量化	估算權重體積	最低顯存	更穩妥顯存	適合場景
`FP8 / 官方權重`	1606.03GB	2TB	2.4TB+	大規模研究叢集
`Q6`	1205GB	1.5TB	2TB	高品質量化研究
`Q5`	1004GB	1.2TB	1.5TB	研究與評測
`Q4`	803GB	1TB	1.2TB	低位寬研究
`Q3`	602GB	768GB	1TB	極限低位寬研究
`Q2`	402GB	512GB	640GB	極限實驗

這類模型不適合被放進「家用顯卡能不能跑」的框架裡討論。哪怕是 Q4，也已經超過絕大多數單機工作站的舒適範圍。

為什麼不能只看 active params

DeepSeek V4 是 MoE 模型。 MoE 的特點是每個 token 只啟用一部分專家，因此計算量會明顯低於總參數量。但這不等於顯存只需要放 active params。

完整本地推理通常還要考慮：

所有專家權重是否需要常駐 GPU；
是否支援按需專家載入；
CPU 記憶體與 GPU 顯存之間的資料搬運成本；
NVMe offload 的延遲；
KV cache 在長上下文下的增長；
1M context 場景下的額外執行時開銷；
多機多卡通訊成本。

所以，49B active 的 V4-Pro 不能當成 49B 模型來部署。 13B active 的 V4-Flash 也不能當成 13B 小模型來部署。

怎麼選

如果你只是普通個人使用者：

不建議完整本地部署 DeepSeek V4。
需要 DeepSeek V4 能力時，優先用官方 API。
需要本地私有化時，優先看是否有成熟推理服務商或內部多卡伺服器。
只有 24GB 到 48GB 顯存時，轉向 7B、14B、32B、70B 級別量化模型更實際。

如果你有 128GB 到 256GB 總顯存：

可以關注 V4-Flash Q4/Q5 是否有穩定社群實作。
不建議把 V4-Pro 當成主力本地模型。

如果你有 512GB 以上總顯存：

V4-Pro Q4 才開始進入工程驗證範圍。
仍然要關注推理框架、專家調度、KV cache、吞吐和並發。

DeepSeek V4 的本地部署重點不是「下載哪個量化檔案」，而是「有沒有足夠的系統級推理能力」。它更接近一個伺服器模型，而不是普通桌面模型。