MoE on KnightLiブログ

2023-2026年の大規模モデルアーキテクチャ総復習：トークナイザ、位置エンコーディング、注意機構、MoE、正規化、活性化関数

Sun, 17 May 2026 08:53:29 +0800

2023 年から 2026 年にかけて、大規模モデルのアーキテクチャは多くの面で変化しました。トークナイザは大きくなり、位置エンコーディングは RoPE が主流になり、注意機構は MHA から GQA、スライディングウィンドウ、MLA へ広がりました。MoE も再び主流となり、正規化や活性化関数も RMSNorm や SwiGLU のような組み合わせへ移っています。

ただし一言でまとめるなら、この数年の主役は「Transformer が置き換えられた」ことではありません。Transformer の中核は残ったまま、より長いコンテキスト、低い推論コスト、高い訓練効率、強い多言語対応のために周辺部品が最適化された、という流れです。

まず全体像をつかむ

大規模モデルは、おおまかに次の部品に分けられます。

トークナイザ：文字列をモデルが理解できる token に分ける。
位置エンコーディング：各 token が文のどこにあるかを伝える。
注意機構：各 token がどの文脈を見るべきかを決める。
フィードフォワードネットワーク：各位置でより複雑な非線形変換を行う。
正規化：訓練を安定させる。
活性化関数：ネットワークに非線形表現力を与える。
MoE：フィードフォワード部分を複数の専門家に分け、毎回一部だけを使う。

2023-2026 年の進化は、これらの部品が順番に最適化されてきたものだと考えると分かりやすいです。

トークナイザ：「分けられる」から「token を節約する」へ

トークナイザの役割は、自然言語を token 列に変換することです。モデルは文章そのものではなく、token ID の列を見ています。

初期のトークナイザは英語に強く、中国語、コード、多言語テキストでは token 効率が悪いことがありました。同じ文章でも細かく分かれすぎると、コンテキストウィンドウを余計に消費し、訓練と推論のコストも増えます。

近年の明確な傾向は、語彙サイズの拡大と多言語対応の強化です。Llama 3 は 128K token の語彙を使い、Meta はそれによって言語をより効率よくエンコードし、性能向上につながると説明しています。Qwen や DeepSeek も、中国語、コード、多言語の token 効率を重視しています。

初心者向けに言えば、良いトークナイザほど同じ文章を無駄に細かく分けず、同じコンテキスト長により多くの有用な情報を入れられます。

位置エンコーディング：RoPE が主流に

言語には順序があります。同じ単語でも、並びが変われば意味も変わります。位置エンコーディングは、その順序情報をモデルに入れる仕組みです。

初期の Transformer は絶対位置エンコーディングを使い、位置 1、位置 2、位置 3 にそれぞれ専用のベクトルを持っていました。その後、多くの大規模モデルは RoPE、つまり Rotary Positional Embedding を使うようになりました。RoPE は位置情報を注意計算の中に組み込み、長いコンテキストへの拡張に向いています。

Llama 系列から多くのオープンモデルまで、RoPE は事実上の標準の一つになっています。さらに長いコンテキストを扱うために、RoPE の base frequency を調整したり、RoPE scaling を使ったり、スライディングウィンドウやチャンク化された注意機構と組み合わせることもあります。

簡単に言えば、RoPE はモデルを急に賢くする魔法ではありません。長い文章の中で相対的な位置関係を扱いやすくするための重要な部品です。

注意機構：MHA から GQA、スライディングウィンドウ、MLA へ

注意機構は Transformer の中核です。各 token が、現在のタスクに必要な文脈中の token に注目できるようにします。

古典的なのは MHA、つまり Multi-Head Attention です。複数の attention head があり、それぞれ異なる注目の仕方を学びます。問題は、モデルが大きくなり、コンテキストが長くなるほど KV cache の消費が増え、推論コストが高くなることです。

そのため 2023 年以降、注意機構の主な最適化方向は推論コストの削減になりました。

GQA、つまり Grouped-Query Attention は重要な一歩です。複数の query head が少数の key/value head を共有することで、KV cache の負担を減らします。Meta は Llama 3 で GQA を採用し、推論効率を高めたと説明しています。

Mistral 7B は別の方向を示しました。スライディングウィンドウ注意です。すべての token が全履歴を見るのではなく、主に近くのウィンドウを見ることで、長い系列の計算負荷を減らします。多くのタスクでは、局所的な文脈だけでも十分に有用です。

DeepSeek-V2/V3 はさらに踏み込んで、MLA、つまり Multi-head Latent Attention を採用しました。重点は KV cache を圧縮し、推論時のメモリ負担を下げることです。DeepSeek-V3 技術報告では、MLA と DeepSeekMoE が中核アーキテクチャとして示されています。

まとめると、次のように理解できます。

MHA：古典的で強力だがコストが高い。
GQA：表現力を大きく落とさず、KV cache コストを下げる。
スライディングウィンドウ注意：長文での全域注意の計算負荷を減らす。
MLA：注意キャッシュをさらに圧縮し、高効率推論を狙う。

MoE：「パラメータは多いが、毎回使うのは一部」

MoE は Mixture of Experts の略です。

通常の Dense モデルは、各 token に対してすべてのパラメータを活性化します。MoE はモデル内に多くの専門家を置き、各 token を少数の専門家だけにルーティングします。これにより、総パラメータ数を大きくしながら、1 回の推論で活性化されるパラメータ数を抑えられます。

2023 年末の Mixtral 8x7B は、MoE が再び広く注目される重要なきっかけでした。Mistral の論文では、Mixtral 8x7B は基本的に Mistral 7B のアーキテクチャを踏襲しつつ、各層のフィードフォワードブロックを 8 個の専門家に置き換え、疎なルーティングで一部の専門家だけを計算に使うと説明されています。

その後、DeepSeek-V3 は MoE を中核路線にしました。総パラメータ数は非常に大きい一方、各 token では一部のパラメータだけを活性化し、DeepSeekMoE によって訓練と推論のコストを抑えます。Qwen3 なども Dense と MoE の両方の系統を用意しており、MoE が研究上の技巧から主流のエンジニアリング選択肢になったことが分かります。

初心者向けに言えば、Dense モデルはどんな問題でも全社員が会議に出る会社のようなものです。MoE は専門チームに分かれ、問題ごとに関連するチームだけを呼ぶ会社に近いです。

MoE には難しさもあります。

ルーターが token を適切な専門家に送る必要がある。
一部の専門家に負荷が集中しないようにする必要がある。
分散訓練と推論がより複雑になる。
総パラメータが大きいことは、毎回の推論が安いことを意味しない。

正規化：RMSNorm が一般的に

正規化は、ニューラルネットワークの中間値の分布を安定させるための仕組みです。大規模モデルの訓練では、値の揺れが大きいと収束が難しくなり、不安定にもなります。

初期の Transformer では LayerNorm がよく使われました。その後、多くの Llama 系モデルは RMSNorm を採用しました。RMSNorm は LayerNorm より簡潔で、平均を計算せず、二乗平均平方根のスケールに注目します。計算が軽く、実用上は十分安定です。

式を覚える必要はありません。RMSNorm は軽量な安定化装置だと理解すれば十分です。単独でモデル能力を決めるものではありませんが、訓練の安定性、速度、実装に影響します。

活性化関数：ReLU/GELU から SwiGLU へ

活性化関数は、ニューラルネットワークに非線形性を与えます。活性化関数がなければ、多層ネットワークは線形変換に近づいてしまいます。

以前の Transformer では GELU がよく使われていました。Llama、Mistral、Qwen、DeepSeek などの現代的な大規模モデルでは、SwiGLU や類似の GLU 変種がより一般的です。SwiGLU は通常フィードフォワードネットワーク内にあり、ゲート機構で情報の流れを制御します。

ざっくり言うと、普通の活性化関数は固定スイッチに近く、SwiGLU は学習可能なバルブに近いです。情報を通すかどうかだけでなく、どの情報を強めるべきかも学習できます。

SwiGLU はフィードフォワード層を少し複雑にしますが、大規模モデルでは高性能アーキテクチャの一般的な部品になっています。

2023-2026 年の全体傾向

時系列で見ると、次のように整理できます。

2023：Llama、Mistral 7B、Mixtral などのオープンモデルによって、RoPE、RMSNorm、SwiGLU、GQA、スライディングウィンドウ、MoE の組み合わせが普及した。
2024：Llama 3、Qwen2.5、DeepSeek-V2/V3 などが語彙を拡大し、長文コンテキストと推論効率を改善し、MoE と高効率注意を重要テーマにした。
2025：DeepSeek-V3/R1 によって、MLA、DeepSeekMoE、FP8、MTP などの訓練・推論効率設計が注目され、アーキテクチャ最適化とシステム工学の結びつきが強くなった。
2026：傾向は引き続き効率化とエンジニアリング成熟。Dense モデルは安定した汎用性を追求し、MoE は容量拡大を担い、高効率注意が長文コストを下げる。

重要なのは、Transformer を置き換える単一部品が登場したことではありません。パラメータを増やすだけでは足りず、アーキテクチャ、データ、訓練システム、推論サービスを一緒に最適化する必要がある、という理解が広がったことです。

初心者はどう学ぶべきか

ゼロから学ぶなら、最初からすべての論文を読む必要はありません。おすすめの順序は次の通りです。

Transformer の基本構造を理解する：token、embedding、attention、FFN。
RoPE、RMSNorm、SwiGLU がなぜ一般的になったかを理解する。
GQA と KV cache を見て、推論がなぜメモリを多く使うかを理解する。
MoE を学び、「総パラメータ」と「活性化パラメータ」の違いを押さえる。
最後に DeepSeek-V3、Mixtral、Llama 3 などのモデル報告を読み、部品を実際のモデルの中で理解する。

これらの用語を孤立した知識として覚える必要はありません。ほとんどは同じ問いに答えています。つまり、どうすればモデルを強くしつつ、訓練可能で、デプロイ可能で、高速に動かせるか、という問いです。

まとめ

2023-2026 年の大規模モデルアーキテクチャの進化は、Transformer のエンジニアリング成熟期と見ることができます。トークナイザは token の無駄を減らし、RoPE は位置をよりよく表現し、GQA、スライディングウィンドウ、MLA は注意コストを下げ、MoE は容量を広げながら活性化計算を抑え、RMSNorm と SwiGLU は訓練と表現をより安定かつ効率的にします。

初心者にとって大切なのは、用語を暗記することではありません。現代の大規模モデルの変更は、ほとんどがコスト、効率、コンテキスト長、スケーラビリティのトレードオフをめぐるものだと理解することです。

参考リンク：

DeepSeek V4 をローカルで動かす：Pro、Flash、Base 版のVRAM使用量見積もり

Fri, 01 May 2026 11:55:25 +0800

DeepSeek V4 と Gemma 4 は、ローカル実行の難度がまったく違います。 Gemma 4 の 26B や 31B なら、24GB や 32GB のGPUでどの量子化版を選ぶかをまだ議論できます。DeepSeek V4 は巨大な MoE モデルであり、完全なローカル実行では多GPUワークステーションやサーバー級のVRAMが必要になります。

公式の DeepSeek V4 Preview には、主に2つの推論モデルがあります。

DeepSeek-V4-Pro：1.6T total / 49B active params
DeepSeek-V4-Flash：284B total / 13B active params

Hugging Face の公式 collection には、さらに2つの Base モデルも含まれています。

DeepSeek-V4-Pro-Base
DeepSeek-V4-Flash-Base

この記事では、モデル重みを完全に読み込む場合のおおまかなVRAM要件だけを扱います。 MoE の active params は主に各 token の計算量に効くものであり、その分のパラメータだけを読み込めばよいという意味ではありません。専門家のオンデマンド読み込み、CPU/NVMe offload、分散推論、専用ランタイム最適化がない場合、VRAMは基本的に完全な重みサイズを基準に見積もる必要があります。

まず結論

VRAM規模	比較的現実的に試せるもの	期待しないほうがよいもの
24GB	DeepSeek V4 の完全実行は不可。小型蒸留モデルまたはAPI向け	V4-Flash / V4-Pro の完全ローカル読み込み
48GB	まだ完全読み込みには不向き。小型モデルやリモートAPIクライアント向け	V4-Flash Q4 の安定実行
80GB	理論上 V4-Flash Q2/Q3 や強い offload を試せる	V4-Pro
128GB	V4-Flash Q4 が比較的現実的。Q5/Q6 はまだ厳しい	V4-Pro Q4
192GB	V4-Flash FP8/Q6 は余裕が出る。Pro Q2 は実験範囲	V4-Pro Q4
256GB	V4-Flash FP8 はかなり安定。Pro Q2/Q3 は実験可能	V4-Pro Q5 以上
512GB	V4-Pro Q4 が議論できる範囲に入る	V4-Pro FP8
1TB+	V4-Pro FP8、Pro-Base の低ビット幅がより現実的	低コスト単体マシン運用
2TB+	Pro-Base FP8 クラス	普通のワークステーション運用

個人PCでローカル実行することが目的なら、DeepSeek V4 は適切な対象ではありません。より現実的な選択肢は次の通りです。

DeepSeek 公式 API または互換サービスを使う。
安定したコミュニティ製 GGUF/EXL2/MLX 量子化と推論サポートを待つ。
より小さな DeepSeek 蒸留モデルを使う。
Qwen、Gemma、Llama などの 7B〜70B 級ローカルモデルを使う。

公式重みサイズ

以下は Hugging Face 公式リポジトリの model.safetensors.index.json から確認できる重み総量です。これは現在公開されている重みファイルのサイズであり、長いコンテキスト実行時の完全なVRAM使用量ではありません。

モデル	パラメータ規模	公式重みサイズ	説明
`DeepSeek-V4-Flash`	284B total / 13B active	159.61GB	推論版。この中では最小
`DeepSeek-V4-Pro`	1.6T total / 49B active	864.70GB	推論版。より強力だが非常に大きい
`DeepSeek-V4-Flash-Base`	284B total	294.67GB	Base 版。全量 FP8 重みに近いサイズ
`DeepSeek-V4-Pro-Base`	1.6T total	1606.03GB	Base 版。約 1.6TB クラス

最小の V4-Flash でも、公式重みはすでに約 160GB あります。そのため、13B active params だからといって 13B 小型モデルのようには扱えません。

DeepSeek V4 Flash のVRAM見積もり

V4-Flash は DeepSeek V4 の中では最もローカル実験に近いモデルです。ただし、それは Pro と比べた場合の話であり、消費者向け単体GPUモデルではありません。

以下では、公式の 159.61GB 重みサイズを基準にしています。 Q4/Q3/Q2 はビット幅からの推定であり、安定した公式 GGUF 版が存在することを意味しません。

版 / 量子化	推定重みサイズ	最低VRAM	安全なVRAM目安	向く用途
`FP8 / 公式重み`	159.61GB	192GB	256GB	多GPUサーバー、推論サービス
`Q6`	120GB	160GB	192GB	品質優先の量子化実験
`Q5`	100GB	128GB	160GB	品質とサイズのバランス
`Q4`	80GB	96GB	128GB	Flash ローカル化の比較的現実的な出発点
`Q3`	60GB	80GB	96GB	大容量VRAM単体GPUまたは多GPU実験
`Q2`	40GB	48GB	64GB	極限低ビット実験。品質リスクは大きい

将来、成熟した V4-Flash Q4 が出たとしても、24GB GPU向けのモデルにはなりにくいです。より現実的な出発点は、96GB〜128GB 級の総VRAM、または速度を犠牲にした CPU/offload 構成です。

DeepSeek V4 Pro のVRAM見積もり

V4-Pro は旗艦推論版で、公式重みサイズは約 864.70GB です。 4-bit 量子化をしても、完全な重みは数百GB級のままです。

版 / 量子化	推定重みサイズ	最低VRAM	安全なVRAM目安	向く用途
`FP8 / 公式重み`	864.70GB	1TB	1.2TB+	多ノードまたは多GPU推論サービス
`Q6`	648GB	768GB	1TB	高品質な量子化サービス
`Q5`	540GB	640GB	768GB	品質とコストのバランス
`Q4`	432GB	512GB	640GB	Pro ローカル化で現実的な最低品質ライン
`Q3`	324GB	384GB	512GB	低ビット実験
`Q2`	216GB	256GB	320GB	極限実験。品質と安定性のリスクが高い

個人ユーザーにとって、V4-Pro は API 経由で使うほうが現実的です。完全なローカル実行を目指すなら、4090、5090、RTX PRO 単体GPUではなく、多GPUサーバーモデルとして考えるべきです。

DeepSeek V4 Flash-Base のVRAM見積もり

Base 版は通常、研究、微調整、継続学習向けであり、普通のチャット用途の第一候補ではありません。 V4-Flash-Base の公式重みサイズは約 294.67GB です。

版 / 量子化	推定重みサイズ	最低VRAM	安全なVRAM目安	向く用途
`FP8 / 公式重み`	294.67GB	384GB	512GB	研究、前処理、評価
`Q6`	221GB	256GB	320GB	高品質量子化研究
`Q5`	184GB	224GB	256GB	品質とサイズのバランス
`Q4`	147GB	192GB	224GB	低コストな Base 版実験
`Q3`	111GB	128GB	160GB	低ビット実験
`Q2`	74GB	96GB	128GB	極限実験

DeepSeek V4 の能力を使いたいだけなら、Base 版から始めることはおすすめしません。 Base 版はデプロイと調整のコストが高く、通常のアプリケーションには推論版または API のほうが向いています。

DeepSeek V4 Pro-Base のVRAM見積もり

V4-Pro-Base は最も重いバージョンで、公式重みサイズは約 1606.03GB です。これはすでに 1.6TB クラスのモデルファイルです。

版 / 量子化	推定重みサイズ	最低VRAM	安全なVRAM目安	向く用途
`FP8 / 公式重み`	1606.03GB	2TB	2.4TB+	大規模研究クラスタ
`Q6`	1205GB	1.5TB	2TB	高品質量子化研究
`Q5`	1004GB	1.2TB	1.5TB	研究と評価
`Q4`	803GB	1TB	1.2TB	低ビット研究
`Q3`	602GB	768GB	1TB	極限低ビット研究
`Q2`	402GB	512GB	640GB	極限実験

この種のモデルは、「家庭用GPUで動くか」という枠組みで考える対象ではありません。 Q4 であっても、ほとんどの単体ワークステーションの快適な範囲を超えています。

active params だけを見てはいけない理由

DeepSeek V4 は MoE モデルです。 MoE では各 token が一部の専門家だけを有効化するため、計算量は総パラメータ数よりかなり小さくなります。しかし、それはVRAMに active params だけを載せればよいという意味ではありません。

完全なローカル推論では、次の要素も考える必要があります。

すべての専門家重みをGPUに常駐させる必要があるか。
専門家のオンデマンド読み込みに対応しているか。
CPUメモリとGPU VRAM間のデータ転送コスト。
NVMe offload の遅延。
長コンテキストで増える KV cache。
1M context 実行時の追加ランタイムコスト。
多ノード・多GPU通信コスト。

したがって、49B active の V4-Pro を 49B モデルとして扱ってはいけません。 13B active の V4-Flash も、13B 小型モデルとして扱うべきではありません。

どう選ぶか

普通の個人ユーザーなら：

DeepSeek V4 を完全にローカル実行することはおすすめしません。
DeepSeek V4 の能力が必要なら、まず公式 API を使う。
ローカル私有化が必要なら、成熟した推論サービス基盤や社内多GPUサーバーがあるかを先に確認する。
24GB〜48GB VRAM しかない場合は、7B、14B、32B、70B 級の量子化モデルのほうが現実的です。

128GB〜256GB の総VRAMがある場合：

V4-Flash Q4/Q5 の安定したコミュニティ実装を注視する。
V4-Pro を主力ローカルモデルとして扱うのはおすすめしません。

512GB 以上の総VRAMがある場合：

V4-Pro Q4 がようやく工学的な検証対象になります。
それでも推論フレームワーク、専門家スケジューリング、KV cache、スループット、並列性を確認する必要があります。

DeepSeek V4 のローカル部署で重要なのは、「どの量子化ファイルをダウンロードするか」ではありません。「このモデルを支えるだけのシステムレベルの推論能力があるか」です。これはデスクトップモデルというより、サーバーモデルに近い存在です。