Google は google/gemma-4-12B を Hugging Face で公開しました。このモデルカードは発表ブログよりも開発者向けで、Gemma 4 12B Unified の位置づけ、アーキテクチャ、入力モダリティ、コンテキスト長、Transformers での使い方、thinking mode、利用上の制限が具体的に書かれています。
単に「Gemma 4 12B とは何か」を知りたいだけなら、発表ブログで十分です。実際にダウンロードし、読み込み、アプリに組み込むつもりなら、Hugging Face のモデルカードをしっかり読む価値があります。特にローカルデプロイでは、12B、256K、量子化、VRAM、コンテキスト長といった言葉をスペック表だけで判断せず、自分のマシンで現実的に見積もる必要があります。
これはどんなモデルか
google/gemma-4-12B は Gemma 4 ファミリーの 12B Unified モデルです。MoE ではなく dense model です。モデルカードに記載されている主なパラメータは次のとおりです。
- 総パラメータ数:
11.95B - 層数:
48 - sliding window:
1024 tokens - context length:
256K tokens - vocabulary size:
262K - 対応モダリティ:テキスト、画像、音声
- ライセンス:
Apache 2.0
ここで重要なのが Unified です。これは Gemma 4 12B の encoder-free マルチモーダルアーキテクチャを指します。画像 patch や音声波形を、独立した vision encoder や audio encoder に通すのではなく、軽量な線形層で直接 LLM embedding space に投影します。
これは従来の多くのマルチモーダルモデルとは異なります。従来は「画像 encoder / 音声 encoder + LLM」という構成が一般的でした。Gemma 4 12B は外部 encoder を減らし、マルチモーダル入力を単一の decoder-only transformer により直接入れることを目指しています。
Gemma 4 シリーズの中でどう選ぶか
Gemma 4 シリーズには複数のサイズがあります。
- E2B
- E4B
- 12B Unified
- 26B A4B MoE
- 31B Dense
実用目線では、デプロイの重さとタスクの強度で分けるとわかりやすいです。
| モデル | おおまかな位置づけ | 向いている用途 | ローカルデプロイの目安 |
|---|---|---|---|
| E2B | 最軽量のエッジモデル | スマートフォン、組み込み機器、軽量 Q&A、機能 demo | 最も動かしやすく負荷も小さいが、性能上限も低い |
| E4B | エッジ/ローカル向けの軽量強化版 | 小型ローカルアシスタント、モバイルのマルチモーダルアプリ、低コストの私用アプリ | 一般的な PC でも試しやすく、入門に向く |
| 12B Unified | 中型の dense マルチモーダルモデル | ローカルコードアシスタント、画像 Q&A、音声理解、私有資料分析 | VRAM と量子化を真面目に見る必要がある。16GB 級 VRAM または十分な unified memory が現実的 |
| 26B A4B MoE | 推論時に一部パラメータだけを活性化する大型 MoE | より強い推論、マルチモーダルタスク、サーバー側アプリ | デプロイはより複雑で、ワークステーションや小型サーバー向き |
| 31B Dense | より大きな dense モデル | より強いテキスト、推論、コード、マルチモーダル能力 | ローカル要件はかなり高く、高性能 GPU やサーバー向き |
12B Unified はかなり面白い位置にあります。E2B や E4B より強く、26B や 31B よりは個人のワークステーションや高性能ノート PC に載せやすい。さらにテキスト、画像、音声入力に対応しているので、クラウドの最上位モデルを置き換えるというより、ローカル開発環境で扱える「十分強く、まだ触って遊べる」マルチモーダル基盤という位置づけです。
選び方を簡単にまとめると:
- マシンが普通で、まず体験したいだけなら E4B から始める。
- 16GB 級 VRAM、または十分な Apple Silicon unified memory があるなら 12B Unified を重点的に見る。
- チーム向けサービス、長時間タスク、より強い推論が必要なら 26B A4B MoE や 31B Dense を検討する。
- CPU-only や小容量メモリの内蔵 GPU 環境なら、12B から始めないほうがよい。体験はかなり厳しくなりやすい。
256K コンテキストの意味
モデルカードでは、Gemma 4 12B が 256K tokens のコンテキストに対応するとされています。
これは次のようなタスクに役立ちます。
- 長文書の分析;
- 複数ファイルのコード読解;
- 長い会話履歴;
- Agent のツール呼び出し履歴;
- 複数画像と複数テキストの混在入力;
- 長時間音声、または動画をフレーム抽出した後の総合理解。
ただし、長コンテキストは無料ではありません。コンテキストが長くなるほど、VRAM、RAM、KV cache、推論時間、attention コストは増えます。モデルが 256K に対応していても、ローカルで実際に動かせるかは、ハードウェア、量子化方式、推論フレームワーク、batch 設定に依存します。
より現実的には、256K は毎回埋めるものではなく上限能力として見るべきです。ローカルデプロイでは、検索、分割、キャッシュ、コンテキストの切り詰めが今でも重要です。
ローカルデプロイはハードウェアと量子化から見る
12B は 70B ほど大きく聞こえませんが、どんな PC でも快適に動くモデルではありません。
bf16 や fp16 でざっくり見ると、12B の重みだけで 24GB 近くになります。ここにはランタイムのオーバーヘッド、KV cache、マルチモーダル入力、長コンテキストは含まれていません。つまり、モデルカードの 256K は能力上限であって、16GB VRAM のマシンで 256K コンテキストを気軽に埋められるという意味ではありません。
現実的な目安は次のとおりです。
- 24GB VRAM:元の精度やや長めのコンテキストのテストに向くが、batch とコンテキスト長の管理は必要;
- 16GB VRAM:量子化を前提にしたほうがよい。日常的なローカル推論、コードアシスタント、画像 Q&A、短めのコンテキストに向く;
- Apple Silicon unified memory:メモリが十分なら試せるが、速度とフレームワーク最適化がかなり重要;
- 8GB VRAM:量子化版を待つか、短いコンテキストで試す。完全なマルチモーダル長コンテキスト体験は期待しないほうがよい;
- CPU-only や小容量メモリの内蔵 GPU:E2B や E4B のほうが向いている。12B はかなり遅く、「起動できるか」の実験になりやすい。
量子化の意味はシンプルです。少し精度を犠牲にして、メモリ使用量を下げ、デプロイしやすくします。個人のローカル利用では、4-bit や 8-bit 量子化のほうが元の精度より実用的なことが多いです。長く使うなら、その推論フレームワークがこのモデルのマルチモーダル入力、thinking mode、長コンテキスト、ツール呼び出しをサポートしているかも確認する必要があります。
そのため、ローカルデプロイで最初から「フル 256K」を狙うのはおすすめしません。より堅実な流れは次のとおりです。
- まず Transformers で
-it版を読み込み、モデルと環境が動くことを確認する; - 次に自分の GPU や Apple Silicon に合う量子化/推論方式を探す;
- コンテキスト長を小さいところから徐々に増やして計測し、いきなり最大にしない;
- 最後に自分のノート、コードベース、画像、音声ワークフローへ接続する。
対応している能力
モデルカードには Gemma 4 の主要能力がかなり整理されています。12B Unified で重要なのは次の点です。
- Thinking:設定可能な reasoning mode に対応;
- Long Context:最大
256K tokens; - Image Understanding:物体認識、文書/PDF 解析、画面や UI の理解、グラフ理解、OCR、手書き認識など;
- Video Understanding:動画フレーム列を処理して動画を理解;
- Interleaved Multimodal Input:同じ prompt の中でテキストと画像を自由に混在可能;
- Function Calling:構造化されたツール呼び出しにネイティブ対応;
- Coding:コード生成、補完、修正;
- Multilingual:多言語対応。事前学習は
140+言語をカバー; - Audio:自動音声認識と音声から翻訳テキストへの変換に対応。
開発者向けに言い換えると、次の用途に向いています。
- ローカルコードアシスタント;
- 画像 Q&A;
- スクリーンショットや UI の理解;
- 文書 OCR と表の理解;
- 音声文字起こし;
- 軽量な動画理解;
- ツール呼び出し付き Agent demo;
- 私有資料分析。
ただし、これはあくまでテキスト出力を生成するモデルです。画像生成、音声合成、完全な動画生成モデルではありません。
Transformers での読み込み方
モデルカードには Transformers の入口が示されています。最小構成の読み込みはおおむね次のようになります。
|
|
ここで例に使われているのは instruction-tuned 版です。
|
|
アプリや対話用途なら、多くの場合は -it 版を優先したほうがよいでしょう。ベースの事前学習モデルは、追加学習、研究、特殊な適応に向いています。
基本依存関係は次のようにインストールできます。
|
|
画像、音声、動画を扱う場合は、追加の依存関係も必要です。たとえば:
|
|
実際のデプロイでは、CUDA、PyTorch、GPU ドライバ、量子化方式に合わせて環境を調整する必要があります。モデルカードの例は出発点であり、どのマシンでもコピーすればそのまま快適に動くという意味ではありません。
Thinking mode のオン・オフ
Gemma 4 は thinking mode に対応しています。モデルカードでは、制御 token を使って思考過程を管理できると説明されています。
Transformers のようなライブラリを使う場合、多くの chat template の細部はライブラリ側で処理されます。よくある方法は、テンプレート引数で制御することです。
|
|
enable_thinking を True にすると、モデルを reasoning モードにできます。thinking mode をオフにすると、素早い回答、単純な分類、短文処理などに向きます。
実用上は次のように選べます。
- 複雑な推論、コード修正、長文書分析:thinking をオン;
- 単純な Q&A、要約、フィールド抽出、バッチ処理:thinking をオフ;
- レイテンシ重視のリアルタイムアプリ:まず thinking をオフにして速度を測り、タスクに合わせて調整。
Thinking mode は多ければよいものではありません。出力と計算コストが増えるため、推論品質が必要な場面で使うのが向いています。
マルチモーダル入力は順序も大事
モデルカードの best practices では、モダリティの順序が結果に影響すると説明されています。
画像や動画のタスクでは、通常は画像や動画をテキスト質問の前に置くとよいです。モデルに先に視覚入力を見せてから質問に答えさせる形です。例:
|
|
音声タスクでは、シナリオに応じて説明文と音声の位置を調整します。たとえば文字起こしでは、先に明確な指示を出し、その後に音声入力を置くと、出力形式が安定しやすくなります。
こうした細部は小さく見えますが、実運用では重要です。マルチモーダルモデルは「ファイルを入れれば安定して動く」ものではありません。入力順序、プロンプト、サンプリング設定、出力解析のすべてが結果に影響します。
推奨サンプリングパラメータ
モデルカードには標準的なサンプリングパラメータが示されています。
temperature=1.0top_p=0.95top_k=64
この設定は汎用生成に向いています。フィールド抽出、分類、構造化出力のように決定性がほしい用途では、temperature を下げるとよいでしょう。創作、ブレインストーミング、自由回答では、デフォルトのまま、または少しランダム性を上げる選択もあります。
本番アプリでは、デフォルト設定だけに頼らないほうがよいです。タスクごとの小さなテストセットを作り、サンプリング設定が精度、安定性、レイテンシにどう影響するかを比較するのが現実的です。
Benchmark の読み方
モデルカードには多くの benchmark が載っています。12B Unified の結果には次のようなものがあります。
- MMLU Pro:
77.2% - AIME 2026 no tools:
77.5% - LiveCodeBench v6:
72.0% - Codeforces ELO:
1659 - GPQA Diamond:
78.8% - MMMU Pro:
69.1% - MATH-Vision:
79.7% - MRCR v2 8 needle 128k:
43.4%
これらの数字を見ると、Gemma 4 12B は推論、コード、視覚、長コンテキストで一定の基礎力を持っていることがわかります。ただし benchmark は実際の体験のすべてではありません。
中国語文章、企業ナレッジベース、私有コードベース Q&A、音声文字起こし、ローカル Agent に使うなら、自分で確認すべき点があります。
- 中国語表現は自然か;
- ドメイン用語は安定しているか;
- 複数ターンの文脈を維持できるか;
- ツール呼び出しの形式は信頼できるか;
- 長文書検索で重要な情報を見落とさないか;
- ローカルハードウェア上のレイテンシは許容できるか。
モデルカードは上限と方向性を教えてくれますが、業務検証を代わりにやってくれるわけではありません。
利用制限と安全上の注意
Gemma 4 12B は Apache 2.0 ライセンスのオープンモデルで、開発者にとって扱いやすいです。ただし、オープンウェイトだからリスクがないという意味ではありません。
注意すべき点は次のとおりです。
- モデルは誤情報を生成する可能性がある;
- 長コンテキストで重要な細部を見落とす可能性がある;
- マルチモーダル入力を誤読する可能性がある;
- 生成コードはレビューとテストが必要;
- Agent のツール呼び出しには権限分離が必要;
- 個人情報、医療、法律、金融に関わる場面では追加の注意が必要。
Gemma 4 12B をローカルファイル、コマンドライン、ブラウザ、データベースにつなぐ場合、無制限の権限を直接与えないでください。少なくともログ、確認ステップ、サンドボックス、ロールバック手段を用意するべきです。
まず試すのに向いている人
google/gemma-4-12B を最初に試すなら、次のような人に向いています。
- ローカルマルチモーダルアシスタントを開発している人;
- 画像、音声、テキストを混ぜたタスクをローカルで動かしたい人;
- コードアシスタント、デスクトップ Agent、私有ナレッジベースを作っている人;
- encoder-free マルチモーダルアーキテクチャを研究したい人;
- 16GB 級 VRAM または Apple Silicon unified memory を持つ人;
- Apache 2.0 のオープンモデルを二次開発に使いたいチーム。
普通のチャットだけが目的だったり、マシンの性能が低かったりする場合は、より小さい E2B や E4B から試すか、ホステッドサービスを使ったほうがよいかもしれません。
まとめ
google/gemma-4-12B の Hugging Face モデルカードの価値は、Gemma 4 12B を「発表ニュース」から「開発者がどう使うか」に落とし込んでいる点にあります。
これは 12B dense、256K context、encoder-free、多モーダル入力、Apache 2.0 ライセンスのオープンモデルです。画像、音声、動画、テキスト入力に対応し、thinking mode、function calling、coding、多言語タスクも扱えます。
ただし魔法のボタンではありません。実際に落とし込むには、ハードウェア、量子化、推論フレームワーク、プロンプト、マルチモーダル入力順序、サンプリング設定、安全境界、業務テストを考える必要があります。モデルカードは出発点であって、ゴールではありません。