Gemma 4 12B の使い方：Hugging Face モデルカードとローカル読み込みガイド

Google は google/gemma-4-12B を Hugging Face で公開しました。このモデルカードは発表ブログよりも開発者向けで、Gemma 4 12B Unified の位置づけ、アーキテクチャ、入力モダリティ、コンテキスト長、Transformers での使い方、thinking mode、利用上の制限が具体的に書かれています。

単に「Gemma 4 12B とは何か」を知りたいだけなら、発表ブログで十分です。実際にダウンロードし、読み込み、アプリに組み込むつもりなら、Hugging Face のモデルカードをしっかり読む価値があります。特にローカルデプロイでは、12B、256K、量子化、VRAM、コンテキスト長といった言葉をスペック表だけで判断せず、自分のマシンで現実的に見積もる必要があります。

これはどんなモデルか

google/gemma-4-12B は Gemma 4 ファミリーの 12B Unified モデルです。MoE ではなく dense model です。モデルカードに記載されている主なパラメータは次のとおりです。

総パラメータ数：11.95B
層数：48
sliding window：1024 tokens
context length：256K tokens
vocabulary size：262K
対応モダリティ：テキスト、画像、音声
ライセンス：Apache 2.0

ここで重要なのが Unified です。これは Gemma 4 12B の encoder-free マルチモーダルアーキテクチャを指します。画像 patch や音声波形を、独立した vision encoder や audio encoder に通すのではなく、軽量な線形層で直接 LLM embedding space に投影します。

これは従来の多くのマルチモーダルモデルとは異なります。従来は「画像 encoder / 音声 encoder + LLM」という構成が一般的でした。Gemma 4 12B は外部 encoder を減らし、マルチモーダル入力を単一の decoder-only transformer により直接入れることを目指しています。

Gemma 4 シリーズの中でどう選ぶか

Gemma 4 シリーズには複数のサイズがあります。

E2B
E4B
12B Unified
26B A4B MoE
31B Dense

実用目線では、デプロイの重さとタスクの強度で分けるとわかりやすいです。

モデル	おおまかな位置づけ	向いている用途	ローカルデプロイの目安
E2B	最軽量のエッジモデル	スマートフォン、組み込み機器、軽量 Q&A、機能 demo	最も動かしやすく負荷も小さいが、性能上限も低い
E4B	エッジ/ローカル向けの軽量強化版	小型ローカルアシスタント、モバイルのマルチモーダルアプリ、低コストの私用アプリ	一般的な PC でも試しやすく、入門に向く
12B Unified	中型の dense マルチモーダルモデル	ローカルコードアシスタント、画像 Q&A、音声理解、私有資料分析	VRAM と量子化を真面目に見る必要がある。16GB 級 VRAM または十分な unified memory が現実的
26B A4B MoE	推論時に一部パラメータだけを活性化する大型 MoE	より強い推論、マルチモーダルタスク、サーバー側アプリ	デプロイはより複雑で、ワークステーションや小型サーバー向き
31B Dense	より大きな dense モデル	より強いテキスト、推論、コード、マルチモーダル能力	ローカル要件はかなり高く、高性能 GPU やサーバー向き

12B Unified はかなり面白い位置にあります。E2B や E4B より強く、26B や 31B よりは個人のワークステーションや高性能ノート PC に載せやすい。さらにテキスト、画像、音声入力に対応しているので、クラウドの最上位モデルを置き換えるというより、ローカル開発環境で扱える「十分強く、まだ触って遊べる」マルチモーダル基盤という位置づけです。

選び方を簡単にまとめると：

マシンが普通で、まず体験したいだけなら E4B から始める。
16GB 級 VRAM、または十分な Apple Silicon unified memory があるなら 12B Unified を重点的に見る。
チーム向けサービス、長時間タスク、より強い推論が必要なら 26B A4B MoE や 31B Dense を検討する。
CPU-only や小容量メモリの内蔵 GPU 環境なら、12B から始めないほうがよい。体験はかなり厳しくなりやすい。

256K コンテキストの意味

モデルカードでは、Gemma 4 12B が 256K tokens のコンテキストに対応するとされています。

これは次のようなタスクに役立ちます。

長文書の分析；
複数ファイルのコード読解；
長い会話履歴；
Agent のツール呼び出し履歴；
複数画像と複数テキストの混在入力；
長時間音声、または動画をフレーム抽出した後の総合理解。

ただし、長コンテキストは無料ではありません。コンテキストが長くなるほど、VRAM、RAM、KV cache、推論時間、attention コストは増えます。モデルが 256K に対応していても、ローカルで実際に動かせるかは、ハードウェア、量子化方式、推論フレームワーク、batch 設定に依存します。

より現実的には、256K は毎回埋めるものではなく上限能力として見るべきです。ローカルデプロイでは、検索、分割、キャッシュ、コンテキストの切り詰めが今でも重要です。

ローカルデプロイはハードウェアと量子化から見る

12B は 70B ほど大きく聞こえませんが、どんな PC でも快適に動くモデルではありません。

bf16 や fp16 でざっくり見ると、12B の重みだけで 24GB 近くになります。ここにはランタイムのオーバーヘッド、KV cache、マルチモーダル入力、長コンテキストは含まれていません。つまり、モデルカードの 256K は能力上限であって、16GB VRAM のマシンで 256K コンテキストを気軽に埋められるという意味ではありません。

現実的な目安は次のとおりです。

24GB VRAM：元の精度やや長めのコンテキストのテストに向くが、batch とコンテキスト長の管理は必要；
16GB VRAM：量子化を前提にしたほうがよい。日常的なローカル推論、コードアシスタント、画像 Q&A、短めのコンテキストに向く；
Apple Silicon unified memory：メモリが十分なら試せるが、速度とフレームワーク最適化がかなり重要；
8GB VRAM：量子化版を待つか、短いコンテキストで試す。完全なマルチモーダル長コンテキスト体験は期待しないほうがよい；
CPU-only や小容量メモリの内蔵 GPU：E2B や E4B のほうが向いている。12B はかなり遅く、「起動できるか」の実験になりやすい。

量子化の意味はシンプルです。少し精度を犠牲にして、メモリ使用量を下げ、デプロイしやすくします。個人のローカル利用では、4-bit や 8-bit 量子化のほうが元の精度より実用的なことが多いです。長く使うなら、その推論フレームワークがこのモデルのマルチモーダル入力、thinking mode、長コンテキスト、ツール呼び出しをサポートしているかも確認する必要があります。

そのため、ローカルデプロイで最初から「フル 256K」を狙うのはおすすめしません。より堅実な流れは次のとおりです。

まず Transformers で -it 版を読み込み、モデルと環境が動くことを確認する；
次に自分の GPU や Apple Silicon に合う量子化/推論方式を探す；
コンテキスト長を小さいところから徐々に増やして計測し、いきなり最大にしない；
最後に自分のノート、コードベース、画像、音声ワークフローへ接続する。

対応している能力

モデルカードには Gemma 4 の主要能力がかなり整理されています。12B Unified で重要なのは次の点です。

Thinking：設定可能な reasoning mode に対応；
Long Context：最大 256K tokens；
Image Understanding：物体認識、文書/PDF 解析、画面や UI の理解、グラフ理解、OCR、手書き認識など；
Video Understanding：動画フレーム列を処理して動画を理解；
Interleaved Multimodal Input：同じ prompt の中でテキストと画像を自由に混在可能；
Function Calling：構造化されたツール呼び出しにネイティブ対応；
Coding：コード生成、補完、修正；
Multilingual：多言語対応。事前学習は 140+ 言語をカバー；
Audio：自動音声認識と音声から翻訳テキストへの変換に対応。

開発者向けに言い換えると、次の用途に向いています。

ローカルコードアシスタント；
画像 Q&A；
スクリーンショットや UI の理解；
文書 OCR と表の理解；
音声文字起こし；
軽量な動画理解；
ツール呼び出し付き Agent demo；
私有資料分析。

ただし、これはあくまでテキスト出力を生成するモデルです。画像生成、音声合成、完全な動画生成モデルではありません。

Transformers での読み込み方

モデルカードには Transformers の入口が示されています。最小構成の読み込みはおおむね次のようになります。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10


from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto"
)

ここで例に使われているのは instruction-tuned 版です。

1

google/gemma-4-12B-it

アプリや対話用途なら、多くの場合は -it 版を優先したほうがよいでしょう。ベースの事前学習モデルは、追加学習、研究、特殊な適応に向いています。

基本依存関係は次のようにインストールできます。

1

pip install -U transformers torch accelerate

画像、音声、動画を扱う場合は、追加の依存関係も必要です。たとえば：

1

pip install -U transformers torch torchvision librosa accelerate

実際のデプロイでは、CUDA、PyTorch、GPU ドライバ、量子化方式に合わせて環境を調整する必要があります。モデルカードの例は出発点であり、どのマシンでもコピーすればそのまま快適に動くという意味ではありません。

Thinking mode のオン・オフ

Gemma 4 は thinking mode に対応しています。モデルカードでは、制御 token を使って思考過程を管理できると説明されています。

Transformers のようなライブラリを使う場合、多くの chat template の細部はライブラリ側で処理されます。よくある方法は、テンプレート引数で制御することです。

1
2
3
4
5
6
7
8


inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False
).to(model.device)

enable_thinking を True にすると、モデルを reasoning モードにできます。thinking mode をオフにすると、素早い回答、単純な分類、短文処理などに向きます。

実用上は次のように選べます。

複雑な推論、コード修正、長文書分析：thinking をオン；
単純な Q&A、要約、フィールド抽出、バッチ処理：thinking をオフ；
レイテンシ重視のリアルタイムアプリ：まず thinking をオフにして速度を測り、タスクに合わせて調整。

Thinking mode は多ければよいものではありません。出力と計算コストが増えるため、推論品質が必要な場面で使うのが向いています。

マルチモーダル入力は順序も大事

モデルカードの best practices では、モダリティの順序が結果に影響すると説明されています。

画像や動画のタスクでは、通常は画像や動画をテキスト質問の前に置くとよいです。モデルに先に視覚入力を見せてから質問に答えさせる形です。例：

1
2
3
4
5
6
7
8
9


messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://example.com/image.png"},
            {"type": "text", "text": "What is shown in this image?"}
        ]
    }
]

音声タスクでは、シナリオに応じて説明文と音声の位置を調整します。たとえば文字起こしでは、先に明確な指示を出し、その後に音声入力を置くと、出力形式が安定しやすくなります。

こうした細部は小さく見えますが、実運用では重要です。マルチモーダルモデルは「ファイルを入れれば安定して動く」ものではありません。入力順序、プロンプト、サンプリング設定、出力解析のすべてが結果に影響します。

推奨サンプリングパラメータ

モデルカードには標準的なサンプリングパラメータが示されています。

temperature=1.0
top_p=0.95
top_k=64

この設定は汎用生成に向いています。フィールド抽出、分類、構造化出力のように決定性がほしい用途では、temperature を下げるとよいでしょう。創作、ブレインストーミング、自由回答では、デフォルトのまま、または少しランダム性を上げる選択もあります。

本番アプリでは、デフォルト設定だけに頼らないほうがよいです。タスクごとの小さなテストセットを作り、サンプリング設定が精度、安定性、レイテンシにどう影響するかを比較するのが現実的です。

Benchmark の読み方

モデルカードには多くの benchmark が載っています。12B Unified の結果には次のようなものがあります。

MMLU Pro：77.2%
AIME 2026 no tools：77.5%
LiveCodeBench v6：72.0%
Codeforces ELO：1659
GPQA Diamond：78.8%
MMMU Pro：69.1%
MATH-Vision：79.7%
MRCR v2 8 needle 128k：43.4%

これらの数字を見ると、Gemma 4 12B は推論、コード、視覚、長コンテキストで一定の基礎力を持っていることがわかります。ただし benchmark は実際の体験のすべてではありません。

中国語文章、企業ナレッジベース、私有コードベース Q&A、音声文字起こし、ローカル Agent に使うなら、自分で確認すべき点があります。

中国語表現は自然か；
ドメイン用語は安定しているか；
複数ターンの文脈を維持できるか；
ツール呼び出しの形式は信頼できるか；
長文書検索で重要な情報を見落とさないか；
ローカルハードウェア上のレイテンシは許容できるか。

モデルカードは上限と方向性を教えてくれますが、業務検証を代わりにやってくれるわけではありません。

利用制限と安全上の注意

Gemma 4 12B は Apache 2.0 ライセンスのオープンモデルで、開発者にとって扱いやすいです。ただし、オープンウェイトだからリスクがないという意味ではありません。

注意すべき点は次のとおりです。

モデルは誤情報を生成する可能性がある；
長コンテキストで重要な細部を見落とす可能性がある；
マルチモーダル入力を誤読する可能性がある；
生成コードはレビューとテストが必要；
Agent のツール呼び出しには権限分離が必要；
個人情報、医療、法律、金融に関わる場面では追加の注意が必要。

Gemma 4 12B をローカルファイル、コマンドライン、ブラウザ、データベースにつなぐ場合、無制限の権限を直接与えないでください。少なくともログ、確認ステップ、サンドボックス、ロールバック手段を用意するべきです。

まず試すのに向いている人

google/gemma-4-12B を最初に試すなら、次のような人に向いています。

ローカルマルチモーダルアシスタントを開発している人；
画像、音声、テキストを混ぜたタスクをローカルで動かしたい人；
コードアシスタント、デスクトップ Agent、私有ナレッジベースを作っている人；
encoder-free マルチモーダルアーキテクチャを研究したい人；
16GB 級 VRAM または Apple Silicon unified memory を持つ人；
Apache 2.0 のオープンモデルを二次開発に使いたいチーム。

普通のチャットだけが目的だったり、マシンの性能が低かったりする場合は、より小さい E2B や E4B から試すか、ホステッドサービスを使ったほうがよいかもしれません。

まとめ

google/gemma-4-12B の Hugging Face モデルカードの価値は、Gemma 4 12B を「発表ニュース」から「開発者がどう使うか」に落とし込んでいる点にあります。

これは 12B dense、256K context、encoder-free、多モーダル入力、Apache 2.0 ライセンスのオープンモデルです。画像、音声、動画、テキスト入力に対応し、thinking mode、function calling、coding、多言語タスクも扱えます。

ただし魔法のボタンではありません。実際に落とし込むには、ハードウェア、量子化、推論フレームワーク、プロンプト、マルチモーダル入力順序、サンプリング設定、安全境界、業務テストを考える必要があります。モデルカードは出発点であって、ゴールではありません。

参考ソース

google/gemma-4-12B - Hugging Face