Gemma 4 12B の使い方:Hugging Face モデルカードとローカル読み込みガイド

google/gemma-4-12B の Hugging Face モデルカードを実用目線で整理。Gemma 4 12B Unified の位置づけ、256K コンテキスト、ローカル実行時のハードウェア目安、量子化、Transformers での読み込み、利用上の注意点を解説する。

Google は google/gemma-4-12B を Hugging Face で公開しました。このモデルカードは発表ブログよりも開発者向けで、Gemma 4 12B Unified の位置づけ、アーキテクチャ、入力モダリティ、コンテキスト長、Transformers での使い方、thinking mode、利用上の制限が具体的に書かれています。

単に「Gemma 4 12B とは何か」を知りたいだけなら、発表ブログで十分です。実際にダウンロードし、読み込み、アプリに組み込むつもりなら、Hugging Face のモデルカードをしっかり読む価値があります。特にローカルデプロイでは、12B、256K、量子化、VRAM、コンテキスト長といった言葉をスペック表だけで判断せず、自分のマシンで現実的に見積もる必要があります。

これはどんなモデルか

google/gemma-4-12B は Gemma 4 ファミリーの 12B Unified モデルです。MoE ではなく dense model です。モデルカードに記載されている主なパラメータは次のとおりです。

  • 総パラメータ数:11.95B
  • 層数:48
  • sliding window:1024 tokens
  • context length:256K tokens
  • vocabulary size:262K
  • 対応モダリティ:テキスト、画像、音声
  • ライセンス:Apache 2.0

ここで重要なのが Unified です。これは Gemma 4 12B の encoder-free マルチモーダルアーキテクチャを指します。画像 patch や音声波形を、独立した vision encoder や audio encoder に通すのではなく、軽量な線形層で直接 LLM embedding space に投影します。

これは従来の多くのマルチモーダルモデルとは異なります。従来は「画像 encoder / 音声 encoder + LLM」という構成が一般的でした。Gemma 4 12B は外部 encoder を減らし、マルチモーダル入力を単一の decoder-only transformer により直接入れることを目指しています。

Gemma 4 シリーズの中でどう選ぶか

Gemma 4 シリーズには複数のサイズがあります。

  • E2B
  • E4B
  • 12B Unified
  • 26B A4B MoE
  • 31B Dense

実用目線では、デプロイの重さとタスクの強度で分けるとわかりやすいです。

モデル おおまかな位置づけ 向いている用途 ローカルデプロイの目安
E2B 最軽量のエッジモデル スマートフォン、組み込み機器、軽量 Q&A、機能 demo 最も動かしやすく負荷も小さいが、性能上限も低い
E4B エッジ/ローカル向けの軽量強化版 小型ローカルアシスタント、モバイルのマルチモーダルアプリ、低コストの私用アプリ 一般的な PC でも試しやすく、入門に向く
12B Unified 中型の dense マルチモーダルモデル ローカルコードアシスタント、画像 Q&A、音声理解、私有資料分析 VRAM と量子化を真面目に見る必要がある。16GB 級 VRAM または十分な unified memory が現実的
26B A4B MoE 推論時に一部パラメータだけを活性化する大型 MoE より強い推論、マルチモーダルタスク、サーバー側アプリ デプロイはより複雑で、ワークステーションや小型サーバー向き
31B Dense より大きな dense モデル より強いテキスト、推論、コード、マルチモーダル能力 ローカル要件はかなり高く、高性能 GPU やサーバー向き

12B Unified はかなり面白い位置にあります。E2B や E4B より強く、26B や 31B よりは個人のワークステーションや高性能ノート PC に載せやすい。さらにテキスト、画像、音声入力に対応しているので、クラウドの最上位モデルを置き換えるというより、ローカル開発環境で扱える「十分強く、まだ触って遊べる」マルチモーダル基盤という位置づけです。

選び方を簡単にまとめると:

  • マシンが普通で、まず体験したいだけなら E4B から始める。
  • 16GB 級 VRAM、または十分な Apple Silicon unified memory があるなら 12B Unified を重点的に見る。
  • チーム向けサービス、長時間タスク、より強い推論が必要なら 26B A4B MoE や 31B Dense を検討する。
  • CPU-only や小容量メモリの内蔵 GPU 環境なら、12B から始めないほうがよい。体験はかなり厳しくなりやすい。

256K コンテキストの意味

モデルカードでは、Gemma 4 12B が 256K tokens のコンテキストに対応するとされています。

これは次のようなタスクに役立ちます。

  • 長文書の分析;
  • 複数ファイルのコード読解;
  • 長い会話履歴;
  • Agent のツール呼び出し履歴;
  • 複数画像と複数テキストの混在入力;
  • 長時間音声、または動画をフレーム抽出した後の総合理解。

ただし、長コンテキストは無料ではありません。コンテキストが長くなるほど、VRAM、RAM、KV cache、推論時間、attention コストは増えます。モデルが 256K に対応していても、ローカルで実際に動かせるかは、ハードウェア、量子化方式、推論フレームワーク、batch 設定に依存します。

より現実的には、256K は毎回埋めるものではなく上限能力として見るべきです。ローカルデプロイでは、検索、分割、キャッシュ、コンテキストの切り詰めが今でも重要です。

ローカルデプロイはハードウェアと量子化から見る

12B は 70B ほど大きく聞こえませんが、どんな PC でも快適に動くモデルではありません。

bf16fp16 でざっくり見ると、12B の重みだけで 24GB 近くになります。ここにはランタイムのオーバーヘッド、KV cache、マルチモーダル入力、長コンテキストは含まれていません。つまり、モデルカードの 256K は能力上限であって、16GB VRAM のマシンで 256K コンテキストを気軽に埋められるという意味ではありません。

現実的な目安は次のとおりです。

  • 24GB VRAM:元の精度やや長めのコンテキストのテストに向くが、batch とコンテキスト長の管理は必要;
  • 16GB VRAM:量子化を前提にしたほうがよい。日常的なローカル推論、コードアシスタント、画像 Q&A、短めのコンテキストに向く;
  • Apple Silicon unified memory:メモリが十分なら試せるが、速度とフレームワーク最適化がかなり重要;
  • 8GB VRAM:量子化版を待つか、短いコンテキストで試す。完全なマルチモーダル長コンテキスト体験は期待しないほうがよい;
  • CPU-only や小容量メモリの内蔵 GPU:E2B や E4B のほうが向いている。12B はかなり遅く、「起動できるか」の実験になりやすい。

量子化の意味はシンプルです。少し精度を犠牲にして、メモリ使用量を下げ、デプロイしやすくします。個人のローカル利用では、4-bit や 8-bit 量子化のほうが元の精度より実用的なことが多いです。長く使うなら、その推論フレームワークがこのモデルのマルチモーダル入力、thinking mode、長コンテキスト、ツール呼び出しをサポートしているかも確認する必要があります。

そのため、ローカルデプロイで最初から「フル 256K」を狙うのはおすすめしません。より堅実な流れは次のとおりです。

  1. まず Transformers で -it 版を読み込み、モデルと環境が動くことを確認する;
  2. 次に自分の GPU や Apple Silicon に合う量子化/推論方式を探す;
  3. コンテキスト長を小さいところから徐々に増やして計測し、いきなり最大にしない;
  4. 最後に自分のノート、コードベース、画像、音声ワークフローへ接続する。

対応している能力

モデルカードには Gemma 4 の主要能力がかなり整理されています。12B Unified で重要なのは次の点です。

  • Thinking:設定可能な reasoning mode に対応;
  • Long Context:最大 256K tokens
  • Image Understanding:物体認識、文書/PDF 解析、画面や UI の理解、グラフ理解、OCR、手書き認識など;
  • Video Understanding:動画フレーム列を処理して動画を理解;
  • Interleaved Multimodal Input:同じ prompt の中でテキストと画像を自由に混在可能;
  • Function Calling:構造化されたツール呼び出しにネイティブ対応;
  • Coding:コード生成、補完、修正;
  • Multilingual:多言語対応。事前学習は 140+ 言語をカバー;
  • Audio:自動音声認識と音声から翻訳テキストへの変換に対応。

開発者向けに言い換えると、次の用途に向いています。

  • ローカルコードアシスタント;
  • 画像 Q&A;
  • スクリーンショットや UI の理解;
  • 文書 OCR と表の理解;
  • 音声文字起こし;
  • 軽量な動画理解;
  • ツール呼び出し付き Agent demo;
  • 私有資料分析。

ただし、これはあくまでテキスト出力を生成するモデルです。画像生成、音声合成、完全な動画生成モデルではありません。

Transformers での読み込み方

モデルカードには Transformers の入口が示されています。最小構成の読み込みはおおむね次のようになります。

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto"
)

ここで例に使われているのは instruction-tuned 版です。

1
google/gemma-4-12B-it

アプリや対話用途なら、多くの場合は -it 版を優先したほうがよいでしょう。ベースの事前学習モデルは、追加学習、研究、特殊な適応に向いています。

基本依存関係は次のようにインストールできます。

1
pip install -U transformers torch accelerate

画像、音声、動画を扱う場合は、追加の依存関係も必要です。たとえば:

1
pip install -U transformers torch torchvision librosa accelerate

実際のデプロイでは、CUDA、PyTorch、GPU ドライバ、量子化方式に合わせて環境を調整する必要があります。モデルカードの例は出発点であり、どのマシンでもコピーすればそのまま快適に動くという意味ではありません。

Thinking mode のオン・オフ

Gemma 4 は thinking mode に対応しています。モデルカードでは、制御 token を使って思考過程を管理できると説明されています。

Transformers のようなライブラリを使う場合、多くの chat template の細部はライブラリ側で処理されます。よくある方法は、テンプレート引数で制御することです。

1
2
3
4
5
6
7
8
inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False
).to(model.device)

enable_thinkingTrue にすると、モデルを reasoning モードにできます。thinking mode をオフにすると、素早い回答、単純な分類、短文処理などに向きます。

実用上は次のように選べます。

  • 複雑な推論、コード修正、長文書分析:thinking をオン;
  • 単純な Q&A、要約、フィールド抽出、バッチ処理:thinking をオフ;
  • レイテンシ重視のリアルタイムアプリ:まず thinking をオフにして速度を測り、タスクに合わせて調整。

Thinking mode は多ければよいものではありません。出力と計算コストが増えるため、推論品質が必要な場面で使うのが向いています。

マルチモーダル入力は順序も大事

モデルカードの best practices では、モダリティの順序が結果に影響すると説明されています。

画像や動画のタスクでは、通常は画像や動画をテキスト質問の前に置くとよいです。モデルに先に視覚入力を見せてから質問に答えさせる形です。例:

1
2
3
4
5
6
7
8
9
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://example.com/image.png"},
            {"type": "text", "text": "What is shown in this image?"}
        ]
    }
]

音声タスクでは、シナリオに応じて説明文と音声の位置を調整します。たとえば文字起こしでは、先に明確な指示を出し、その後に音声入力を置くと、出力形式が安定しやすくなります。

こうした細部は小さく見えますが、実運用では重要です。マルチモーダルモデルは「ファイルを入れれば安定して動く」ものではありません。入力順序、プロンプト、サンプリング設定、出力解析のすべてが結果に影響します。

推奨サンプリングパラメータ

モデルカードには標準的なサンプリングパラメータが示されています。

  • temperature=1.0
  • top_p=0.95
  • top_k=64

この設定は汎用生成に向いています。フィールド抽出、分類、構造化出力のように決定性がほしい用途では、temperature を下げるとよいでしょう。創作、ブレインストーミング、自由回答では、デフォルトのまま、または少しランダム性を上げる選択もあります。

本番アプリでは、デフォルト設定だけに頼らないほうがよいです。タスクごとの小さなテストセットを作り、サンプリング設定が精度、安定性、レイテンシにどう影響するかを比較するのが現実的です。

Benchmark の読み方

モデルカードには多くの benchmark が載っています。12B Unified の結果には次のようなものがあります。

  • MMLU Pro:77.2%
  • AIME 2026 no tools:77.5%
  • LiveCodeBench v6:72.0%
  • Codeforces ELO:1659
  • GPQA Diamond:78.8%
  • MMMU Pro:69.1%
  • MATH-Vision:79.7%
  • MRCR v2 8 needle 128k:43.4%

これらの数字を見ると、Gemma 4 12B は推論、コード、視覚、長コンテキストで一定の基礎力を持っていることがわかります。ただし benchmark は実際の体験のすべてではありません。

中国語文章、企業ナレッジベース、私有コードベース Q&A、音声文字起こし、ローカル Agent に使うなら、自分で確認すべき点があります。

  • 中国語表現は自然か;
  • ドメイン用語は安定しているか;
  • 複数ターンの文脈を維持できるか;
  • ツール呼び出しの形式は信頼できるか;
  • 長文書検索で重要な情報を見落とさないか;
  • ローカルハードウェア上のレイテンシは許容できるか。

モデルカードは上限と方向性を教えてくれますが、業務検証を代わりにやってくれるわけではありません。

利用制限と安全上の注意

Gemma 4 12B は Apache 2.0 ライセンスのオープンモデルで、開発者にとって扱いやすいです。ただし、オープンウェイトだからリスクがないという意味ではありません。

注意すべき点は次のとおりです。

  • モデルは誤情報を生成する可能性がある;
  • 長コンテキストで重要な細部を見落とす可能性がある;
  • マルチモーダル入力を誤読する可能性がある;
  • 生成コードはレビューとテストが必要;
  • Agent のツール呼び出しには権限分離が必要;
  • 個人情報、医療、法律、金融に関わる場面では追加の注意が必要。

Gemma 4 12B をローカルファイル、コマンドライン、ブラウザ、データベースにつなぐ場合、無制限の権限を直接与えないでください。少なくともログ、確認ステップ、サンドボックス、ロールバック手段を用意するべきです。

まず試すのに向いている人

google/gemma-4-12B を最初に試すなら、次のような人に向いています。

  • ローカルマルチモーダルアシスタントを開発している人;
  • 画像、音声、テキストを混ぜたタスクをローカルで動かしたい人;
  • コードアシスタント、デスクトップ Agent、私有ナレッジベースを作っている人;
  • encoder-free マルチモーダルアーキテクチャを研究したい人;
  • 16GB 級 VRAM または Apple Silicon unified memory を持つ人;
  • Apache 2.0 のオープンモデルを二次開発に使いたいチーム。

普通のチャットだけが目的だったり、マシンの性能が低かったりする場合は、より小さい E2B や E4B から試すか、ホステッドサービスを使ったほうがよいかもしれません。

まとめ

google/gemma-4-12B の Hugging Face モデルカードの価値は、Gemma 4 12B を「発表ニュース」から「開発者がどう使うか」に落とし込んでいる点にあります。

これは 12B dense、256K context、encoder-free、多モーダル入力、Apache 2.0 ライセンスのオープンモデルです。画像、音声、動画、テキスト入力に対応し、thinking mode、function calling、coding、多言語タスクも扱えます。

ただし魔法のボタンではありません。実際に落とし込むには、ハードウェア、量子化、推論フレームワーク、プロンプト、マルチモーダル入力順序、サンプリング設定、安全境界、業務テストを考える必要があります。モデルカードは出発点であって、ゴールではありません。

参考ソース

记录并分享
Hugo で構築されています。
テーマ StackJimmy によって設計されています。