Gemma 4 on KnightLiブログ

Gemma 4 をローカルで動かす：E2B、E4B、26B、31B の量子化版に必要なVRAM

Fri, 01 May 2026 11:42:34 +0800

Gemma 4 には、ローカル実行向けに主に E2B、E4B、26B A4B、31B の4サイズがあります。 E2B と E4B は軽量・エッジデバイス向け、26B A4B は MoE アーキテクチャ、31B はより大きな dense モデルです。

ローカル実行で混同しやすい数字は次の2つです。

GGUF ファイルサイズ：モデル重みファイルそのものの大きさ。
実際のVRAM使用量：モデル重み、KV cache、ランタイムのオーバーヘッド、コンテキスト長、マルチモーダル投影ファイルの有無で決まる。

以下の表は、GGUF ファイルサイズをもとにVRAM要件を見積もったものです。前提は llama.cpp、LM Studio、Ollama などで、主にテキスト推論を行い、短〜中程度のコンテキストを使うローカル環境です。長いコンテキスト、画像/音声入力、並列リクエストを使う場合は、さらにVRAMの余裕が必要です。

まず結論

VRAM	比較的向く選択	避けたい選択
4GB	E2B の低ビット量子化	E4B 以上
6GB	E2B Q4/Q5、E4B の低ビット量子化	26B、31B
8GB	E2B Q8、E4B Q4/Q5	26B Q4、31B Q4
12GB	E4B Q8、26B/31B の 2-bit/3-bit 実験	26B Q4 の長コンテキスト、31B Q4
16GB	26B 低ビット量子化、31B 低ビット量子化	31B Q4 の長コンテキスト、26B Q5 以上
24GB	26B Q4/Q5、31B Q4	31B Q8、BF16
32GB	26B Q6/Q8、31B Q5/Q6	BF16
48GB	31B Q8 をより余裕を持って実行、26B Q8 の長めのコンテキスト	31B BF16
80GB+	26B/31B BF16	一般的なコンシューマーGPU単体での運用

まずローカルで使えるものを動かしたいなら、E4B Q4_K_M または E2B Q4_K_M から始めるのが現実的です。 24GB VRAM があれば、26B A4B Q4_K_M と 31B Q4_K_M がようやく使いやすい範囲に入ります。

Gemma 4 E2B VRAM表

E2B は最も軽量なバージョンで、ノートPC、ミニPC、モバイル端末、低VRAM環境でのテストに向いています。動かしやすい一方で、複雑な推論、コード生成、長いタスクの安定性には限界があります。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_M`	2.29GB	4GB	6GB	極限の低VRAMテスト
`UD-Q2_K_XL`	2.40GB	4GB	6GB	低VRAMでの可用性優先
`Q3_K_M`	2.54GB	4GB	6GB	軽いチャット、要約
`IQ4_XS`	2.98GB	6GB	8GB	品質とサイズのバランス
`Q4_K_M`	3.11GB	6GB	8GB	E2B の標準的なおすすめ
`Q5_K_M`	3.36GB	6GB	8GB	Q4 より少し安定
`Q6_K`	4.50GB	8GB	10GB	小型モデルで品質優先
`Q8_0`	5.05GB	8GB	10GB	軽量運用で原精度に近づけたい場合
`BF16`	9.31GB	12GB	16GB	デバッグ、比較、研究

日常的な体験なら E2B Q4_K_M で十分です。 4GB VRAM しかない場合は 2-bit や 3-bit も試せますが、出力品質は不安定になりやすくなります。

Gemma 4 E4B VRAM表

E4B は、より実用的な軽量版です。 E2B よりも日常的な文章作成、資料要約、軽いコード補助、ローカルアシスタント用途に向いています。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_M`	3.53GB	6GB	8GB	低VRAMテスト
`UD-Q2_K_XL`	3.74GB	6GB	8GB	低VRAMでの可用性優先
`Q3_K_M`	4.06GB	6GB	10GB	軽量ローカルアシスタント
`IQ4_XS`	4.72GB	8GB	12GB	品質と速度のバランス
`Q4_K_M`	4.98GB	8GB	12GB	E4B の標準的なおすすめ
`Q5_K_M`	5.48GB	8GB	12GB	より安定した日常利用
`Q6_K`	7.07GB	10GB	16GB	品質優先
`Q8_0`	8.19GB	12GB	16GB	原精度に近い実行
`BF16`	15.05GB	20GB	24GB	研究、評価、精度比較

8GB VRAM のGPUなら、E4B Q4_K_M が現実的な出発点です。 12GB または 16GB VRAM があるなら、E4B Q8_0 も候補になります。

Gemma 4 26B A4B VRAM表

26B A4B は MoE 版で、総パラメータ数は大きいものの、推論時には一部の専門家だけを有効化します。より複雑なQ&A、コード、ツール呼び出し、Agent ワークフローに向いています。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_M`	9.97GB	14GB	16GB	16GB GPUでの限界テスト
`UD-Q2_K_XL`	10.55GB	14GB	16GB	低VRAMで 26B を動かす
`UD-Q3_K_M`	12.53GB	16GB	20GB	品質を少し上げつつVRAM節約
`UD-IQ4_XS`	13.42GB	16GB	24GB	品質とサイズのバランス
`UD-Q4_K_M`	16.87GB	20GB	24GB	26B の標準的なおすすめ
`UD-Q5_K_M`	21.15GB	24GB	32GB	より高品質な量子化
`UD-Q6_K`	23.17GB	28GB	32GB	品質優先
`Q8_0`	26.86GB	32GB	40GB	原精度に近い実行
`BF16`	50.51GB	64GB	80GB	一般的な単体コンシューマーGPUでは非現実的

26B A4B を快適に使う分岐点は 24GB VRAM です。 16GB GPU でも低ビット版は試せますが、コンテキスト長、並列性、マルチモーダル入力は控えめにする必要があります。

Gemma 4 31B VRAM表

31B はより大きな dense モデルです。総合能力が高い一方で、VRAM負荷は 26B A4B より直接的に効いてきます。

量子化版	GGUF ファイルサイズ	最低VRAM	安全なVRAM目安	向く用途
`UD-IQ2_XXS`	8.53GB	12GB	16GB	極限低VRAMテスト、品質低下は大きい
`UD-IQ2_M`	10.75GB	14GB	18GB	低VRAMテスト
`UD-Q2_K_XL`	11.77GB	16GB	20GB	16GB GPUでの実験
`Q3_K_S`	13.21GB	16GB	24GB	VRAMを抑えた 3-bit
`Q3_K_M`	14.74GB	20GB	24GB	3-bit の一般的な折衷案
`IQ4_XS`	16.37GB	20GB	24GB	Q4 に近い折衷案
`Q4_K_M`	18.32GB	24GB	32GB	31B の標準的なおすすめ
`Q5_K_M`	21.66GB	28GB	32GB	より高品質な量子化
`Q6_K`	25.20GB	32GB	40GB	品質優先
`Q8_0`	32.64GB	40GB	48GB	原精度に近い実行
`BF16`	61.41GB	80GB	96GB	サーバーまたは大容量VRAMワークステーション

31B の低ビット版は 16GB GPU でも実験できますが、日常利用には 24GB VRAM から始めるのが無難です。 Q4_K_M はバランスのよい選択で、Q5_K_M 以上は 32GB 以上のVRAMでより現実的です。

実際の使用量がファイルサイズより増える理由

GGUF ファイルサイズは重みの大きさにすぎません。実行時には次のような追加コストがあります。

KV cache：コンテキストが長いほど使用量が増える。
バッチサイズと並列性：一度に処理する token やユーザー数が増えるとVRAMも増える。
マルチモーダル部品：画像、音声、動画入力では通常 mmproj や追加モジュールが必要。
ランタイムバックエンド：CUDA、Metal、ROCm、CPU/GPU 分割ロードで占用が変わる。
KV cache 量子化：q8_0、q4_0 などでVRAMを節約できるが、細部に影響する場合がある。

そのため、表の「最低VRAM」は「起動して短いコンテキストで動く」目安として見るべきです。 32K、64K、128K、さらに 256K コンテキストを使う場合、必要VRAMは大きく増えます。

どう選ぶか

ローカルで Gemma 4 を試したいだけなら：

4GB〜6GB VRAM：E2B Q3_K_M または E2B Q4_K_M。
8GB VRAM：まず E4B Q4_K_M。E2B Q8_0 も選択肢。
12GB VRAM：E4B Q8_0、または 26B/31B の低ビット版を試す。
16GB VRAM：26B A4B UD-Q3_K_M または 31B Q3_K_S を試せるが、長いコンテキストは期待しすぎない。
24GB VRAM：26B A4B UD-Q4_K_M と 31B Q4_K_M が本命。
32GB 以上：Q5_K_M、Q6_K、またはより長いコンテキストを検討。

多くのユーザーに BF16 は不要です。ローカル部署で重要なのは、ファイルサイズの大きさではなく、VRAM、速度、コンテキスト長、出力品質のバランスです。

参考元

Gemma 4 E4B の脱獄版と公式通常版の違い

Sat, 18 Apr 2026 10:20:00 +0800

HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive のようなモデルを見るときに一番重要なのは、これは Google が新しく出した別の Gemma 4 ではない という点です。公式の google/gemma-4-E4B-it をベースにした非公式派生版であり、主眼は「拒否応答を減らすこと」にあります。

つまり、通常版との本質的な差はモデル構造よりも アラインメント方針と応答スタイル にあります。

この派生版モデルカードが明示していること

Hugging Face のモデルカードでは、この HauhauCS 版について次のように書かれています。

google/gemma-4-E4B-it ベースである
「データセットや能力には変更がない」と主張している
違いは「拒否応答を外しただけ」と主張している
Aggressive 版は「完全に解放され、プロンプトを拒否しない」と説明している

これらは作者側の主張であり、独立した第三者評価ではありません。ただし、意図している方向性は明確です。これは「安全上の拒否を減らす」ことを狙った非公式派生版です。

公式版 vs いわゆる「脱獄版」

観点	公式 `google/gemma-4-E4B-it`	`Gemma-4-E4B-Uncensored-HauhauCS-Aggressive`
出所	Google 公式	Hugging Face 上の第三者派生版
ベースモデル	Gemma 4 E4B の instruction-tuned 版	同じモデル系統で、モデルカードにも `google/gemma-4-E4B-it` ベースと明記
主目的	汎用アシスタント能力 + Responsible AI 前提	拒否応答を減らし、とにかく出力を続ける
安全方針	Gemma 系列の安全文書・禁止用途ポリシーに沿う	拒否やガードレールを意図的に弱めている
応答傾向	敏感な要求では拒否・回避・慎重回答が増える	公式版なら止まる要求にもそのまま答えやすい
リスク	既定では比較的低いが、完全に安全という意味ではない	既定でより高リスク。不適切または非準拠の出力が出やすい
プロダクト適性	企業や公開サービスで説明しやすい	公開サービスやポリシー重視環境では扱いにくい
追加対策	アプリ側の安全対策は依然必要	モデル側の抑制が弱いため、下流側の安全対策がより重要

本質は「能力向上」より「挙動変更」

uncensored を「より高性能」と受け取るのは、たいてい正確ではありません。

こうした派生版で先に変わるのは次の点です。

どれだけ拒否するか
敏感な要求にどれだけ従うか
最終回答にどれだけ安全フィルタが残るか

一方で、名前に Uncensored と付いているからといって、次のものまで自動的に大きく向上するわけではありません。

モデルアーキテクチャ
コンテキスト長
マルチモーダル能力
推論能力の上限

より正確には、これは 同じモデル系列の中で挙動の調整が違う版 と見るべきであり、上位モデルとみなすべきではありません。

なぜ公式版のほうが保守的なのか

Google の Gemma 公式文書は、この系列を Responsible AI 開発の文脈で位置づけています。Gemma のモデルカードでは誤用、有害コンテンツ、プライバシー、バイアスといったリスクが明示されており、Gemma Prohibited Use Policy では Gemma または派生モデルを次の用途に使うことを禁じています。

危険・違法・悪意ある活動
有害、誤解を招く、欺瞞的なコンテンツ生成
安全フィルタの上書きや回避

つまり、公式版が保守的なのは偶然ではなく、文書・ライセンス・運用前提が最初からそう設計されているためです。

公式通常版が向いているケース

次の点を重視するなら、まずは公式 google/gemma-4-E4B-it のほうが適しています。

プロダクトへの組み込み
チーム利用
企業・公開向け運用
ポリシーや法務リスクの低減
出力挙動の説明可能性

多くの通常用途では、こちらが基本選択です。

あえて脱獄版を試す人がいる理由

こうした uncensored 派生版が選ばれるのは、たいてい次のような理由です。

ローカルでの私的実験
公式版が早すぎる拒否をしていないかの確認
ロールプレイや自由度の高い創作
アラインメント違いの比較

ただし、その分だけ安全責任はモデル提供者ではなく利用者側に移ります。

結論

Gemma 4 E4B のいわゆる「脱獄版」と公式通常版の最も大きな違いは次の通りです。

公式版は「ガードレール付きの実用性」を重視
脱獄版は「拒否を減らした出力継続性」を重視

これは 自動的に高性能になることを意味しません。主に より許容的になる だけです。

安定性、説明可能性、配備のしやすさを重視するなら、まず公式版を使うのが妥当です。ローカル実験目的で、安全性・コンプライアンス・出力リスクを自分で引き受けられる場合に限って、uncensored 派生版を「挙動違いの別バリアント」として比較するのが現実的です。

参考リンク

Hugging Face: HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive
Hugging Face: google/gemma-4-E4B-it
Google AI for Developers: Gemma Prohibited Use Policy
Google AI for Developers: Gemma model card

Windows で WSL + Ollama を使って Hermes Agent をローカル導入し、Telegram に接続する

Sat, 18 Apr 2026 00:48:22 +0800

Windows 上でできるだけ手軽に Hermes Agent を動かしたいなら、比較的やりやすい流れは次の通りです。

ホスト OS はそのまま Windows を使う
WSL 内で Ubuntu を動かす
Ollama でローカルモデルを提供する
Hermes Agent からローカル Ollama のエンドポイントへ直接つなぐ

この方法の利点は、環境を比較的きれいに保ちやすく、コマンドも Linux 方式でそろえやすいことです。別に Linux マシンを用意しなくても始められます。

全体の流れ

この構成は 4 ステップに分けられます。

WSL を有効化して Ubuntu を入れる
Ubuntu 内で Python、Node.js、Git などの基本環境を入れる
Ollama を入れてローカルモデルを取得する
Hermes Agent を入れ、Telegram を接続する

まず Hermes Agent を動かすことだけが目的なら、実質的には 3 ステップ目まででかなり近いところまで行けます。

1. WSL と Ubuntu をインストールする

管理者権限の PowerShell で次を実行します。

`1`	`wsl --install`

インストールが終わったら PC を再起動し、そのあと Ubuntu を入れます。

`1`	`wsl --install -d Ubuntu`

以降のコマンドは、WSL の Ubuntu 側で実行していきます。

2. Ubuntu を更新し、基本環境を入れる

まずシステムを更新します。

1
2

sudo apt update
sudo apt upgrade -y

そのあと Python、展開ツール、Node.js、Git を入れます。

Python をインストール

`1`	`sudo apt install python3-pip python3-venv -y`

zstd をインストール

`1`	`sudo apt install -y zstd`

Node.js をインストール

1
2

curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -
sudo apt install -y nodejs

Git をインストール

1
2

sudo apt update
sudo apt install -y git

入れ終わったら、軽く確認しておくと安心です。

1
2
3

node -v
npm -v
git --version

3. Ollama を入れて Gemma 4 を取得する

Ollama のインストール:

`1`	`curl -fsSL https://ollama.com/install.sh \| sh`

Hermes Agent 用にローカルモデルを用意するなら、まずは Gemma 4 から始めるのが無難です。

たとえば:

`1`	`ollama run gemma4:e4b`

もしマシンのリソースが弱ければ:

`1`	`ollama run gemma4:e2b`

より大きい版としては:

1
2

ollama run gemma4:26b
ollama run gemma4:31b

一般的な Windows + WSL 環境では、gemma4:e4b が現実的な出発点になりやすいです。

4. Hermes Agent をインストールして設定する

インストールコマンド:

`1`	`curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh \| bash`

インストール後、Ollama のローカルエンドポイントを指定します。

`1`	`http://127.0.0.1:11434`

モデル名には実際に使うものを入れます。たとえば:

`1`	`gemma4:e4b`

インストーラから shell の再読み込みを求められたら:

`1`	`source ~/.bashrc`

Hermes Agent のよく使うコマンド

普段よく使うのは次のあたりです。

起動

hermes

再設定

`1`	`hermes setup`

チャットゲートウェイ設定

`1`	`hermes setup gateway`

更新

`1`	`hermes update`

Telegram 接続の基本手順

Hermes Agent で Telegram の送受信をしたいなら、まずは次を実行します。

`1`	`hermes setup gateway`

そのうえで Telegram 側で次の 2 つを用意します。

BotFather で bot を作成する
@userinfobot で自分の User ID を確認する

これらを揃えたら、Hermes Agent のゲートウェイ設定に入力していきます。

この構成が向いている人

この方法は、次のような人に向いています。

メイン環境が Windows
別に Linux マシンを用意したくない
まずはローカル Agent を動かし、その後チャット連携を広げたい
できるだけクラウド API ではなくローカルモデルを使いたい

最初から本格的な本番環境を組むのではなく、まずローカルで Agent を試したい人には十分実用的です。

注意点

WSL はあくまで互換レイヤーなので、極端なケースではネイティブ Linux と完全に同じとは限りません
大きなモデルが快適に動くかどうかは、RAM、VRAM、CPU / GPU に依存します
gemma4:e4b は現実的な出発点ですが、最終的な体感はマシン性能次第です
Hermes Agent のチャット連携は拡張機能なので、まずローカルモデル経路を通してから Telegram を足すほうが安定しやすいです

まとめ

Windows 上でなるべく素直に Hermes Agent をローカル導入するなら、流れは次の順番がやりやすいです。

WSL -> Ubuntu -> Ollama -> Gemma 4 -> Hermes Agent -> Telegram

最初にローカルモデルを確実に動かし、そのあとでゲートウェイ接続を追加すると成功率が上がります。多くのユーザーにとって、最初から部品を積みすぎるよりもこのほうが切り分けしやすく、後から拡張もしやすいです。

元記事

この投稿は次のページをもとに整理・リライトしています。

X超哥博客：太简单了！Hermes Agent 本地部署（无需API）接入 Telegram + 微信

Windows で llama-cli から Hugging Face に直接アクセスすると SSL 証明書検証に失敗する場合の対処

Fri, 17 Apr 2026 14:20:29 +0800

Windows で次のコマンドを実行したとします。

`1`	`llama-cli -hf unsloth/gemma-4-E4B-it-GGUF`

そして、次のようなエラーが表示される場合があります。

1
2

get_repo_commit: error: HTTPLIB failed: SSL server verification failed
error: failed to download model from Hugging Face

この場合、問題は CUDA や llama.cpp 本体ではないことが多いです。多くの場合、現在の環境でプログラムがシステムの証明書チェーンを正しく参照できず、HTTPS の検証に失敗しています。

ログを見ると、ggml-rpc.dll と ggml-cpu-alderlake.dll は正常に読み込まれています。つまり、実行環境自体はおおむね利用可能で、問題は主にモデルのダウンロード段階にあります。

一番手軽な方法：先にモデルを手動ダウンロードする

とにかく早く動かしたい場合は、ローカルに手動でダウンロードする方法がもっとも安定しています。

対象の Hugging Face リポジトリページを開きます。
Files and versions から必要な .gguf ファイルをダウンロードします。
ダウンロード後、ローカルファイルのパスを指定して実行します。

`1`	`llama-cli -m C:\Users\knightli\Downloads\gemma-4-e4b-it.gguf`

この方法なら、-hf のダウンロード段階で発生する SSL 検証問題を回避できます。まずモデルが正常に推論できるか確認したい場合に向いています。

それでも `-hf` の自動ダウンロードを使いたい場合

証明書ファイルのパスを手動で指定し、現在のセッションで利用できる CA 証明書をプログラムに見つけさせます。

cacert.pem は curl 公式が管理している CA Extract ページから取得できます。

ページ：https://curl.se/docs/caextract.html
直接ダウンロード：https://curl.se/ca/cacert.pem

ブラウザでダウンロードする場合は、上の直接ダウンロード URL を開いて cacert.pem として保存します。PowerShell で固定ディレクトリにダウンロードすることもできます。

1
2

New-Item -ItemType Directory -Force C:\certs
Invoke-WebRequest -Uri https://curl.se/ca/cacert.pem -OutFile C:\certs\cacert.pem

ダウンロード後、コマンドラインで次のように設定します。

1
2

set SSL_CERT_FILE=C:\certs\cacert.pem
set CURL_CA_BUNDLE=C:\certs\cacert.pem

その後、元のコマンドをもう一度実行します。

`1`	`llama-cli -hf unsloth/gemma-4-E4B-it-GGUF`

問題の原因が証明書チェーンにある場合、この方法で解決できることが多いです。

Gemma-4-31B ではどういう意味ですか?

Sat, 11 Apr 2026 20:45:34 +0800

gemma-4-31B-it という名前の it は、「命令微調整」バージョンである Instruction Tuned の略称です。

ほとんどの人にとって、これは次のように理解できます。このモデルは、チャット、Q&A、コードの作成、および明示的なタスクの実行により適しています。

`it`とは

モデルには通常、次の 2 つの一般的なバージョンがあります。

基本/事前トレーニング済み: 元のテキスト予測子に近い基本モデル。
it: コマンドを微調整した後、「何をしてもらえますか?」などの入力をよりよく理解できるようになりました。

「これを翻訳してください」または「この Python コードを書いてください」と入力した場合、通常、it バージョンの方が安定しており、より会話的です。

`31B`とは

31B は、このモデルに約 310 億のパラメーターがあることを意味します。

一般的に言えば:

パラメーターの数が増えるほど、モデルの機能と知識の範囲が強化される傾向があります。
同時に、ビデオメモリやメモリの要件も高くなります。

そのため、31B は比較的大規模なモデルとなり、動作閾値が高くなります。

`Gemma-4` とはどういう意味ですか?

Gemma-4 はモデルシリーズと世代を表します。

Gemma: Google のオープンソースモデルシリーズ
4: シリーズの第 4 世代バージョン

選び方

チャット、Q&A、翻訳、またはコードの作成が目的の場合は、通常、-it を備えたバージョンが推奨されます。

下位レベルの調査、微調整、またはカスタムトレーニングタスクを実行している場合は、基本バージョンをチェックアウトする可能性が高くなります。

一文の要約

gemma-4-31B-it は、Gemma 4 シリーズ、310 億のパラメーター、ダイアログおよびコマンドタスクに適したバージョンとして直接理解できます。

Gemma 4 ローカル通話ガイド: ワンクリック実行から開発統合まで

Fri, 10 Apr 2026 22:54:17 +0800

Gemma 4 (2026 年に Google がリリースした新世代のオープンソースモデル) をローカルで呼び出したい場合は、ニーズに応じてこれら 4 種類のソリューションから選択できます。

1) 最も早く始める: Ollama (推奨)

これは最も障壁の低いアプローチであり、簡単なテスト、日常会話、ローカル API 呼び出しに適しています。

`1`	`ollama run gemma4`

特徴：

Win/Mac/Linux で利用可能
ハードウェアアクセラレーションを自動的に処理します
OpenAIスタイルに対応したネイティブAPIを提供

2) グラフィカルインターフェイス: LM Studio / Unsloth Studio

デスクトップ GUI (ChatGPT に似たもの) に慣れている場合は、これら 2 種類のツールの方が便利です。

LM Studio:Hugging Face で Gemma 4 量子化モデル (4 ビット、8 ビットなど) を直接検索してダウンロードし、リソースの使用状況を表示できます。
Unsloth Studio: 推論に加えて、低メモリ微調整もサポートしています。 6GB～8GBのビデオメモリを搭載したマシンにさらに優しい。

3) 低構成と究極の制御: llama.cpp

古いマシン、純粋な CPU シナリオ、または推論パラメーターを詳細に制御したいユーザーに適しています。

量子化バージョンで .gguf モデルファイルを使用すると、より低いハードウェアしきい値で Gemma 4 を実行できます。

4) 開発統合: Transformers/vLLM

Gemma 4 を独自のアプリケーションに統合したい場合:

Transformers: Python プロジェクトにモデルを直接ロードするのに適しています
vLLM: 高性能 GPU シナリオおよび高スループット推論サービスに適しています

クイック選択

需求	推荐工具	硬件门槛
我只想马上跑起来	Ollama	低（自动适配）
我更喜欢图形界面	LM Studio	中
显存很紧张（6GB-8GB）	Unsloth / llama.cpp	低
我要做本地 AI 应用开发	Ollama / Transformers / vLLM	中到高
我要做微调训练	Unsloth Studio	中到高

モデルの推奨サイズ

Gemma 4 はさまざまなサイズで利用できます (E2B、E4B、31B など)。

通常のオフィスのラップトップの場合は、定量化された E2B/E4B が推奨されます。
ビデオメモリに余裕がある場合は、より大きなバージョンを試してください。

Ollama ダウンロードモデルのプル速度が遅い場合のトラブルシューティングと解決策

Thu, 09 Apr 2026 10:42:39 +0800

ollama pull model_name:tag 一部の地域ではダウンロード速度が非常に遅くなり、プロセスが安定しません。

大きなモデルのダウンロード中に繰り返し中断が発生し、TLS handshake timeout または unexpected EOF のエラーメッセージが表示される場合は、おそらく registry.ollama.ai 自体だけでなく、その後にジャンプされる実際のダウンロードリンクに問題があると考えられます。

この記事では、シンプルかつ直接的なトラブルシューティングのアイデアを記録します。最初にモデルファイルの実際のダウンロードアドレスを取得し、次に最終的なトラフィックがどこに落ちるかを確認し、最後に主要なドメイン名に対してのみネットワークの最適化を実行します。

モデルファイルのダウンロードアドレスを取得する

次のプロジェクトを使用して、Ollama モデルに対応するマニフェストと BLOB のダウンロードアドレスを直接抽出できます。

https://github.com/Gholamrezadar/ollama-direct-downloader

gemma4:latest を例として、次のようなリンクを抽出できます。

マニフェストアドレス

`1`	`https://registry.ollama.ai/v2/library/gemma4/manifests/latest`

BLOB アドレス

https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11
https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2
https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:56380ca2ab89f1f68c283f4d50863c0bcab52ae3f1b9a88e4ab5617b176f71a3

すぐに確認したいだけの場合は、curl を直接使用してマニフェストと BLOB をダウンロードすることもできます。

curl -L "https://registry.ollama.ai/v2/library/gemma4/manifests/latest" -o "latest"
curl -L "https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11" -o "sha256-f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11"
curl -L "https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a" -o "sha256-4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a"
curl -L "https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2" -o "sha256-7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2"

ジャンプ後の実際のダウンロードアドレス

wget を使用して BLOB の 1 つをダウンロードしてみてください。リクエストは registry.ollama.ai にとどまらず、引き続き Cloudflare R2 オブジェクトストレージアドレスにジャンプしていることがわかります。

wget https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
--2026-04-09 09:22:04--  https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
Resolving registry.ollama.ai (registry.ollama.ai)... 104.21.75.227, 172.67.182.229, 2606:4700:3034::ac43:b6e5, ...
Connecting to registry.ollama.ai (registry.ollama.ai)|104.21.75.227|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com/ollama/docker/registry/v2/blobs/sha256/4c/4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a/data?... [following]
--2026-04-09 09:22:05--  https://dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com/ollama/docker/registry/v2/blobs/sha256/4c/4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a/data?...
Resolving dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com (dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com)... 172.64.66.1, 2606:4700:2ff9::1
Connecting to dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com|172.64.66.1|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 9608338848 (8.9G) [application/octet-stream]

ログからいくつかの重要な情報を確認できます。

registry.ollama.ai が 307 Temporary Redirect を返しました
最終的なダウンロードアドレスは *.r2.cloudflarestorage.com になります。
大きなファイルの送信を実際に実行しているのは、実際にはその背後にあるオブジェクトストレージドメイン名です。

この手順は、プロキシまたは転送ルールが registry.ollama.ai のみをカバーし、*.r2.cloudflarestorage.com を処理しない場合、ダウンロードが依然として遅くなるか、繰り返し中断される可能性があることを意味するため、重要です。

ネットワーク設定を調整する

実際のダウンロードリンクを確認すると、トラブルシューティングの方向性がより明確になります。

プロキシ、オフロード、またはカスタム DNS を使用している場合は、最初に次のことを確認することをお勧めします。

registry.ollama.ai と *.r2.cloudflarestorage.com は同じ安定したルートをたどりましたか?
プロキシルールは前者のみをカバーし、後者は除外しますか?
現在のエクスポートは、数ギガバイトから数十ギガバイトまでの大きなファイルを継続的にダウンロードするのに適していますか?

この種の問題の鍵は、「公式サイトが開設できるかどうか」ではなく、「ジャンプ後のオブジェクトストレージリンクが安定し、長時間送信し続けられるかどうか」である。多くの場合、本当に最適化する必要があるのは、以前のレジストリドメイン名ではなく、Cloudflare R2 レイヤーです。

調整前と調整後の比較

以下は、実際に gemma4:31b-it-q8_0 をダウンロードした場合のパフォーマンスです。

調整前はダウンロード速度が遅く、途中でエラーが報告されていました。

PS C:\Users\knightli> ollama run gemma4:31b-it-q8_0
pulling manifest
pulling a0feadb736f5:  38% ▕██████████████████████                                    ▏  12 GB/ 33 GB  1.2 MB/s   4h40m
Error: max retries exceeded: unexpected EOF

調整後、同じモデルを再度ダウンロードすると、速度と安定性が大幅に向上しました。

1
2
3

PS C:\Users\knightli> ollama run gemma4:31b-it-q8_0
pulling manifest
pulling a0feadb736f5:  46% ▕████████████████████████████████████████████████████████████████▏ 15 GB/ 33 GB  8.5 MB/s  35m23s

これは、すべてのネットワーク環境で同じ結果が得られるという意味ではありませんが、少なくとも 1 つの点を示しています。ボトルネックは Ollama クライアント自体ではなく、実際の大きなファイルのダウンロードリンクにある可能性が高いということです。

Gemma 4 を実行している Raspberry Pi 5 の実際のテスト: 実行可能ですが、応答が遅い

Wed, 08 Apr 2026 18:42:00 +0800

極端な試み: Raspberry Pi 5（8GB RAM） で Gemma 4 を実行します。目標は、大規模なモデルバージョンではなく、E2B の最小バージョンです。

結論から始めましょう。実行して使用することはできますが、対話頻度の低いシナリオに適しており、リアルタイム要件の高い対話エクスペリエンスには適していません。

テスト環境

デバイス: Raspberry Pi 5 (4コアCPU、8GB RAM)
システム: Ubuntu サーバー (グラフィカルインターフェイスなし)
アクセス方法：SSH
モデルの実行方法: LM Studio CLI (コマンドラインモードのみ)
モデル：Gemma 4 E2B (約4.5GB)

ステップ 1: LM Studio CLI をインストールして起動する

LM Studio の CLI バージョンをインストールし、サービスを開始して、使用可能なコマンドを確認します。

これは純粋なコマンドライン環境であるため、このコマンドラインのみの展開方法は Raspberry Pi に非常に適しています。

ステップ 2: モデルのストレージを SSD に切り替える

SDカードの頻繁な読み書きを避けるため、モデルのダウンロードディレクトリを外付けSSDに変更しました。

SSD を Raspberry Pi 5 に接続する体験は、明らかに以前のモデルよりも実用的です。長期的なローカルモデルでは、最初に SSD を使用することをお勧めします。

ステップ 3: Gemma 4 E2B をダウンロードしてロードする

ダウンロードが完了すると、モデルをメモリに正常にロードできるようになります。

公式情報によると、Gemma 4 シリーズには次の機能があります。

エージェントシナリオのツール呼び出し機能 (関数呼び出し)
マルチモーダル機能 (画像/ビデオを含む。小型モデルには音声関連機能もある)
128K コンテキストウィンドウ
Apache 2.0 ライセンス (商用利用可能)

Raspberry Pi のハードウェア条件から判断すると、最初に試すには E2B レベルの方が適しています。

ステップ 4: API を開始して LAN アクセスを開く

モデルがロードされた後、まずローカルポートで API (4000) を開始し、HTTP リクエストを通じてモデルリストが返されることを確認します。

問題は、デフォルトではこのマシンのみを監視し、LAN 上の他のデバイスは直接アクセスできないことです。

起動パラメータでホストを直接設定できないため、ポート転送に socat を使用して、Raspberry Pi の外部ポート要求を LM Studio の内部ポートにブリッジし、LAN アクセスを実現しました。

結果はうまくいきました。同じ LAN 上の MacBook 上のモデルのリストを正常にリクエストして取得することができました。

ステップ 5: エディター (Zed) にアクセスします。

LM Studio のローカルサービスは OpenAI API フォームと互換性があるため、カスタム base_url をサポートするほとんどのツールに直接アクセスできます。

Raspberry Pi 上の Gemma 4 インスタンスを指す新しい LLM プロバイダーを Zed に追加したところ、エディターでのチャットテストに合格しました。

実際の使用感の判断

このパッケージは次の用途に適しています。

ローカルオートメーションスクリプト
同時実行性とリアルタイム要件が低い補助タスク
個人学習とエッジデバイスの実験

以下にはあまり適していません:

高頻度の対話型チャット
応答遅延の影響を受けやすい開発コラボレーションシナリオ

結論は

Gemma 4 (E2B) を Raspberry Pi 5 で実行することは実現可能で、予想よりもうまく機能します。

オフラインで実行し、ツールを入手し、軽度および中度のタスクを完了できるようにすることが目標である場合、このルートは試してみる価値があります。スムーズなリアルタイムインタラクションが目標の場合でも、より強力なハードウェアを入手することをお勧めします。

OpenClaw とローカル Gemma 4 のドッキング: 完全な構成ガイド

Wed, 08 Apr 2026 18:18:00 +0800

この記事では、OpenClaw をローカル Gemma 4 モデル (Ollama を通じて提供されるインターフェイス) に接続する方法を説明します。

ローカル展開が完了していない場合は、以下を参照してください。

如何在笔记本电脑上运行 Gemma 4：5 分钟本地部署指南

ステップ 1: Ollama API サービスを開始する

まず Ollama サービスを開始します。

`1`	`ollama serve`

次のコマンドを使用して、API が適切に動作しているかどうかを簡単にテストできます。

curl http://localhost:11434/api/generate -d '{
  "model": "gemma4:12b",
  "prompt": "你好"
}'

モデル出力を返すことができる場合は、ローカル API が使用可能です。

ステップ 2: Ollama に接続するように OpenClaw を構成する

OpenClaw 構成ファイルのパスは通常次のとおりです。

`1`	`~/.openclaw/config.yaml`

config.yaml を編集し、ローカルモデルエントリを models に追加します。

models:
  # 你已有的模型配置...

  gemma4-local:
    provider: ollama
    base_url: http://localhost:11434
    model: gemma4:12b
    timeout: 120s

ステップ 3: デフォルトのモデルを設定する (オプション)

Gemma 4 をデフォルトで使用する場合は、以下を追加できます。

`1`	`default_model: gemma4-local`

ステップ 4: OpenClaw を再起動して確認する

OpenClaw を再起動します。

`1`	`openclaw restart`

モデルのリストを表示します。

`1`	`openclaw models list`

会話テストを開始します。

`1`	`openclaw chat --model gemma4-local "你好"`

ダイアログが正常に戻った場合、OpenClaw はローカル Gemma 4 に正常に接続されています。

一般的なトラブルシューティング

connection refused: まず、ollama serve が実行されているかどうかを確認します。
モデルが見つかりません: モデル名が ollama list (たとえば、gemma4:12b) と一致しているかどうかを確認します。
応答タイムアウト: timeout は適切に増やすことができ、小さいモデルを最初にテストする必要があります。

ラップトップで Gemma 4 を実行する方法: 5 分間のローカル導入ガイド

Wed, 08 Apr 2026 18:06:00 +0800

Gemma 4 をラップトップ上でローカルに実行したい場合、現時点では Ollama が最も手間のかからない方法の 1 つです。複雑な環境をいじらなくても、通常は 5 分程度で実行できます。

ステップ 1: Ollama をインストールする

https://ollama.com を開き、対応するシステムのインストールパッケージをダウンロードします。
システムごとにインストールを完了します。

macOS: Applications にドラッグします。
Windows: .exe インストーラーを実行します。
Linux: 公式 Web サイトで提供されているインストールスクリプトを使用します。

インストールすると、Ollama はバックグラウンドサービスとして実行されます。初期インストールを除き、毎日簡単なコマンドのみを使用できます。

ステップ 2: Gemma 4 モデルをダウンロードする

ターミナルを開いて次を実行します。

`1`	`ollama pull gemma4:4b`

マシンのパフォーマンスが高い場合は、12b または 27b に変更できます。ダウンロードが完了すると、モデルはローカルに保存されます。

ダウンロードしたモデルを表示します。

`1`	`ollama list`

ステップ 3: モデルを起動する

`1`	`ollama run gemma4:4b`

これにより、ターミナルで対話型セッションが開きます。質問を入力して Enter キーを押すだけです。セッションを終了するには、次のように入力します。

/bye

Web チャットインターフェイスを希望する場合は、Open WebUI とともに使用できます。 Ollama をブラウザ側 UI にラップできます。これは通常、Docker を通じて数分で構成できます。

ラップトップのパフォーマンス最適化に関する提案

Apple Silicon (M2/M3/M4): デフォルトでは金属が使用されており、通常、加速効果は非常に優れています。 12B も良い経験をしています。
NVIDIA グラフィックスカード: 互換性のある GPU が検出されると、CUDA が自動的に使用されます。事前にドライバーをアップデートすることをお勧めします。
CPU のみの推論: 実行できますが、大規模なモデルは大幅に遅くなります。ほとんどの CPU のみのシナリオでは、4B を優先することをお勧めします。
メモリを解放する: 大きなモデルをロードする前に、メモリを消費するアプリケーションを閉じるようにしてください。経験則として、10 億パラメータごとに約 0.5GB 到 1GB のメモリが必要です。

モデルの選び方

Gemma 4 1B: 軽量の Q&A、基本的な要約、および高速なクエリに適しています。複雑な推論能力には限界があります。
Gemma 4 4B: 速度と品質のバランスが取れており、ほとんどの日常タスク (書き込み支援、コード支援、データ要約) に適しています。
Gemma 4 12B: より長いコンテキストとより複雑なタスクに適しており、コーディングと推論のシナリオでより安定しています。
Gemma 4 27B: 需要の高いタスクに適しており、効果はクラウド大規模モデルに近いですが、ハードウェア要件は大幅に高くなります。

Android での Gemma 4 のインストールと実行: 開始するための完全なガイド

Wed, 08 Apr 2026 17:55:53 +0800

携帯電話で Gemma 4 をオフラインで体験したい場合は、この記事でインストールから実際の機能までを段階的に説明します。

ステップ 1: アプリを入手する

Google AI Edge Gallery は現在 Google Play では利用できないため、APK サイドローディング経由でインストールする必要があります。

Android デバイスで次のように入力します。

设置 -> 应用 -> 特殊应用权限 -> 安装未知应用

それから：

使用しているブラウザ (Chrome や Firefox など) を見つけて、[このソースからの許可] をオンにします。
モバイルブラウザで Google AI Edge Gallery の GitHub リリースページを開きます。

アドレス: https://github.com/google-ai-edge/gallery/releases

最新の .apk インストールパッケージをダウンロードします。
ダウンロードが完了したら、通知バーまたはファイルマネージャーでインストールパッケージをクリックし、プロンプトに従ってインストールを完了します。

ネットワークが正常な場合、この手順は通常、完了するまでに約 2 分かかります。

ステップ 2: 初めて開いて認証する

AI Edge Gallery を初めて開くと、アプリケーションはモデルファイルを保存するためのストレージアクセス許可を要求します。直接許可することをお勧めします。許可しない場合、アプリケーションはモデルをダウンロードまたはロードできません。

通常、ホームページには次の入り口が表示されます。

Ask Image: 画像理解タスク (画像の説明、画像に関する質問に答える)
AI Chat: 通常のテキスト会話
Summarize: テキストを貼り付けて概要を生成します
Smart Reply: 返信候補の生成

ほとんどのユーザーが最もよく使用するのは AI Chat です。

ステップ 3: Gemma 4 モデルをダウンロードする

「AI Chat」と入力します。
プロンプトに従って「Get Models」をクリックします。
モデルリストで Gemma 4 バージョンを選択します (対応するボリュームが表示されます)。
デバイスの性能に応じてモデルを選択します。電話機が 8GB RAM の場合は、最初に Gemma 4 4B から開始できます。
Download をクリックすると、バックグラウンドでダウンロードが開始されます。

注: モデルが大きいほど、ダウンロード時間は長くなります。複数のモデルをダウンロードし、必要に応じて後で切り替えることもできます。ダウンロードしたモデルはローカルに保存されるため、再度ダウンロードする必要はありません。

ステップ 4: 会話を開始する

モデルのダウンロードが完了したら、次のようにします。

モデル名をクリックしてロードします (モデルのサイズとデバイスの機能に応じて、最初のロードには通常 10 ～ 30 秒かかります)。
チャットボックスに質問を入力して送信してください。
モデルはローカルで応答を生成し、データはクラウドにアップロードされません。

一般に、最初の応答はわずかに遅くなりますが、これはモデルがウォームアップするときの正常な現象です。通常、同じセッション内での後続の応答はより速くなります。

ステップ 5: ビジュアル機能を体験する (Gemma 4 マルチモーダル)

Gemma 4 マルチモーダルバージョンをダウンロードした場合:

メインメニューに戻り、「Ask Image」と入力します。
写真を選択するか、直接写真を撮ります。
尋ねたい質問を入力します (たとえば、「この写真には何が写っていますか?」または「この写真のどのテキストに注意を払う必要がありますか?」)。
モデルがローカルで分析され、結果が返されるまで待ちます。

この機能はオフラインで動作し、画像コンテンツは外部サーバーに送信されません。

Google Gemma 4 モデル比較: 2B/4B/26B/31B 選び方は?

Sun, 05 Apr 2026 08:30:00 +0800

Gemma 4 は、多模态 と 本地离线运行 に焦点を当てており、軽量エンドから高性能エンドまでの完全なモデルグラデーションを提供します。ほとんどのローカル展開ユーザーにとって重要なのは、「最大のものを選択する」ことではなく、「ハードウェアとタスクに最適なバージョンを選択する」ことです。

Gemma 4 モデルの比較

次の表は、選択を簡単に参照できるようにしたものです。具体的なパフォーマンスとリソースの使用状況については、実際の展開環境のテストを参照してください。

模型	参数规模	定位	主要优势	主要限制	推荐场景
Gemma 4 2B	20 亿	超轻量	延迟低、资源占用小、部署门槛最低	复杂推理与长链路任务能力有限	移动端、IoT、轻量问答、简单自动化
Gemma 4 4B	40 亿	轻量增强	比 2B 更稳的理解与生成能力，仍易本地部署	高强度编码/复杂 Agent 任务上限有限	本地助手、基础文档处理、多语言日常任务
Gemma 4 26B	260 亿	高性能（专家混合）	推理和工具调用能力明显提升，适合生产工作流	显存需求显著上升，硬件门槛更高	编程助手、复杂工作流、企业内部 Agent
Gemma 4 31B	310 亿	高性能（稠密）	综合能力最强，复杂任务稳定性更好	资源消耗最高，部署与调优成本最大	高要求推理、复杂代码任务、重度自动化

選択方法: ハードウェアとタスクから逆算して考える

「走れるかどうか、スムーズに走れるかどうか」を主に見る場合は以下から選べます。

8GB ビデオメモリ: 優先順位 2B/4B。
12GB ビデオメモリ: 4B 以降のモデルの量子化バージョンを優先します。
24GB ビデオメモリ: 26B に焦点を当て、タスクに従って 31B の量子化バージョンを評価できます。
より高いグラフィックスメモリまたは複数のカード: 31B の高精度構成を試すことができます。

安定性と推論速度の確保を優先し、徐々にモデル規模を大きくしていくことをお勧めします。

4 つの典型的な使用シナリオ

1) 現地の一般アシスタント

優先モデル: 4B
理由：コストと効果のバランスが良く、長期の永続運用に適しています。

2) コードと自動化

優先モデル: 26B
理由: 複数ステップのタスク、ツール呼び出し、およびスクリプト生成においてより安定しています。

3) 難易度の高い推理と複雑なエージェント

優先モデル: 31B
理由: 複雑なコンテキスト下での安定性が向上し、フォールトトレランスが向上します。

4) エッジデバイスと軽量オフライン

優先モデル: 2B
理由: リソースに制約のあるデバイスに実装するのが最も簡単です。

導入に関する推奨事項 (Ollama オリエンテーション)

最も現実的な方法は、「小さなステップで素早く実行する」ことです。

まず、4B を使用して、実行可能なベースライン (速度、メモリ、エフェクト) を確立します。
実際のタスクの固定テストセットを作成します (例: 20 の FAQ + 10 の自動タスク)。
次に、26B/31B にアップグレードして、精度、遅延、メモリコストを比較します。
「メリットが明らかな」場合にのみ、大型モデルをアップグレードしてください。

これにより、最初から大きなパラメータを追求し、遅延、低スループット、複雑なメンテナンスなどの問題が発生することを回避できます。

結論は

Gemma 4 の真の価値は、単に「より大きなパラメーター」ではなく、軽量から高性能までの実装可能なグラデーションの完全なセットです。

低コストで迅速にオンラインに接続したい場合は、2B/4B から始めてください。
ローカル AI を本番プロセスに真に統合したい場合は、26B を優先してください。
複雑な推論と高度な自動化に取り組みたい場合は、31B をもう一度試してください。

Gemma 4 に最適な選択は、通常、パラメータが最大のバージョンではなく、ハードウェアの条件とミッションの目標に最もよく一致するバージョンです。