Gemma 4 on KnightLi的博客

本地部署 Gemma 4：E2B、E4B、26B、31B 各量化版本需要多少顯存

Fri, 01 May 2026 11:42:34 +0800

Gemma 4 現在主要有四個本地部署尺寸：E2B、E4B、26B A4B 和 31B。其中 E2B、E4B 面向輕量和邊緣裝置，26B A4B 是 MoE 架構，31B 是更大的稠密模型。

本地執行時，最容易混淆的是兩個數字：

GGUF 檔案體積：模型權重檔案本身有多大。
實際顯存占用：模型權重、KV cache、執行時開銷、上下文長度、是否載入多模態投影檔共同決定。

下面的表格按 GGUF 檔案體積估算顯存需求。預設假設是 llama.cpp、LM Studio、Ollama 這類本地推理場景，主要跑文字，使用中短上下文。如果要開長上下文、視覺/音訊輸入、並發請求，顯存要繼續往上留餘量。

先看結論

顯存	比較合適的選擇	不建議硬上
4GB	E2B 的低位元量化	E4B 以上
6GB	E2B Q4/Q5，E4B 低位元量化	26B、31B
8GB	E2B Q8，E4B Q4/Q5	26B Q4、31B Q4
12GB	E4B Q8，26B/31B 的 2-bit/3-bit 低品質嘗試	26B Q4 長上下文、31B Q4
16GB	26B 低位元量化，31B 低位元量化	31B Q4 長上下文、26B Q5 以上
24GB	26B Q4/Q5，31B Q4	31B Q8、BF16
32GB	26B Q6/Q8，31B Q5/Q6	BF16
48GB	31B Q8 更從容，26B Q8 長上下文	31B BF16
80GB+	26B/31B BF16	普通消費卡單卡部署

如果只是想本地可用，優先從 E4B Q4_K_M 或 E2B Q4_K_M 開始。如果有 24GB 顯存，26B A4B Q4_K_M 和 31B Q4_K_M 才開始進入比較舒服的範圍。

Gemma 4 E2B 顯存表

E2B 是最輕量的版本，適合筆電、迷你主機、行動端和低顯存測試。它的優勢是容易跑，缺點是複雜推理、程式碼和長任務穩定性有限。

量化版本	GGUF 檔案體積	最低顯存	更穩妥顯存	適合場景
`UD-IQ2_M`	2.29GB	4GB	6GB	極限低顯存測試
`UD-Q2_K_XL`	2.40GB	4GB	6GB	低顯存可用性優先
`Q3_K_M`	2.54GB	4GB	6GB	輕量聊天、摘要
`IQ4_XS`	2.98GB	6GB	8GB	品質和體積折中
`Q4_K_M`	3.11GB	6GB	8GB	E2B 常用推薦
`Q5_K_M`	3.36GB	6GB	8GB	比 Q4 更穩一點
`Q6_K`	4.50GB	8GB	10GB	小模型高品質量化
`Q8_0`	5.05GB	8GB	10GB	接近原始精度的輕量部署
`BF16`	9.31GB	12GB	16GB	除錯、對比、研究

E2B 的 Q4_K_M 已經夠日常體驗。如果只有 4GB 顯存，可以嘗試 2-bit 或 3-bit，但輸出品質會更容易波動。

Gemma 4 E4B 顯存表

E4B 是更實用的輕量版本。它比 E2B 更適合日常寫作、資料總結、輕量程式碼輔助和本地助手。

量化版本	GGUF 檔案體積	最低顯存	更穩妥顯存	適合場景
`UD-IQ2_M`	3.53GB	6GB	8GB	低顯存嘗試
`UD-Q2_K_XL`	3.74GB	6GB	8GB	低顯存可用性優先
`Q3_K_M`	4.06GB	6GB	10GB	輕量本地助手
`IQ4_XS`	4.72GB	8GB	12GB	品質和速度折中
`Q4_K_M`	4.98GB	8GB	12GB	E4B 常用推薦
`Q5_K_M`	5.48GB	8GB	12GB	更穩的日常使用
`Q6_K`	7.07GB	10GB	16GB	品質優先
`Q8_0`	8.19GB	12GB	16GB	接近原始精度
`BF16`	15.05GB	20GB	24GB	研究、評測、精度對比

如果你的顯卡是 8GB，E4B Q4_K_M 是很現實的起點。如果是 12GB 或 16GB，E4B Q8_0 也可以考慮。

Gemma 4 26B A4B 顯存表

26B A4B 是 MoE 版本，參數規模更大，但每次推理只啟用其中一部分專家。它適合更複雜的問答、程式碼、工具呼叫和 Agent 工作流。

量化版本	GGUF 檔案體積	最低顯存	更穩妥顯存	適合場景
`UD-IQ2_M`	9.97GB	14GB	16GB	16GB 顯卡極限嘗試
`UD-Q2_K_XL`	10.55GB	14GB	16GB	低顯存跑 26B
`UD-Q3_K_M`	12.53GB	16GB	20GB	品質略好，仍偏省顯存
`UD-IQ4_XS`	13.42GB	16GB	24GB	品質和體積折中
`UD-Q4_K_M`	16.87GB	20GB	24GB	26B 常用推薦
`UD-Q5_K_M`	21.15GB	24GB	32GB	更穩的高品質量化
`UD-Q6_K`	23.17GB	28GB	32GB	品質優先
`Q8_0`	26.86GB	32GB	40GB	接近原始精度
`BF16`	50.51GB	64GB	80GB	單卡消費級不現實

24GB 顯存是 26B A4B 比較舒服的分界線。 16GB 顯卡可以嘗試低位元版本，但上下文長度、並發和多模態都要收斂。

Gemma 4 31B 顯存表

31B 是更大的稠密模型。它的優點是綜合能力更強，缺點是顯存壓力比 26B A4B 更直接。

量化版本	GGUF 檔案體積	最低顯存	更穩妥顯存	適合場景
`UD-IQ2_XXS`	8.53GB	12GB	16GB	極限低顯存嘗試，品質犧牲明顯
`UD-IQ2_M`	10.75GB	14GB	18GB	低顯存嘗試
`UD-Q2_K_XL`	11.77GB	16GB	20GB	16GB 顯卡可嘗試
`Q3_K_S`	13.21GB	16GB	24GB	更省顯存的 3-bit
`Q3_K_M`	14.74GB	20GB	24GB	3-bit 常用折中
`IQ4_XS`	16.37GB	20GB	24GB	接近 Q4 的折中
`Q4_K_M`	18.32GB	24GB	32GB	31B 常用推薦
`Q5_K_M`	21.66GB	28GB	32GB	更穩的高品質量化
`Q6_K`	25.20GB	32GB	40GB	品質優先
`Q8_0`	32.64GB	40GB	48GB	接近原始精度
`BF16`	61.41GB	80GB	96GB	伺服器或大顯存工作站

31B 的低位元版本可以在 16GB 顯卡上做實驗，但如果想日常使用，最好從 24GB 顯存起步。 Q4_K_M 是比較平衡的選擇，Q5_K_M 往上更適合 32GB 以上顯存。

為什麼實際占用會比檔案體積更高

GGUF 檔案體積只是權重大小。真正執行時還會增加這些開銷：

KV cache：上下文越長，占用越高。
批次大小和並發：一次處理更多 token 或多使用者並發，會增加顯存。
多模態組件：圖片、音訊、影片輸入通常還要載入 mmproj 或額外處理模組。
執行時後端：CUDA、Metal、ROCm、CPU/GPU 分層載入的占用不同。
KV cache 量化：開啟 q8_0、q4_0 等 KV cache 量化可以省顯存，但可能影響細節。

所以表格裡的「最低顯存」只能理解為「能啟動並短上下文執行」的門檻。如果你要 32K、64K、128K 甚至 256K 上下文，顯存需求會明顯增加。

怎麼選

如果只是想在本地體驗 Gemma 4：

4GB 到 6GB 顯存：選 E2B Q3_K_M 或 E2B Q4_K_M。
8GB 顯存：優先選 E4B Q4_K_M，也可以跑 E2B Q8_0。
12GB 顯存：選 E4B Q8_0，或者嘗試 26B/31B 的低位元版本。
16GB 顯存：可以嘗試 26B A4B UD-Q3_K_M 或 31B Q3_K_S，但不要期待長上下文很舒服。
24GB 顯存：26B A4B UD-Q4_K_M 和 31B Q4_K_M 是重點選擇。
32GB 以上：可以考慮 Q5_K_M、Q6_K，或者更長上下文。

一般使用者不需要追 BF16。本地部署的重點不是檔案越大越好，而是在顯存、速度、上下文和輸出品質之間找到平衡。

參考來源

Gemma 4 E4B 越獄版和官方普通版有什麼差別

Sat, 18 Apr 2026 10:20:00 +0800

如果你看到 HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive 這種模型，最關鍵的一點是：它不是 Google 新發的另一套 Gemma 4，而是建立在官方 google/gemma-4-E4B-it 之上的非官方衍生版本，重點是把模型行為調到「更少拒答」。

所以它和普通版真正拉開的，通常不是底層架構，而是對齊策略與輸出風格。

這個衍生版模型卡自己怎麼說

Hugging Face 模型卡裡，這個 HauhauCS 版本明確寫了幾件事：

它基於 google/gemma-4-E4B-it
它聲稱「沒有改資料集或能力」
它聲稱變化只是「去掉拒答」
Aggressive 版本被描述為「完全解鎖，不會拒絕提示詞」

這些是作者自己的說法，不是第三方獨立測評。但從定位來看已經很清楚：這就是一個以「減少安全拒答」為目標的非官方衍生版。

官方版 vs 所謂「越獄版」

維度	官方 `google/gemma-4-E4B-it`	`Gemma-4-E4B-Uncensored-HauhauCS-Aggressive`
來源	Google 官方發布	Hugging Face 第三方衍生版
基礎模型	Gemma 4 E4B 指令微調版	同一模型家族，且模型卡明確寫明基於 `google/gemma-4-E4B-it`
核心目標	通用助理能力 + 負責任使用框架	盡量減少拒答，讓模型繼續輸出
安全取向	與 Gemma 家族的安全文件、禁止用途政策一致	明確削弱拒答與護欄行為
回答風格	更可能拒絕、轉向或保守回答敏感請求	更可能直接繼續回答原本會被擋下的問題
風險水位	預設風險較低，但仍不代表絕對安全	預設風險更高，更容易輸出不安全或不合規內容
用於產品/團隊	更容易通過評審與落地	更難用於公開產品、企業環境或合規場景
額外防護需求	仍需要應用層防護	更依賴你自己做額外審核、過濾與限制

核心差異是「對齊方式」變了，不是「能力等級」突然提高

很多人會把 uncensored 理解成「更強」，這通常不是精準的判斷。

對這種衍生版來說，最先變的是：

拒答頻率
對敏感請求的服從程度
最終答案裡還剩多少安全過濾

而不會因為名稱裡寫了 Uncensored，就自動代表下面這些一起升級：

模型架構突然更強
上下文視窗突然更大
多模態能力突然更完整
推理上限顯著更高

更準確的理解是：它通常只是同一模型家族裡，行為調校不同的一版，而不是更高階的新模型。

為什麼官方普通版會更保守

Google 的 Gemma 官方資料一直把這個系列放在「負責任 AI 開發」的框架裡。Gemma 模型卡會明確談到誤用、有害內容、隱私與偏見等風險；Gemma Prohibited Use Policy 也明確禁止把 Gemma 或其衍生模型用於：

危險、違法或惡意活動
生成有害、誤導、欺騙性內容
覆蓋或繞過安全過濾

所以官方版不是「剛好比較保守」，而是從文件、授權與部署定位上，本來就那樣設計。

什麼情況下普通版更適合

如果你更在意下面這些，優先用官方 google/gemma-4-E4B-it：

產品部署
團隊協作
企業或對外場景
較低的政策與法律風險
更容易解釋與審查的輸出行為

對大多數正常應用來說，這通常才是預設選項。

什麼情況下有人會去試越獄版

選這類 uncensored 衍生版的人，常見目的通常是：

本地私人實驗
測試官方版是否「太早拒答」
角色扮演或更開放的創作場景
比較不同對齊版本的行為差異

但對應的代價也很明確：模型提供方少做的那部分安全約束，需要你自己補回來。

結論

所謂 Gemma 4 E4B「越獄版」和官方普通版，最本質的差異其實是：

官方版追求的是「有護欄的可用能力」
越獄版追求的是「更少拒答的可輸出性」

它不自動等於更強，更多只是更放開。

如果你的目標是穩定、可解釋、適合部署，先用官方版更合理。
如果你的目標是本地實驗，而且你清楚知道安全、合規與輸出風險都要自己承擔，那這類 uncensored 衍生版可以當成「行為差異版本」來測試，但不應該直接理解成普通版的全面升級替代品。

參考來源

Hugging Face: HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive
Hugging Face: google/gemma-4-E4B-it
Google AI for Developers: Gemma Prohibited Use Policy
Google AI for Developers: Gemma model card

Windows 用 WSL + Ollama 本地部署 Hermes Agent，並接入 Telegram

Sat, 18 Apr 2026 00:48:22 +0800

如果你想在 Windows 上盡量低門檻地跑 Hermes Agent，一個比較順手的路徑是：

宿主系統繼續用 Windows
在 WSL 裡跑 Ubuntu
用 Ollama 提供本地模型
讓 Hermes Agent 直接連接本地 Ollama 介面

這樣做的好處是環境相對乾淨，命令大多按 Linux 方式執行，同時又不需要單獨準備一台 Linux 機器。

整體流程

這套部署可以拆成 4 步：

啟用 WSL 並安裝 Ubuntu
在 Ubuntu 裡補齊 Python、Node.js、Git 等執行環境
安裝 Ollama 並拉取本地模型
安裝 Hermes Agent，再接入 Telegram

如果你只想先把 Hermes Agent 跑起來，其實做到第 3 步就已經很接近完成了。

1. 安裝 WSL 和 Ubuntu

在管理員權限的 PowerShell 裡執行：

`1`	`wsl --install`

安裝完成後重新啟動電腦，然後繼續安裝 Ubuntu：

`1`	`wsl --install -d Ubuntu`

之後打開 WSL 裡的 Ubuntu，後續命令基本都在這裡執行。

2. 更新 Ubuntu，並安裝基礎環境

先更新系統：

1
2

sudo apt update
sudo apt upgrade -y

然後安裝 Python、解壓工具、Node.js 和 Git。

安裝 Python

`1`	`sudo apt install python3-pip python3-venv -y`

安裝 zstd

`1`	`sudo apt install -y zstd`

安裝 Node.js

1
2

curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -
sudo apt install -y nodejs

安裝 Git

1
2

sudo apt update
sudo apt install -y git

安裝完成後可以順手檢查一下：

1
2
3

node -v
npm -v
git --version

3. 安裝 Ollama，並拉取 Gemma 4

安裝 Ollama：

`1`	`curl -fsSL https://ollama.com/install.sh \| sh`

如果你打算給 Hermes Agent 配一個本地模型，可以直接從 Gemma 4 開始。

例如：

`1`	`ollama run gemma4:e4b`

如果機器資源更弱，也可以試：

`1`	`ollama run gemma4:e2b`

更大的版本還有：

1
2

ollama run gemma4:26b
ollama run gemma4:31b

對大多數 Windows + WSL 的普通機器來說，gemma4:e4b 通常是更實際的起點。

4. 安裝並配置 Hermes Agent

安裝命令：

`1`	`curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh \| bash`

安裝完成後，給它指定 Ollama 的本地介面：

`1`	`http://127.0.0.1:11434`

模型名填你本地實際在用的那個，例如：

`1`	`gemma4:e4b`

如果安裝腳本要求刷新 shell，可以執行：

`1`	`source ~/.bashrc`

Hermes Agent 常用命令

平時最常用的是下面幾個：

啟動

hermes

重新進入配置

`1`	`hermes setup`

配置聊天平台閘道

`1`	`hermes setup gateway`

更新

`1`	`hermes update`

接入 Telegram 的基礎步驟

如果你要讓 Hermes Agent 透過 Telegram 收發訊息，核心還是先跑一遍：

`1`	`hermes setup gateway`

然後準備 Telegram 端需要的兩個東西：

用 BotFather 建立機器人
用 @userinfobot 取得你的 User ID

拿到這些基礎資訊後，再按 Hermes Agent 的閘道配置繼續填入即可。

這套方案適合什麼人

這套方式比較適合下面幾類使用者：

平時主力系統就是 Windows
不想單獨折騰完整 Linux 主機
想先把本地 Agent 跑通，再慢慢擴展聊天平台接入
希望優先用本地模型，不依賴雲端 API

如果你只是想本地體驗一個 Agent，而不是一開始就做複雜生產部署，這條路線已經足夠實用。

需要注意的幾個點

WSL 本質上還是一層相容環境，極端場景下穩定性未必和原生 Linux 完全一樣
大模型能不能跑得順，最終還是取決於你的記憶體、顯存和 CPU / GPU 條件
gemma4:e4b 雖然是比較現實的起點，但具體體驗還是要看機器配置
Hermes Agent 的聊天平台接入屬於「能力擴展」，先把本地模型鏈路跑通，再加 Telegram，會更穩

結論

如果你想在 Windows 上盡量簡單地本地部署 Hermes Agent，比較順的順序就是：

WSL -> Ubuntu -> Ollama -> Gemma 4 -> Hermes Agent -> Telegram

先把本地模型跑通，再做閘道接入，成功率會高很多。對大多數使用者來說，這比一上來就堆很多元件更容易排錯，也更適合後續繼續擴展。

原文參考

本文根據下列頁面內容整理並改寫：

X超哥博客：太简单了！Hermes Agent 本地部署（无需API）接入 Telegram + 微信

Windows 下 llama-cli 直連 Hugging Face 出現 SSL 憑證驗證失敗怎麼辦

Fri, 17 Apr 2026 14:20:29 +0800

如果你在 Windows 下執行下面這條命令：

`1`	`llama-cli -hf unsloth/gemma-4-E4B-it-GGUF`

並看到類似錯誤：

1
2

get_repo_commit: error: HTTPLIB failed: SSL server verification failed
error: failed to download model from Hugging Face

通常不是 CUDA 或 llama.cpp 本身有問題，而是程式在目前環境裡沒有正確取得系統憑證鏈，導致 HTTPS 驗證失敗。

從錯誤訊息來看，ggml-rpc.dll 和 ggml-cpu-alderlake.dll 都已經正常載入，代表執行環境本身大致可用，問題主要集中在模型下載階段。

最省事的辦法：先手動下載模型

如果你只是想盡快跑起來，本機手動下載通常最穩。

打開對應的 Hugging Face 倉庫頁面。
在 Files and versions 裡下載需要的 .gguf 檔案。
下載完成後，直接用本機檔案路徑執行：

`1`	`llama-cli -m C:\Users\knightli\Downloads\gemma-4-e4b-it.gguf`

這樣可以繞過 -hf 下載階段的 SSL 驗證問題，適合先確認模型能不能正常推理。

如果還想繼續用 `-hf` 自動下載

可以手動指定憑證檔路徑，讓程式在目前工作階段裡找到可用的 CA 憑證。

cacert.pem 可以從 curl 官方維護的 CA Extract 頁面取得：

頁面地址：https://curl.se/docs/caextract.html
直接下載：https://curl.se/ca/cacert.pem

如果用瀏覽器下載，打開上面的直接下載地址後儲存為 cacert.pem 即可。也可以在 PowerShell 裡下載到固定目錄，例如：

1
2

New-Item -ItemType Directory -Force C:\certs
Invoke-WebRequest -Uri https://curl.se/ca/cacert.pem -OutFile C:\certs\cacert.pem

下載完成後，在命令列裡設定：

1
2

set SSL_CERT_FILE=C:\certs\cacert.pem
set CURL_CA_BUNDLE=C:\certs\cacert.pem

再重新執行原本的命令：

`1`	`llama-cli -hf unsloth/gemma-4-E4B-it-GGUF`

如果問題確實來自憑證鏈，這種方式通常可以直接解決。

Gemma-4-31B-it 裡的 it 是什麼意思

Sat, 11 Apr 2026 20:45:34 +0800

在 gemma-4-31B-it 這個名稱裡，it 是 Instruction Tuned 的縮寫，也就是「指令微調」版本。

對大多數人來說，可以直接理解成：這個模型更適合聊天、問答、寫程式和執行明確任務。

`it` 是什麼

模型通常會有兩類常見版本：

Base / Pre-trained：基礎模型，更接近原始文字預測器。
it：經過指令微調，更擅長理解「請幫我做什麼」這類輸入。

如果你輸入「請翻譯這段話」或「幫我寫一段 Python 程式碼」，it 版本通常會更穩定，也更符合對話式使用方式。

`31B` 是什麼

31B 表示這個模型大約有 310 億參數。

一般來說：

參數量越大，模型能力和知識覆蓋通常越強
同時對顯存或記憶體的要求也會更高

所以 31B 屬於比較大的模型，運行門檻也會更高。

`Gemma-4` 又表示什麼

Gemma-4 表示模型系列與代際：

Gemma：Google 的開源模型系列
4：該系列的第 4 代版本

怎麼選

如果你的目標是聊天、問答、翻譯、寫程式，通常優先選擇帶 -it 的版本。

如果你做的是更底層的研究、微調或自訂訓練任務，才更可能去看基礎版。

一句話總結

gemma-4-31B-it 可以直接理解成：Gemma 4 系列、310 億參數、適合對話與指令任務的版本。

Gemma 4 本地調用指南：從一鍵啟動到開發整合

Fri, 10 Apr 2026 22:54:17 +0800

如果你想在本地調用 Gemma 4，可以依需求從以下四種主流方案中選擇。

1) 最快上手：Ollama（推薦）

這是門檻最低的方式，適合快速測試、日常對話與本地 API 調用。

`1`	`ollama run gemma4`

特點：

支援 Win/Mac/Linux
自動處理硬體加速
提供相容 OpenAI 風格的本地 API

2) 圖形介面：LM Studio / Unsloth Studio

如果你偏好桌面 GUI（像 ChatGPT）：

LM Studio：可直接搜尋與下載 Hugging Face 上的 Gemma 4 量化模型（如 4-bit、8-bit），並查看資源占用。
Unsloth Studio：除推理外，也支援低顯存微調；對 6GB-8GB 顯存更友善。

3) 低配與深度控制：llama.cpp

適合舊機、純 CPU 場景，或希望細調推理參數的使用者。

你可以使用 .gguf 模型檔配合量化版本，在更低硬體門檻下運行 Gemma 4。

4) 開發者整合：Transformers / vLLM

如果你要把 Gemma 4 接進自己的應用：

Transformers：適合 Python 專案直接載入模型
vLLM：適合高效能 GPU 與高吞吐推理服務

快速選型

需求	推薦工具	硬體門檻
我只想先跑起來	Ollama	低（自動適配）
我想用圖形介面	LM Studio	中
顯存很吃緊（6GB-8GB）	Unsloth / llama.cpp	低
我要做本地 AI 應用開發	Ollama / Transformers / vLLM	中到高
我要做微調訓練	Unsloth Studio	中到高

模型尺寸建議

Gemma 4 有多種尺寸（如 E2B、E4B、31B）。

一般筆電建議先用量化後的 E2B / E4B
顯存充足後再嘗試更大版本

Ollama 下載模型 pull 速度很慢的排查與解決辦法

Thu, 09 Apr 2026 10:42:39 +0800

ollama pull model_name:tag 在有些地區下載速度會很慢，而且過程並不穩定。

如果你遇到的是大模型下載到一半反覆中斷、報錯 TLS handshake timeout 或 unexpected EOF，那麼問題很可能不只是 registry.ollama.ai 本身，而是後續跳轉到的實際下載鏈路。

這篇文章記錄一次簡單直接的排查思路：先拿到模型檔案的真實下載地址，再確認最終流量落到哪裡，最後只針對關鍵網域做網路優化。

取得模型檔案的下載地址

可以借助下面這個專案，把 Ollama 模型對應的 manifest 與 blob 下載地址直接提取出來：

https://github.com/Gholamrezadar/ollama-direct-downloader

以 gemma4:latest 為例，可以提取出類似下面這些連結。

Manifest 位址

`1`	`https://registry.ollama.ai/v2/library/gemma4/manifests/latest`

Blob 位址

https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11
https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2
https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:56380ca2ab89f1f68c283f4d50863c0bcab52ae3f1b9a88e4ab5617b176f71a3

如果你只是想快速驗證，也可以直接用 curl 下載 manifest 與 blob：

curl -L "https://registry.ollama.ai/v2/library/gemma4/manifests/latest" -o "latest"
curl -L "https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11" -o "sha256-f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11"
curl -L "https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a" -o "sha256-4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a"
curl -L "https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2" -o "sha256-7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2"

跳轉後的真實下載地址

嘗試用 wget 下載其中一個 blob，會發現請求並不是一直停留在 registry.ollama.ai，而是會繼續跳轉到一個 Cloudflare R2 物件儲存地址：

`1`	`wget https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a`

從日誌裡可以看到幾個關鍵資訊：

registry.ollama.ai 回傳了 307 Temporary Redirect
最終下載地址落在 *.r2.cloudflarestorage.com
真正承載大檔案傳輸的，實際上是後面的物件儲存網域

這一步很重要，因為它說明如果你的代理或分流規則只覆蓋了 registry.ollama.ai，但沒有處理 *.r2.cloudflarestorage.com，那下載仍然可能很慢，甚至反覆中斷。

下面是一次實際抓到的跳轉日誌：

wget https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
--2026-04-09 09:22:04--  https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
Resolving registry.ollama.ai (registry.ollama.ai)... 104.21.75.227, 172.67.182.229, 2606:4700:3034::ac43:b6e5, ...
Connecting to registry.ollama.ai (registry.ollama.ai)|104.21.75.227|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com/ollama/docker/registry/v2/blobs/sha256/4c/4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a/data?... [following]
--2026-04-09 09:22:05--  https://dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com/ollama/docker/registry/v2/blobs/sha256/4c/4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a/data?...
Resolving dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com (dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com)... 172.64.66.1, 2606:4700:2ff9::1
Connecting to dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com|172.64.66.1|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 9608338848 (8.9G) [application/octet-stream]

調整網路設定

確認真實下載鏈路之後，排查方向就會清晰很多。

如果你正在使用代理、分流或自訂 DNS，建議優先檢查下面幾件事：

registry.ollama.ai 與 *.r2.cloudflarestorage.com 是否走了同一條穩定線路
代理規則是否只覆蓋了前者，而漏掉了後者
目前出口是否適合持續下載數 GB 到數十 GB 的大檔案

這類問題的關鍵並不是「能不能打開官網」，而是「跳轉後的物件儲存鏈路是否穩定、是否能長時間持續傳輸」。很多時候，真正需要優化的是 Cloudflare R2 這一層，而不是前面的 registry 網域。

調整前後的對比

下面是一次實際下載 gemma4:31b-it-q8_0 時的表現。

調整前，下載速度較慢，而且會在中途報錯：

PS C:\Users\knightli> ollama run gemma4:31b-it-q8_0
pulling manifest
pulling a0feadb736f5:  38% ▕██████████████████████                                    ▏  12 GB/ 33 GB  1.2 MB/s   4h40m
Error: max retries exceeded: unexpected EOF

調整後，再次下載同一個模型時，速度和穩定性都有明顯改善：

1
2
3

PS C:\Users\knightli> ollama run gemma4:31b-it-q8_0
pulling manifest
pulling a0feadb736f5:  46% ▕████████████████████████████████████████████████████████████████▏ 15 GB/ 33 GB  8.5 MB/s  35m23s

這並不代表所有網路環境都能得到同樣結果，但至少說明了一點：瓶頸很可能不在 Ollama 用戶端本身，而在實際的大檔案下載鏈路。

一個更實用的排查順序

如果你也遇到類似問題，可以按這個順序來：

先執行一次 ollama pull 或 ollama run，確認問題是否穩定重現。
再用 wget 或 curl -L 測一個 blob 位址，確認是否跳轉到 *.r2.cloudflarestorage.com。
最後只針對真實下載網域調整代理或分流，再重新測試速度和穩定性。

這樣做的好處是，每一步都在驗證一個明確假設，不需要盲目試錯。

結論

ollama pull 下載慢，很多時候並不是因為 registry.ollama.ai 無法存取，而是因為真正承載大檔案下載的 Cloudflare R2 鏈路不夠穩定。

所以更有效的做法不是反覆重試，而是先把真實下載鏈路找出來，再針對實際流量落點做優化。

樹莓派 5 跑 Gemma 4 實測：可行，但回應較慢

Wed, 08 Apr 2026 18:42:00 +0800

我做了一次偏極限的嘗試：在 Raspberry Pi 5（8GB RAM） 上運行 Gemma 4。目標不是大模型版本，而是最小體量的 E2B。

結論先說：能跑、能用，但更適合低互動頻率場景，不適合高即時要求的對話體驗。

測試環境

設備：Raspberry Pi 5（4 核 CPU，8GB RAM）
系統：Ubuntu Server（無圖形介面）
存取方式：SSH
模型運行方式：LM Studio CLI（僅命令列模式）
模型：Gemma 4 E2B（約 4.5GB）

第 1 步：安裝並啟動 LM Studio CLI

我在樹莓派上安裝了 LM Studio 的 CLI 版本，然後啟動服務並查看可用命令。

由於是純命令列環境，這種僅命令列部署方式非常適合樹莓派。

第 2 步：把模型儲存切到 SSD

為了避免頻繁讀寫 SD 卡，我把模型下載目錄改到了外接 SSD。

樹莓派 5 接 SSD 的體驗明顯比早期機型更實用，長期運行本地模型建議優先使用 SSD。

第 3 步：下載並載入 Gemma 4 E2B

下載完成後，模型可以正常載入進記憶體。

按官方資訊，Gemma 4 系列具備：

面向 Agent 場景的工具呼叫能力（function calling）
多模態能力（含影像/影片；小模型也具備語音相關能力）
128K 上下文視窗
Apache 2.0 授權（可商用）

從樹莓派的硬體條件看，E2B 這一檔更適合先試起來。

第 4 步：啟動 API 並開放區域網路存取

模型載入後，我先在本機連接埠啟動 API（4000），並透過 HTTP 請求確認模型清單可返回。

問題在於：預設只監聽本機，區域網路其他設備無法直接存取。

因為啟動參數裡不能直接設定 host，我用了 socat 做連接埠轉發，把樹莓派外部連接埠請求橋接到 LM Studio 內部連接埠，實現區域網路存取。

結果是可行的：我在同一區域網路的 MacBook 上能成功請求並拿到模型清單。

第 5 步：接入編輯器（Zed）

LM Studio 的本地服務相容 OpenAI API 形態，因此多數支援自訂 base_url 的工具都可以直接接入。

我在 Zed 裡新增了一個 LLM provider，指向樹莓派上的 Gemma 4 實例，隨後在編輯器內聊天測試通過。

實際可用性判斷

這套方案適合：

本地自動化腳本
低併發、低即時性要求的輔助任務
個人學習與邊緣設備實驗

不太適合：

高頻互動聊天
對回應延遲敏感的開發協作場景

結論

在 Raspberry Pi 5 上運行 Gemma 4（E2B）是可行的，而且實際效果比預期更好。

如果你的目標是「能離線跑、能接工具、能完成輕中量任務」，這條路線值得嘗試；如果目標是流暢即時互動，仍建議上更強硬體。

OpenClaw 對接本地 Gemma 4：完整配置指南

Wed, 08 Apr 2026 18:18:00 +0800

這篇文章示範如何把 OpenClaw 對接到本地 Gemma 4 模型（透過 Ollama 提供介面）。

如果你還沒完成本地部署，可先參考：

如何在筆記型電腦上運行 Gemma 4：5 分鐘本地部署指南

第 1 步：啟動 Ollama API 服務

先啟動 Ollama 服務：

`1`	`ollama serve`

你可以用下面的命令快速測試 API 是否正常：

curl http://localhost:11434/api/generate -d '{
  "model": "gemma4:12b",
  "prompt": "你好"
}'

如果能返回模型輸出，代表本地 API 已可用。

第 2 步：配置 OpenClaw 接入 Ollama

OpenClaw 配置檔路徑通常為：

`1`	`~/.openclaw/config.yaml`

編輯 config.yaml，在 models 中新增一個本地模型條目：

models:
  # 你已有的模型配置...

  gemma4-local:
    provider: ollama
    base_url: http://localhost:11434
    model: gemma4:12b
    timeout: 120s

第 3 步：設定預設模型（可選）

如果你希望預設走 Gemma 4，可新增：

`1`	`default_model: gemma4-local`

第 4 步：重啟並驗證 OpenClaw

重啟 OpenClaw：

`1`	`openclaw restart`

查看模型列表：

`1`	`openclaw models list`

發起一次對話測試：

`1`	`openclaw chat --model gemma4-local "你好"`

如果對話回傳正常，代表 OpenClaw 已成功接入本地 Gemma 4。

常見排查

connection refused：先確認 ollama serve 是否在運行。
找不到模型：檢查模型名是否與 ollama list 一致（例如 gemma4:12b）。
回應超時：可適度提高 timeout，並優先測試較小模型。

如何在筆記型電腦上運行 Gemma 4：5 分鐘本地部署指南

Wed, 08 Apr 2026 18:06:00 +0800

如果你想在筆記型電腦上本地運行 Gemma 4，Ollama 是目前最省事的方式之一。即使不折騰複雜環境，通常 5 分鐘左右也能跑起來。

第 1 步：安裝 Ollama

打開 https://ollama.com，下載對應系統的安裝包。
按系統完成安裝：

macOS：拖到 Applications。
Windows：執行 .exe 安裝程式。
Linux：使用官網提供的安裝腳本。

安裝完成後，Ollama 會以背景服務形式運行。除初次安裝外，日常可以只用簡單命令。

第 2 步：下載 Gemma 4 模型

打開終端機，執行：

`1`	`ollama pull gemma4:4b`

如果你的機器性能更強，可以改成 12b 或 27b。下載完成後，模型會保存在本地。

查看已下載模型：

`1`	`ollama list`

第 3 步：啟動模型

`1`	`ollama run gemma4:4b`

這會在終端機打開互動式對話。輸入問題後按 Enter 即可；結束會話可輸入：

/bye

如果你更偏好網頁聊天介面，可以搭配 Open WebUI 使用。它可以把 Ollama 包裝成瀏覽器端 UI，通常透過 Docker 幾分鐘即可完成配置。

筆記型電腦效能優化建議

Apple Silicon（M2/M3/M4）：預設走 Metal，加速效果通常很好，12B 也有不錯體驗。
NVIDIA 顯示卡：檢測到相容 GPU 時會自動使用 CUDA，建議提前更新驅動。
僅 CPU 推理：可以運行，但大模型會明顯變慢；多數 CPU-only 場景建議優先 4B。
釋放記憶體：載入大模型前盡量關閉占記憶體應用。經驗上每 10 億參數大約需要 0.5GB 到 1GB 記憶體。

模型怎麼選

Gemma 4 1B：適合輕量問答、基礎摘要、快速查詢；複雜推理能力有限。
Gemma 4 4B：適合多數日常任務（寫作輔助、程式輔助、資料整理），速度與品質平衡較好。
Gemma 4 12B：適合更長上下文與更複雜任務，在程式與推理場景更穩。
Gemma 4 27B：適合高要求任務，效果更接近雲端大模型，但對硬體要求明顯更高。

Android 上安裝並運行 Gemma 4：完整上手指南

Wed, 08 Apr 2026 17:55:53 +0800

如果你想在手機上離線體驗 Gemma 4，這篇文章會帶你從安裝到實用功能一步步跑通。

第 1 步：取得應用

Google AI Edge Gallery 目前不在 Google Play 上架，需要透過 APK 側載安裝。

在 Android 裝置上依序進入：

設定 -> 應用程式 -> 特殊應用程式存取權 -> 安裝未知應用程式

然後：

找到你使用的瀏覽器（例如 Chrome 或 Firefox），開啟「允許來自此來源」。
在手機瀏覽器打開 Google AI Edge Gallery 的 GitHub Releases 頁面。

位址：https://github.com/google-ai-edge/gallery/releases

下載最新的 .apk 安裝包。
下載完成後，在通知欄或檔案管理器中點開安裝包，按提示完成安裝。

網路正常時，這一步通常約 2 分鐘可完成。

第 2 步：首次開啟並授權

首次開啟 AI Edge Gallery 時，應用會請求儲存權限，用於保存模型檔案。建議直接允許，否則應用無法下載或載入模型。

首頁一般會看到這些入口：

Ask Image：影像理解任務（描述圖片、回答圖片相關問題）
AI Chat：一般文字對話
Summarize：貼上文字並產生摘要
Smart Reply：產生回覆建議

大多數使用者最常用的是 AI Chat。

第 3 步：下載 Gemma 4 模型

進入 AI Chat。
按提示點擊 Get Models。
在模型清單中選擇 Gemma 4 版本（會顯示對應體積）。
按裝置性能選擇模型；如果手機是 8GB RAM，可先從 Gemma 4 4B 開始。
點擊 Download，背景開始下載。

注意：模型越大，下載時間越長。你也可以下載多個模型，後續按需切換，已下載模型會保存在本機，不必重複下載。

第 4 步：開始對話

模型下載完成後：

點擊模型名稱進行載入（首次載入通常需要 10 到 30 秒，取決於模型大小和裝置性能）。
在聊天框輸入問題並送出。
模型會在本地產生回覆，資料不會上傳到雲端。

一般第一條回覆會稍慢，這是模型預熱的正常現象；同一會話後續回覆通常更快。

第 5 步：體驗視覺能力（Gemma 4 多模態）

如果你下載的是 Gemma 4 多模態版本：

返回主選單，進入 Ask Image。
選擇一張圖片，或直接拍照。
輸入你想問的問題（例如「這張圖裡有什麼？」或「圖裡有哪些文字需要注意？」）。
等待模型在本地分析並回傳結果。

這項功能可以離線使用，圖片內容也不會傳送到外部伺服器。

Google Gemma 4 模型對比：2B/4B/26B/31B 怎麼選？

Sun, 05 Apr 2026 08:30:00 +0800

Gemma 4 主打 多模態 與 本地離線運行，並提供從輕量端到高性能端的完整模型梯度。對大多數本地部署使用者來說，關鍵不是選最大，而是選最符合硬體與任務需求的版本。

Gemma 4 各模型對比

下表用於快速選型參考；具體性能與資源占用請以實際部署環境測試為準。

模型	參數規模	定位	主要優勢	主要限制	推薦場景
Gemma 4 2B	20 億	超輕量	延遲低、資源占用小、部署門檻最低	複雜推理與長鏈路任務能力有限	行動端、IoT、輕量問答、簡單自動化
Gemma 4 4B	40 億	輕量增強	比 2B 更穩定的理解與生成能力，仍易於本地部署	高強度編碼與複雜 Agent 任務上限有限	本地助手、基礎文件處理、多語言日常任務
Gemma 4 26B	260 億	高性能（專家混合）	推理與工具調用能力明顯提升，適合生產工作流	顯存需求顯著上升，硬體門檻更高	編程助手、複雜工作流、企業內部 Agent
Gemma 4 31B	310 億	高性能（稠密）	綜合能力最強，複雜任務穩定性更好	資源成本最高，部署與調優成本更大	高要求推理、複雜程式任務、重度自動化

怎麼選：按硬體和任務倒推

如果你主要關心「能不能跑、跑得順不順」，可以按下面選：

8GB 顯存：優先 2B/4B。
12GB 顯存：優先 4B 或更高模型的量化版本。
24GB 顯存：可重點考慮 26B，並依任務評估 31B 量化版。
更高顯存或多卡：可嘗試 31B 的高精度配置。

建議先保證穩定性與推理速度，再逐步提升模型規模。

四類典型使用場景

1) 本地通用助手

優先模型：4B
原因：成本與效果平衡佳，適合長期常駐運行。

2) 程式與自動化

優先模型：26B
原因：在多步驟任務、工具調用、腳本生成上更穩。

3) 高難度推理與複雜 Agent

優先模型：31B
原因：在複雜上下文下穩定性更高、容錯更好。

4) 邊緣設備與輕量離線

優先模型：2B
原因：最容易在資源受限設備落地。

部署建議（Ollama 方向）

更實用的做法是小步快跑：

先用 4B 建立可運行基線（速度、記憶體、效果）。
把真實任務做成固定測試集（例如 20 條常見問題 + 10 個自動化任務）。
再升級到 26B/31B 對比準確率、時延與顯存成本。
只在收益明顯時升級大模型。

這樣可以避免一開始就追求大參數，導致卡頓、吞吐低與維護複雜度上升。

結論

Gemma 4 的真正價值，不是單純參數更大，而是提供了從輕量到高性能的一整套可落地梯度：

想低成本快速上線：從 2B/4B 開始。
想讓本地 AI 真正接入生產流程：優先 26B。
想衝擊複雜推理與重度自動化：再上 31B。

Gemma 4 的最佳選擇通常不是參數最大，而是與硬體條件與任務目標匹配度最高的版本。

Gemma 4 on KnightLi的博客

本地部署 Gemma 4：E2B、E4B、26B、31B 各量化版本需要多少顯存

先看結論

Gemma 4 E2B 顯存表

Gemma 4 E4B 顯存表

Gemma 4 26B A4B 顯存表

Gemma 4 31B 顯存表

為什麼實際占用會比檔案體積更高

怎麼選

參考來源

Gemma 4 E4B 越獄版和官方普通版有什麼差別

這個衍生版模型卡自己怎麼說

官方版 vs 所謂「越獄版」

核心差異是「對齊方式」變了，不是「能力等級」突然提高

為什麼官方普通版會更保守

什麼情況下普通版更適合

什麼情況下有人會去試越獄版

結論

參考來源

Windows 用 WSL + Ollama 本地部署 Hermes Agent，並接入 Telegram

整體流程

1. 安裝 WSL 和 Ubuntu

2. 更新 Ubuntu，並安裝基礎環境

安裝 Python

安裝 zstd

安裝 Node.js

安裝 Git

3. 安裝 Ollama，並拉取 Gemma 4

4. 安裝並配置 Hermes Agent

Hermes Agent 常用命令

啟動

重新進入配置

配置聊天平台閘道

更新

接入 Telegram 的基礎步驟

這套方案適合什麼人

需要注意的幾個點

結論

原文參考

Windows 下 llama-cli 直連 Hugging Face 出現 SSL 憑證驗證失敗怎麼辦

最省事的辦法：先手動下載模型

如果還想繼續用 -hf 自動下載

Gemma-4-31B-it 裡的 it 是什麼意思

it 是什麼

31B 是什麼

Gemma-4 又表示什麼

怎麼選

一句話總結

Gemma 4 本地調用指南：從一鍵啟動到開發整合

1) 最快上手：Ollama（推薦）

2) 圖形介面：LM Studio / Unsloth Studio

3) 低配與深度控制：llama.cpp

4) 開發者整合：Transformers / vLLM

快速選型

模型尺寸建議

Ollama 下載模型 pull 速度很慢的排查與解決辦法

取得模型檔案的下載地址

Manifest 位址

Blob 位址

跳轉後的真實下載地址

調整網路設定

調整前後的對比

一個更實用的排查順序

結論

樹莓派 5 跑 Gemma 4 實測：可行，但回應較慢

測試環境

第 1 步：安裝並啟動 LM Studio CLI

第 2 步：把模型儲存切到 SSD

第 3 步：下載並載入 Gemma 4 E2B

第 4 步：啟動 API 並開放區域網路存取

第 5 步：接入編輯器（Zed）

實際可用性判斷

結論

OpenClaw 對接本地 Gemma 4：完整配置指南

第 1 步：啟動 Ollama API 服務

第 2 步：配置 OpenClaw 接入 Ollama

第 3 步：設定預設模型（可選）

第 4 步：重啟並驗證 OpenClaw

常見排查

如何在筆記型電腦上運行 Gemma 4：5 分鐘本地部署指南

如果還想繼續用 `-hf` 自動下載

`it` 是什麼

`31B` 是什麼

`Gemma-4` 又表示什麼