Gemma 4 on KnightLi的博客

本地部署 Gemma 4：E2B、E4B、26B、31B 各量化版本需要多少显存

Fri, 01 May 2026 11:42:34 +0800

Gemma 4 现在主要有四个本地部署尺寸：E2B、E4B、26B A4B 和 31B。其中 E2B、E4B 面向轻量和边缘设备，26B A4B 是 MoE 架构，31B 是更大的稠密模型。

本地运行时，最容易混淆的是两个数字：

GGUF 文件体积：模型权重文件本身有多大。
实际显存占用：模型权重、KV cache、运行时开销、上下文长度、是否加载多模态投影文件共同决定。

下面的表格按 GGUF 文件体积估算显存需求。默认假设是 llama.cpp、LM Studio、Ollama 这类本地推理场景，主要跑文本，使用中短上下文。如果要开长上下文、视觉/音频输入、并发请求，显存要继续往上留余量。

先看结论

显存	比较合适的选择	不建议硬上
4GB	E2B 的低比特量化	E4B 以上
6GB	E2B Q4/Q5，E4B 低比特量化	26B、31B
8GB	E2B Q8，E4B Q4/Q5	26B Q4、31B Q4
12GB	E4B Q8，26B/31B 的 2-bit/3-bit 低质量尝试	26B Q4 长上下文、31B Q4
16GB	26B 低比特量化，31B 低比特量化	31B Q4 长上下文、26B Q5 以上
24GB	26B Q4/Q5，31B Q4	31B Q8、BF16
32GB	26B Q6/Q8，31B Q5/Q6	BF16
48GB	31B Q8 更从容，26B Q8 长上下文	31B BF16
80GB+	26B/31B BF16	普通消费卡单卡部署

如果只是想本地可用，优先从 E4B Q4_K_M 或 E2B Q4_K_M 开始。如果有 24GB 显存，26B A4B Q4_K_M 和 31B Q4_K_M 才开始进入比较舒服的范围。

Gemma 4 E2B 显存表

E2B 是最轻量的版本，适合笔记本、迷你主机、移动端和低显存测试。它的优势是容易跑，缺点是复杂推理、代码和长任务稳定性有限。

量化版本	GGUF 文件体积	最低显存	更稳妥显存	适合场景
`UD-IQ2_M`	2.29GB	4GB	6GB	极限低显存测试
`UD-Q2_K_XL`	2.40GB	4GB	6GB	低显存可用性优先
`Q3_K_M`	2.54GB	4GB	6GB	轻量聊天、摘要
`IQ4_XS`	2.98GB	6GB	8GB	质量和体积折中
`Q4_K_M`	3.11GB	6GB	8GB	E2B 常用推荐
`Q5_K_M`	3.36GB	6GB	8GB	比 Q4 更稳一点
`Q6_K`	4.50GB	8GB	10GB	小模型高质量量化
`Q8_0`	5.05GB	8GB	10GB	接近原始精度的轻量部署
`BF16`	9.31GB	12GB	16GB	调试、对比、研究

E2B 的 Q4_K_M 已经够日常体验。如果只有 4GB 显存，可以尝试 2-bit 或 3-bit，但输出质量会更容易波动。

Gemma 4 E4B 显存表

E4B 是更实用的轻量版本。它比 E2B 更适合日常写作、资料总结、轻量代码辅助和本地助手。

量化版本	GGUF 文件体积	最低显存	更稳妥显存	适合场景
`UD-IQ2_M`	3.53GB	6GB	8GB	低显存尝试
`UD-Q2_K_XL`	3.74GB	6GB	8GB	低显存可用性优先
`Q3_K_M`	4.06GB	6GB	10GB	轻量本地助手
`IQ4_XS`	4.72GB	8GB	12GB	质量和速度折中
`Q4_K_M`	4.98GB	8GB	12GB	E4B 常用推荐
`Q5_K_M`	5.48GB	8GB	12GB	更稳的日常使用
`Q6_K`	7.07GB	10GB	16GB	质量优先
`Q8_0`	8.19GB	12GB	16GB	接近原始精度
`BF16`	15.05GB	20GB	24GB	研究、评测、精度对比

如果你的显卡是 8GB，E4B Q4_K_M 是很现实的起点。如果是 12GB 或 16GB，E4B Q8_0 也可以考虑。

Gemma 4 26B A4B 显存表

26B A4B 是 MoE 版本，参数规模更大，但每次推理只激活其中一部分专家。它适合更复杂的问答、代码、工具调用和 Agent 工作流。

量化版本	GGUF 文件体积	最低显存	更稳妥显存	适合场景
`UD-IQ2_M`	9.97GB	14GB	16GB	16GB 显卡极限尝试
`UD-Q2_K_XL`	10.55GB	14GB	16GB	低显存跑 26B
`UD-Q3_K_M`	12.53GB	16GB	20GB	质量略好，仍偏省显存
`UD-IQ4_XS`	13.42GB	16GB	24GB	质量和体积折中
`UD-Q4_K_M`	16.87GB	20GB	24GB	26B 常用推荐
`UD-Q5_K_M`	21.15GB	24GB	32GB	更稳的高质量量化
`UD-Q6_K`	23.17GB	28GB	32GB	质量优先
`Q8_0`	26.86GB	32GB	40GB	接近原始精度
`BF16`	50.51GB	64GB	80GB	单卡消费级不现实

24GB 显存是 26B A4B 比较舒服的分界线。 16GB 显卡可以尝试低比特版本，但上下文长度、并发和多模态都要收敛。

Gemma 4 31B 显存表

31B 是更大的稠密模型。它的优点是综合能力更强，缺点是显存压力比 26B A4B 更直接。

量化版本	GGUF 文件体积	最低显存	更稳妥显存	适合场景
`UD-IQ2_XXS`	8.53GB	12GB	16GB	极限低显存尝试，质量牺牲明显
`UD-IQ2_M`	10.75GB	14GB	18GB	低显存尝试
`UD-Q2_K_XL`	11.77GB	16GB	20GB	16GB 显卡可尝试
`Q3_K_S`	13.21GB	16GB	24GB	更省显存的 3-bit
`Q3_K_M`	14.74GB	20GB	24GB	3-bit 常用折中
`IQ4_XS`	16.37GB	20GB	24GB	接近 Q4 的折中
`Q4_K_M`	18.32GB	24GB	32GB	31B 常用推荐
`Q5_K_M`	21.66GB	28GB	32GB	更稳的高质量量化
`Q6_K`	25.20GB	32GB	40GB	质量优先
`Q8_0`	32.64GB	40GB	48GB	接近原始精度
`BF16`	61.41GB	80GB	96GB	服务器或大显存工作站

31B 的低比特版本可以在 16GB 显卡上做实验，但如果想日常使用，最好从 24GB 显存起步。 Q4_K_M 是比较平衡的选择，Q5_K_M 往上更适合 32GB 以上显存。

为什么实际占用会比文件体积更高

GGUF 文件体积只是权重大小。真正运行时还会增加这些开销：

KV cache：上下文越长，占用越高。
批大小和并发：一次处理更多 token 或多用户并发，会增加显存。
多模态组件：图片、音频、视频输入通常还要加载 mmproj 或额外处理模块。
运行时后端：CUDA、Metal、ROCm、CPU/GPU 分层加载的占用不同。
KV cache 量化：开启 q8_0、q4_0 等 KV cache 量化可以省显存，但可能影响细节。

所以表格里的“最低显存”只能理解为“能启动并短上下文运行”的门槛。如果你要 32K、64K、128K 甚至 256K 上下文，显存需求会明显增加。

怎么选

如果只是想在本地体验 Gemma 4：

4GB 到 6GB 显存：选 E2B Q3_K_M 或 E2B Q4_K_M。
8GB 显存：优先选 E4B Q4_K_M，也可以跑 E2B Q8_0。
12GB 显存：选 E4B Q8_0，或者尝试 26B/31B 的低比特版本。
16GB 显存：可以尝试 26B A4B UD-Q3_K_M 或 31B Q3_K_S，但不要期待长上下文很舒服。
24GB 显存：26B A4B UD-Q4_K_M 和 31B Q4_K_M 是重点选择。
32GB 以上：可以考虑 Q5_K_M、Q6_K，或者更长上下文。

一般用户不需要追 BF16。本地部署的核心不是文件越大越好，而是在显存、速度、上下文和输出质量之间找到平衡。

参考来源

Gemma 4 E4B 越狱版和官方普通版有什么区别

Sat, 18 Apr 2026 10:20:00 +0800

如果你看到 HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive 这种模型，最关键的一点是：它不是 Google 新发的另一套 Gemma 4，而是建立在官方 google/gemma-4-E4B-it 之上的一个非官方衍生版本，重点是把模型行为调到“更少拒答”。

所以它和普通版真正拉开的，通常不是底层架构，而是对齐策略和输出风格。

这个衍生版模型卡自己说了什么

Hugging Face 模型卡里，这个 HauhauCS 版本明确写了几件事：

它基于 google/gemma-4-E4B-it
它声称“没有改数据集或能力”
它声称变化只是“去掉拒答”
Aggressive 版本被描述为“完全解锁，不会拒绝提示词”

这些是作者自己的表述，不是独立第三方测评结果。但从定位上已经很清楚：这就是一个以“减少安全拒答”为目标的非官方衍生版。

官方版 vs 所谓“越狱版”

维度	官方 `google/gemma-4-E4B-it`	`Gemma-4-E4B-Uncensored-HauhauCS-Aggressive`
来源	Google 官方发布	Hugging Face 第三方衍生版
基础模型	Gemma 4 E4B 指令微调版	同一模型家族，且模型卡明确写明基于 `google/gemma-4-E4B-it`
核心目标	通用助理能力 + 负责任使用框架	尽量减少拒答，让模型继续输出
安全取向	与 Gemma 家族的安全文档、禁止用途政策一致	明确削弱拒答与护栏行为
回答风格	更可能拒绝、转向或保守回答敏感请求	更可能直接继续回答原本会被拦下的问题
风险水平	默认风险更低，但仍不代表绝对安全	默认风险更高，更容易输出不安全或不合规内容
用于产品/团队	更容易通过评审和落地	更难用于公开产品、企业环境或合规场景
额外防护需求	仍需要应用层防护	更依赖你自己做额外的审核、过滤和限制

核心区别是“对齐方式”变了，不是“能力等级”突然变高

很多人会把“uncensored”理解成“更强”，这个判断通常并不准确。

对这种衍生版来说，最先变化的是：

拒答频率
对敏感请求的服从程度
最终答案里剩下多少安全过滤

而不会因为名字里写了 Uncensored，就自动意味着下面这些也一起升级：

模型架构突然更强
上下文窗口突然更大
多模态能力突然更完整
推理上限明显更高

更准确的理解是：它通常只是同一模型家族里，行为调校不同的一版，而不是更高档的新模型。

为什么官方普通版会更保守

Google 的 Gemma 官方资料一直把这个系列放在“负责任 AI 开发”的框架里。Gemma 模型卡会明确谈到误用、有害内容、隐私和偏见等风险；Gemma Prohibited Use Policy 也明确禁止把 Gemma 或其衍生模型用于：

危险、违法或恶意活动
生成有害、误导、欺骗性内容
覆盖或绕过安全过滤

所以官方版并不是“碰巧更保守”，而是它从文档、许可和部署定位上，本来就是那样设计的。

什么情况下普通版更合适

如果你更在意下面这些，优先用官方 google/gemma-4-E4B-it：

产品部署
团队协作
企业或对外场景
较低的政策与法律风险
更容易解释和审查的输出行为

对大多数正常应用来说，这通常才是默认优先项。

什么情况下有人会去试越狱版

选择这类 uncensored 衍生版的人，常见目的通常是：

本地私人实验
测试官方版是否“过早拒答”
角色扮演或更开放的创作场景
对比不同对齐版本的行为差异

但对应的代价也很明确：模型提供方少做的那部分安全约束，需要你自己补回来。

结论

所谓 Gemma 4 E4B “越狱版”和官方普通版，最本质的区别其实是：

官方版追求的是“有护栏的可用能力”
越狱版追求的是“更少拒答的可输出性”

它不自动等于更强，更多只是更放开。

如果你的目标是稳定、可解释、适合部署，先用官方版更合理。
如果你的目标是本地实验，并且你清楚知道安全、合规和输出风险都要自己承担，那这类 uncensored 衍生版可以当成“行为差异版本”来测试，但不应该直接理解成普通版的全面升级替代品。

参考来源

Hugging Face: HauhauCS/Gemma-4-E4B-Uncensored-HauhauCS-Aggressive
Hugging Face: google/gemma-4-E4B-it
Google AI for Developers: Gemma Prohibited Use Policy
Google AI for Developers: Gemma model card

Windows 用 WSL + Ollama 本地部署 Hermes Agent，并接入 Telegram

Sat, 18 Apr 2026 00:48:22 +0800

如果你想在 Windows 上尽量低门槛地跑 Hermes Agent，一个比较顺手的路径是：

宿主系统继续用 Windows
在 WSL 里跑 Ubuntu
用 Ollama 提供本地模型
让 Hermes Agent 直接连接本地 Ollama 接口

这样做的好处是环境相对干净，命令大多按 Linux 方式执行，同时又不需要单独准备一台 Linux 机器。

整体流程

这套部署可以拆成 5 步：

启用 WSL 并安装 Ubuntu
在 Ubuntu 里补齐 Python、Node.js、Git 等运行环境
安装 Ollama 并拉取本地模型
安装 Hermes Agent，再接入 Telegram

如果你只想先把 Hermes Agent 跑起来，其实做到第 4 步就已经接近完成了。

1. 安装 WSL 和 Ubuntu

在管理员权限的 PowerShell 里执行：

`1`	`wsl --install`

安装完成后重启电脑，然后继续安装 Ubuntu：

`1`	`wsl --install -d Ubuntu`

之后打开 Windows Terminal，切到 Ubuntu 环境，后续命令基本都在这里执行。

2. 更新 Ubuntu，并安装基础环境

先更新系统：

1
2

sudo apt update
sudo apt upgrade -y

然后安装 Python、解压工具、Node.js 和 Git。

安装 Python

`1`	`sudo apt install python3-pip python3-venv -y`

安装 zstd

`1`	`sudo apt install -y zstd`

安装 Node.js

1
2

curl -fsSL https://deb.nodesource.com/setup_22.x | sudo -E bash -
sudo apt install -y nodejs

安装 Git

1
2

sudo apt update
sudo apt install -y git

安装完成后可以顺手检查一下：

1
2
3

node -v
npm -v
git --version

3. 安装 Ollama，并拉取 Gemma 4

安装 Ollama：

`1`	`curl -fsSL https://ollama.com/install.sh \| sh`

如果你打算给 Hermes Agent 配一个本地模型，可以直接从 Gemma 4 开始。

例如：

`1`	`ollama run gemma4:e4b`

如果机器资源更弱，也可以试：

`1`	`ollama run gemma4:e2b`

更大的版本还有：

1
2

ollama run gemma4:26b
ollama run gemma4:31b

对大多数 Windows + WSL 的普通机器来说，gemma4:e4b 通常是一个更实际的起点。

4. 安装并配置 Hermes Agent

安装命令：

`1`	`curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh \| bash`

安装完成后，给它指定 Ollama 的本地接口：

`1`	`http://127.0.0.1:11434`

模型名填你本地实际在用的那个，例如：

`1`	`gemma4:e4b`

如果安装脚本要求刷新 shell，可以执行：

`1`	`source ~/.bashrc`

Hermes Agent 常用命令

平时最常用的是下面几个：

启动

hermes

重新进入配置

`1`	`hermes setup`

配置聊天平台网关

`1`	`hermes setup gateway`

更新

`1`	`hermes update`

接入 Telegram 的基础步骤

如果你要让 Hermes Agent 通过 Telegram 收发消息，核心还是先跑一遍：

`1`	`hermes setup gateway`

然后准备 Telegram 侧需要的两个东西：

用 BotFather 创建机器人
用 @userinfobot 获取你的 User ID

拿到这些基础信息后，再按 Hermes Agent 的网关配置继续填入即可。

这一套方案适合什么人

这套方式比较适合下面几类用户：

平时主力系统就是 Windows
不想单独折腾完整 Linux 主机
想先把本地 Agent 跑通，再慢慢扩展聊天平台接入
希望优先用本地模型，不依赖云端 API

如果你只是想本地体验一个 Agent，而不是一开始就做复杂生产部署，这条路线已经足够实用。

需要注意的几个点

WSL 本质上还是一层兼容环境，极端场景下稳定性未必和原生 Linux 完全一样
大模型能不能跑得顺，最终还是取决于你的内存、显存和 CPU / GPU 条件
gemma4:e4b 虽然是比较现实的起点，但具体体验还是要看机器配置
Hermes Agent 的聊天平台接入属于“能力扩展”，先把本地模型链路跑通，再加 Telegram，会更稳

结论

如果你想在 Windows 上尽量简单地本地部署 Hermes Agent，比较顺的顺序就是：

WSL -> Ubuntu -> Ollama -> Gemma 4 -> Hermes Agent -> Telegram

先把本地模型跑通，再做网关接入，成功率会高很多。
对大多数用户来说，这比一上来就堆很多组件更容易排错，也更适合后续继续扩展。

Windows 下 llama-cli 直连 Hugging Face 报 SSL 证书验证失败怎么办

Fri, 17 Apr 2026 14:20:29 +0800

如果你在 Windows 下运行下面这条命令：

`1`	`llama-cli -hf unsloth/gemma-4-E4B-it-GGUF`

并看到类似报错：

1
2

get_repo_commit: error: HTTPLIB failed: SSL server verification failed
error: failed to download model from Hugging Face

通常不是 CUDA 或 llama.cpp 本身有问题，而是程序在当前环境里没有正确拿到系统证书链，导致 HTTPS 校验失败。

从报错来看，ggml-rpc.dll 和 ggml-cpu-alderlake.dll 都已经正常加载，说明运行环境本身大体可用，问题主要集中在模型下载阶段。

最省事的办法：先手动下载模型

如果你只是想尽快跑起来，本地手动下载通常最稳。

打开对应的 Hugging Face 仓库页面。
在 Files and versions 里下载需要的 .gguf 文件。
下载完成后，直接用本地文件路径运行：

`1`	`llama-cli -m C:\Users\knightli\Downloads\gemma-4-e4b-it.gguf`

这样可以绕过 -hf 下载阶段的 SSL 校验问题，适合先验证模型能不能正常推理。

如果还想继续用 `-hf` 自动下载

可以手动指定证书文件路径，让程序在当前会话里找到可用的 CA 证书。

cacert.pem 可以从 curl 官方维护的 CA Extract 页面获取：

页面地址：https://curl.se/docs/caextract.html
直接下载：https://curl.se/ca/cacert.pem

如果用浏览器下载，打开上面的直接下载地址后保存为 cacert.pem 即可。也可以在 PowerShell 里下载到固定目录，例如：

1
2

New-Item -ItemType Directory -Force C:\certs
Invoke-WebRequest -Uri https://curl.se/ca/cacert.pem -OutFile C:\certs\cacert.pem

下载完成后，在命令行里设置：

1
2

set SSL_CERT_FILE=C:\certs\cacert.pem
set CURL_CA_BUNDLE=C:\certs\cacert.pem

再重新执行原命令：

`1`	`llama-cli -hf unsloth/gemma-4-E4B-it-GGUF`

如果问题确实来自证书链，这种方式通常能直接解决。

Gemma-4-31B-it 里的 it 是什么意思

Sat, 11 Apr 2026 20:45:34 +0800

在 gemma-4-31B-it 这个名字里，it 是 Instruction Tuned 的缩写，也就是“指令微调”版本。

对多数人来说，可以把它理解成：这个模型更适合聊天、问答、写代码和执行明确任务。

`it` 是什么

模型通常会有两类常见版本：

Base / Pre-trained：基础模型，更接近原始文本预测器。
it：经过指令微调，更擅长理解“请帮我做什么”这类输入。

如果你输入“请翻译这段话”或“帮我写一段 Python 代码”，it 版本通常会更稳定，也更符合对话式使用习惯。

`31B` 是什么

31B 表示这个模型大约有 310 亿参数。

一般来说：

参数量越大，模型能力和知识覆盖往往更强
同时对显存或内存的要求也会更高

所以 31B 属于比较大的模型，运行门槛也会更高。

`Gemma-4` 又表示什么

Gemma-4 表示模型系列与代际：

Gemma：Google 的开源模型系列
4：该系列的第 4 代版本

怎么选

如果你的目标是聊天、问答、翻译、写代码，通常优先选择带 -it 的版本。

如果你做的是更底层的研究、微调或自定义训练任务，才更可能去看基础版。

一句话总结

gemma-4-31B-it 可以直接理解成：Gemma 4 系列、310 亿参数、适合对话和指令任务的版本。

Gemma 4 本地调用指南：从一键运行到开发集成

Fri, 10 Apr 2026 22:54:17 +0800

如果你想在本地调用 Gemma 4（Google 2026 年发布的新一代开源模型），可以按需求从这四类方案里选。

1) 最快上手：Ollama（推荐）

这是门槛最低的方式，适合快速测试、日常对话和本地 API 调用。

`1`	`ollama run gemma4`

特点：

Win/Mac/Linux 都可用
自动处理硬件加速
提供兼容 OpenAI 风格的本地 API

2) 图形界面：LM Studio / Unsloth Studio

如果你更习惯桌面 GUI（类似 ChatGPT），这两类工具更顺手。

LM Studio：可直接搜索和下载 Hugging Face 上的 Gemma 4 量化模型（如 4-bit、8-bit），并查看资源占用。
Unsloth Studio：除了推理，也支持低显存微调。对 6GB-8GB 显存机器更友好。

3) 低配与极致控制：llama.cpp

适合老机器、纯 CPU 场景，或希望深度控制推理参数的用户。

你可以使用 .gguf 模型文件配合量化版本，在更低硬件门槛下运行 Gemma 4。

4) 开发集成：Transformers / vLLM

如果你要把 Gemma 4 接进自己的应用：

Transformers：适合 Python 项目内直接加载模型
vLLM：适合高性能 GPU 场景和高吞吐推理服务

快速选型

需求	推荐工具	硬件门槛
我只想马上跑起来	Ollama	低（自动适配）
我更喜欢图形界面	LM Studio	中
显存很紧张（6GB-8GB）	Unsloth / llama.cpp	低
我要做本地 AI 应用开发	Ollama / Transformers / vLLM	中到高
我要做微调训练	Unsloth Studio	中到高

模型尺寸建议

Gemma 4 有多种尺寸（如 E2B、E4B、31B）。

普通办公本优先选量化后的 E2B / E4B
显存更充足时再尝试更大版本

Ollama 下载模型 pull 速度很慢的排查和解决办法

Thu, 09 Apr 2026 10:42:39 +0800

ollama pull model_name:tag 在有些地区下载速度会很慢，而且过程并不稳定。

如果你遇到的是大模型下载到一半反复中断、报错 TLS handshake timeout 或 unexpected EOF，那么问题很可能不只是 registry.ollama.ai 本身，而是后续跳转到的实际下载链路。

这篇文章记录一次简单直接的排查思路：先拿到模型文件的真实下载地址，再确认最终流量落到哪里，最后只针对关键域名做网络优化。

获取模型文件的下载地址

可以借助下面这个项目，把 Ollama 模型对应的 manifest 和 blob 下载地址直接提取出来：

https://github.com/Gholamrezadar/ollama-direct-downloader

以 gemma4:latest 为例，可以提取出类似下面这些链接。

Manifest 地址

`1`	`https://registry.ollama.ai/v2/library/gemma4/manifests/latest`

Blob 地址

https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11
https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2
https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:56380ca2ab89f1f68c283f4d50863c0bcab52ae3f1b9a88e4ab5617b176f71a3

如果你只是想快速验证，也可以直接用 curl 下载 manifest 和 blob：

curl -L "https://registry.ollama.ai/v2/library/gemma4/manifests/latest" -o "latest"
curl -L "https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11" -o "sha256-f0988ff50a2458c598ff6b1b87b94d0f5c44d73061c2795391878b00b2285e11"
curl -L "https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a" -o "sha256-4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a"
curl -L "https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2" -o "sha256-7339fa418c9ad3e8e12e74ad0fd26a9cc4be8703f9c110728a992b193be85cb2"

跳转后的真实下载地址

尝试用 wget 下载其中一个 blob，会发现请求并不是一直停留在 registry.ollama.ai，而是会继续跳转到一个 Cloudflare R2 对象存储地址：

wget https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
--2026-04-09 09:22:04--  https://registry.ollama.ai/v2/library/gemma4/blobs/sha256:4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a
Resolving registry.ollama.ai (registry.ollama.ai)... 104.21.75.227, 172.67.182.229, 2606:4700:3034::ac43:b6e5, ...
Connecting to registry.ollama.ai (registry.ollama.ai)|104.21.75.227|:443... connected.
HTTP request sent, awaiting response... 307 Temporary Redirect
Location: https://dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com/ollama/docker/registry/v2/blobs/sha256/4c/4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a/data?... [following]
--2026-04-09 09:22:05--  https://dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com/ollama/docker/registry/v2/blobs/sha256/4c/4c27e0f5b5adf02ac956c7322bd2ee7636fe3f45a8512c9aba5385242cb6e09a/data?...
Resolving dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com (dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com)... 172.64.66.1, 2606:4700:2ff9::1
Connecting to dd20bb891979d25aebc8bec07b2b3bbc.r2.cloudflarestorage.com|172.64.66.1|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 9608338848 (8.9G) [application/octet-stream]

从日志里可以看到几个关键信息：

registry.ollama.ai 返回了 307 Temporary Redirect
最终下载地址落在 *.r2.cloudflarestorage.com
真正承载大文件传输的，实际上是后面的对象存储域名

这一步很重要，因为它说明如果你的代理或分流规则只覆盖了 registry.ollama.ai，但没有处理 *.r2.cloudflarestorage.com，那下载仍然可能很慢，甚至反复中断。

调整网络设置

确认真实下载链路之后，排查方向就会清晰很多。

如果你正在使用代理、分流或自定义 DNS，建议优先检查下面几件事：

registry.ollama.ai 和 *.r2.cloudflarestorage.com 是否走了同一条稳定线路
代理规则是否只覆盖了前者，而漏掉了后者
当前出口是否适合持续下载数 GB 到数十 GB 的大文件

这类问题的关键并不是“能不能打开官网”，而是“跳转后的对象存储链路是否稳定、是否能长时间持续传输”。很多时候，真正需要优化的是 Cloudflare R2 这一层，而不是前面的 registry 域名。

调整前后的对比

下面是一次实际下载 gemma4:31b-it-q8_0 时的表现。

调整前，下载速度较慢，而且会在中途报错：

PS C:\Users\knightli> ollama run gemma4:31b-it-q8_0
pulling manifest
pulling a0feadb736f5:  38% ▕██████████████████████                                    ▏  12 GB/ 33 GB  1.2 MB/s   4h40m
Error: max retries exceeded: unexpected EOF

调整后，再次下载同一个模型时，速度和稳定性都有明显改善：

1
2
3

PS C:\Users\knightli> ollama run gemma4:31b-it-q8_0
pulling manifest
pulling a0feadb736f5:  46% ▕████████████████████████████████████████████████████████████████▏ 15 GB/ 33 GB  8.5 MB/s  35m23s

这并不意味着所有网络环境都能得到同样结果，但至少说明了一点：瓶颈很可能不在 Ollama 客户端本身，而在实际的大文件下载链路。

树莓派 5 跑 Gemma 4 实测：可行，但响应较慢

Wed, 08 Apr 2026 18:42:00 +0800

一次偏极限的尝试：在 Raspberry Pi 5（8GB RAM） 上运行 Gemma 4。目标不是大模型版本，而是最小体量的 E2B。

结论先说：能跑、能用，但更适合低交互频率场景，不适合高实时要求的对话体验。

测试环境

设备：Raspberry Pi 5（4 核 CPU，8GB RAM）
系统：Ubuntu Server（无图形界面）
访问方式：SSH
模型运行方式：LM Studio CLI（仅命令行模式）
模型：Gemma 4 E2B（约 4.5GB）

第 1 步：安装并启动 LM Studio CLI

安装 LM Studio 的 CLI 版本，然后启动服务并查看可用命令。

由于是纯命令行环境，这种仅命令行部署方式非常适合树莓派。

第 2 步：把模型存储切到 SSD

为了避免频繁读写 SD 卡，我将模型下载目录改到了外接 SSD。

树莓派 5 接 SSD 的体验明显比早期机型更实用，长期运行本地模型建议优先使用 SSD。

第 3 步：下载并加载 Gemma 4 E2B

下载完成后，模型可以正常加载进内存。

按官方信息，Gemma 4 系列具备：

面向 Agent 场景的工具调用能力（function calling）
多模态能力（含图像/视频；小模型也具备语音相关能力）
128K 上下文窗口
Apache 2.0 许可（可商用）

从树莓派的硬件条件看，E2B 这一档更适合先试起来。

第 4 步：启动 API 并开放局域网访问

模型加载后，我先在本机端口启动 API（4000），并通过 HTTP 请求确认模型列表可返回。

问题在于：默认只监听本机，局域网其他设备无法直接访问。

因为启动参数里不能直接设置 host，我用了 socat 做端口转发，把树莓派外部端口请求桥接到 LM Studio 内部端口，实现局域网访问。

结果是可行的：我在同一局域网的 MacBook 上能成功请求并拿到模型列表。

第 5 步：接入编辑器（Zed）

LM Studio 的本地服务兼容 OpenAI API 形态，因此多数支持自定义 base_url 的工具都可以直接接入。

我在 Zed 里新增了一个 LLM provider，指向树莓派上的 Gemma 4 实例，随后在编辑器内聊天测试通过。

实际可用性判断

这套方案适合：

本地自动化脚本
低并发、低实时性要求的辅助任务
个人学习和边缘设备实验

不太适合：

高频交互聊天
对响应延迟敏感的开发协作场景

结论

在 Raspberry Pi 5 上运行 Gemma 4（E2B）是可行的，而且实际效果比预期更好。

如果你的目标是“能离线跑、能接工具、能完成轻中量任务”，这条路线值得尝试；如果目标是流畅实时交互，仍建议上更强硬件。

OpenClaw 对接本地 Gemma 4：完整配置指南

Wed, 08 Apr 2026 18:18:00 +0800

这篇文章演示如何把 OpenClaw 对接到本地 Gemma 4 模型（通过 Ollama 提供接口）。

如果你还没完成本地部署，可先参考：

如何在笔记本电脑上运行 Gemma 4：5 分钟本地部署指南

第 1 步：启动 Ollama API 服务

先启动 Ollama 服务：

`1`	`ollama serve`

你可以用下面的命令快速测试 API 是否正常：

curl http://localhost:11434/api/generate -d '{
  "model": "gemma4:12b",
  "prompt": "你好"
}'

如果能返回模型输出，说明本地 API 已可用。

第 2 步：配置 OpenClaw 接入 Ollama

OpenClaw 配置文件路径通常为：

`1`	`~/.openclaw/config.yaml`

编辑 config.yaml，在 models 中新增一个本地模型条目：

models:
  # 你已有的模型配置...

  gemma4-local:
    provider: ollama
    base_url: http://localhost:11434
    model: gemma4:12b
    timeout: 120s

第 3 步：设置默认模型（可选）

如果你希望默认走 Gemma 4，可添加：

`1`	`default_model: gemma4-local`

第 4 步：重启并验证 OpenClaw

重启 OpenClaw：

`1`	`openclaw restart`

查看模型列表：

`1`	`openclaw models list`

发起一次对话测试：

`1`	`openclaw chat --model gemma4-local "你好"`

如果对话返回正常，说明 OpenClaw 已成功接入本地 Gemma 4。

常见排查

connection refused：先确认 ollama serve 是否在运行。
模型找不到：检查模型名是否与 ollama list 一致（例如 gemma4:12b）。
响应超时：可适当提高 timeout，并优先测试较小模型。

如何在笔记本电脑上运行 Gemma 4：5 分钟本地部署指南

Wed, 08 Apr 2026 18:06:00 +0800

如果你想在笔记本上本地运行 Gemma 4，Ollama 是目前最省事的方式之一。即使不折腾复杂环境，通常 5 分钟左右也能跑起来。

第 1 步：安装 Ollama

打开 https://ollama.com，下载对应系统的安装包。
按系统完成安装：

macOS：拖到 Applications。
Windows：运行 .exe 安装程序。
Linux：使用官网提供的安装脚本。

安装完成后，Ollama 会以后台服务形式运行。除初次安装外，日常可以只用简单命令。

第 2 步：下载 Gemma 4 模型

打开终端，执行：

`1`	`ollama pull gemma4:4b`

如果你的机器性能更强，可以改成 12b 或 27b。下载完成后，模型会保存在本地。

查看已下载模型：

`1`	`ollama list`

第 3 步：启动模型

`1`	`ollama run gemma4:4b`

这会在终端打开交互式对话。输入问题后回车即可；结束会话可输入：

/bye

如果你更喜欢网页聊天界面，可以配合 Open WebUI 使用。它可以把 Ollama 包装成浏览器端 UI，通常通过 Docker 几分钟即可完成配置。

笔记本性能优化建议

Apple Silicon（M2/M3/M4）：默认走 Metal，加速效果通常很好，12B 也有不错体验。
NVIDIA 显卡：检测到兼容 GPU 时会自动使用 CUDA，建议提前更新驱动。
仅 CPU 推理：可以运行，但大模型会明显变慢；多数 CPU-only 场景建议优先 4B。
释放内存：加载大模型前尽量关闭占内存应用。经验上每 10 亿参数大约需要 0.5GB 到 1GB 内存。

模型怎么选

Gemma 4 1B：适合轻量问答、基础摘要、快速查询；复杂推理能力有限。
Gemma 4 4B：适合多数日常任务（写作辅助、代码辅助、资料总结），速度和质量平衡较好。
Gemma 4 12B：适合更长上下文和更复杂任务，在代码与推理场景更稳。
Gemma 4 27B：适合高要求任务，效果更接近云端大模型，但对硬件要求明显更高。

Android 上安装并运行 Gemma 4：完整上手指南

Wed, 08 Apr 2026 17:55:53 +0800

如果你想在手机上离线体验 Gemma 4，这篇文章会带你从安装到实用功能一步步跑通。

第 1 步：获取应用

Google AI Edge Gallery 目前不在 Google Play 上架，需要通过 APK 侧载安装。

在 Android 设备上依次进入：

设置 -> 应用 -> 特殊应用权限 -> 安装未知应用

然后：

找到你使用的浏览器（例如 Chrome 或 Firefox），开启“允许来自此来源”。
在手机浏览器打开 Google AI Edge Gallery 的 GitHub Releases 页面。

地址：https://github.com/google-ai-edge/gallery/releases

下载最新的 .apk 安装包。
下载完成后，在通知栏或文件管理器中点开安装包，按提示完成安装。

网络正常时，这一步通常约 2 分钟可完成。

第 2 步：首次打开并授权

首次打开 AI Edge Gallery 时，应用会请求存储权限，用于保存模型文件。建议直接允许，否则应用无法下载或加载模型。

首页一般会看到这些入口：

Ask Image：图像理解任务（描述图片、回答图片相关问题）
AI Chat：常规文本对话
Summarize：粘贴文本并生成摘要
Smart Reply：生成回复建议

大多数用户最常用的是 AI Chat。

第 3 步：下载 Gemma 4 模型

进入 AI Chat。
按提示点击 Get Models。
在模型列表中选择 Gemma 4 版本（会显示对应体积）。
按设备性能选择模型；如果手机是 8GB RAM，可先从 Gemma 4 4B 开始。
点击 Download，后台开始下载。

注意：模型越大，下载时间越长。你也可以下载多个模型，后续按需切换，已下载模型会保存在本机，不必重复下载。

第 4 步：开始对话

模型下载完成后：

点击模型名称进行加载（首次加载通常需要 10 到 30 秒，取决于模型大小和设备性能）。
在聊天框输入问题并发送。
模型会在本地生成回复，数据不会上传到云端。

一般第一条回复会稍慢，这是模型预热的正常现象；同一会话后续回复通常更快。

第 5 步：体验视觉能力（Gemma 4 多模态）

如果你下载的是 Gemma 4 多模态版本：

返回主菜单，进入 Ask Image。
选择一张图片，或直接拍照。
输入你想问的问题（例如“这张图里有什么？”或“图里有哪些文字需要注意？”）。
等待模型在本地分析并返回结果。

这项功能可以离线使用，图片内容也不会发送到外部服务器。

谷歌 Gemma 4 模型对比：2B/4B/26B/31B 怎么选？

Sun, 05 Apr 2026 08:30:00 +0800

Gemma 4 主打 多模态 与 本地离线运行，并提供从轻量端到高性能端的完整模型梯度。对大多数本地部署用户来说，关键不是“选最大”，而是“选最匹配硬件与任务的版本”。

Gemma 4 各模型对比

下表用于快速选型参考；具体性能与资源占用请以实际部署环境测试为准。

模型	参数规模	定位	主要优势	主要限制	推荐场景
Gemma 4 2B	20 亿	超轻量	延迟低、资源占用小、部署门槛最低	复杂推理与长链路任务能力有限	移动端、IoT、轻量问答、简单自动化
Gemma 4 4B	40 亿	轻量增强	比 2B 更稳的理解与生成能力，仍易本地部署	高强度编码/复杂 Agent 任务上限有限	本地助手、基础文档处理、多语言日常任务
Gemma 4 26B	260 亿	高性能（专家混合）	推理和工具调用能力明显提升，适合生产工作流	显存需求显著上升，硬件门槛更高	编程助手、复杂工作流、企业内部 Agent
Gemma 4 31B	310 亿	高性能（稠密）	综合能力最强，复杂任务稳定性更好	资源消耗最高，部署与调优成本最大	高要求推理、复杂代码任务、重度自动化

怎么选：按硬件和任务倒推

如果你主要看“能不能跑、跑得顺不顺”，可以按下面选：

8GB 显存：优先 2B/4B。
12GB 显存：优先 4B 或更高模型的量化版本。
24GB 显存：可重点考虑 26B，并按任务评估 31B 量化版。
更高显存或多卡：可尝试 31B 的高精度配置。

建议优先保证稳定性和推理速度，再逐步提升模型规模。

四类典型使用场景

1) 本地通用助手

优先模型：4B
原因：成本和效果平衡好，适合长期常驻运行。

2) 代码与自动化

优先模型：26B
原因：在多步骤任务、工具调用、脚本生成上更稳。

3) 高难度推理与复杂 Agent

优先模型：31B
原因：复杂上下文下的稳定性更高，容错更好。

4) 边缘设备与轻量离线

优先模型：2B
原因：最容易在资源受限设备落地。

部署建议（Ollama 方向）

最实用的做法是“小步快跑”：

先用 4B 建立可运行基线（速度、内存、效果）。
把你的真实任务做成固定测试集（例如 20 条常见问题 + 10 个自动化任务）。
再升级到 26B/31B 对比准确率、时延和显存成本。
只在“收益明显”时升级大模型。

这样可以避免一上来就追求大参数，结果出现卡顿、吞吐低、维护复杂的问题。

结论

Gemma 4 的真正价值，不是单纯“参数更大”，而是给了从轻量到高性能的一整套可落地梯度：

想低成本快速上线：从 2B/4B 开始。
想把本地 AI 真正接入生产流程：优先 26B。
想冲复杂推理与重度自动化：再上 31B。

Gemma 4 的最佳选择通常不是参数最大，而是与硬件条件和任务目标匹配度最高的版本。

Gemma 4 on KnightLi的博客

本地部署 Gemma 4：E2B、E4B、26B、31B 各量化版本需要多少显存

先看结论

Gemma 4 E2B 显存表

Gemma 4 E4B 显存表

Gemma 4 26B A4B 显存表

Gemma 4 31B 显存表

为什么实际占用会比文件体积更高

怎么选

参考来源

Gemma 4 E4B 越狱版和官方普通版有什么区别

这个衍生版模型卡自己说了什么

官方版 vs 所谓“越狱版”

核心区别是“对齐方式”变了，不是“能力等级”突然变高

为什么官方普通版会更保守

什么情况下普通版更合适

什么情况下有人会去试越狱版

结论

参考来源

Windows 用 WSL + Ollama 本地部署 Hermes Agent，并接入 Telegram

整体流程

1. 安装 WSL 和 Ubuntu

2. 更新 Ubuntu，并安装基础环境

安装 Python

安装 zstd

安装 Node.js

安装 Git

3. 安装 Ollama，并拉取 Gemma 4

4. 安装并配置 Hermes Agent

Hermes Agent 常用命令

启动

重新进入配置

配置聊天平台网关

更新

接入 Telegram 的基础步骤

这一套方案适合什么人

需要注意的几个点

结论

Windows 下 llama-cli 直连 Hugging Face 报 SSL 证书验证失败怎么办

最省事的办法：先手动下载模型

如果还想继续用 -hf 自动下载

Gemma-4-31B-it 里的 it 是什么意思

it 是什么

31B 是什么

Gemma-4 又表示什么

怎么选

一句话总结

Gemma 4 本地调用指南：从一键运行到开发集成

1) 最快上手：Ollama（推荐）

2) 图形界面：LM Studio / Unsloth Studio

3) 低配与极致控制：llama.cpp

4) 开发集成：Transformers / vLLM

快速选型

模型尺寸建议

Ollama 下载模型 pull 速度很慢的排查和解决办法

获取模型文件的下载地址

Manifest 地址

Blob 地址

跳转后的真实下载地址

调整网络设置

调整前后的对比

树莓派 5 跑 Gemma 4 实测：可行，但响应较慢

测试环境

第 1 步：安装并启动 LM Studio CLI

第 2 步：把模型存储切到 SSD

第 3 步：下载并加载 Gemma 4 E2B

第 4 步：启动 API 并开放局域网访问

第 5 步：接入编辑器（Zed）

实际可用性判断

结论

OpenClaw 对接本地 Gemma 4：完整配置指南

第 1 步：启动 Ollama API 服务

第 2 步：配置 OpenClaw 接入 Ollama

第 3 步：设置默认模型（可选）

第 4 步：重启并验证 OpenClaw

常见排查

如何在笔记本电脑上运行 Gemma 4：5 分钟本地部署指南

第 1 步：安装 Ollama

第 2 步：下载 Gemma 4 模型

第 3 步：启动模型

如果还想继续用 `-hf` 自动下载

`it` 是什么

`31B` 是什么

`Gemma-4` 又表示什么