Tags
18 个页面
本地大模型
8G 显存跑 llama.cpp 怎么调:32K 更稳,64K 要开 KV Cache 量化
16G 显卡也能跑 35B 模型:LM Studio 下 MoE 模型的显存压缩思路
Ollama 多显卡使用笔记:显存叠加、GPU 选择和常见误区
Gemma 4 E4B 越狱版和官方普通版有什么区别
llama-quantize 怎么用:GGUF 模型量化入门
llama.cpp 如何从 Hugging Face 获取 GGUF 模型
Gemma-4-31B-it 里的 it 是什么意思
Hugging Face 选择 Llama 的 GGUF 模型时,量化怎么选:从 Q8 到 Q2 的实用建议
Windows 局域网访问 Ollama API 设置指南
Gemma 4 本地调用指南:从一键运行到开发集成
Ollama 云模型是什么,怎么用
从 Hugging Face 下载 GGUF 模型并导入 Ollama
Ollama 下载模型 pull 速度很慢的排查和解决办法
树莓派 5 跑 Gemma 4 实测:可行,但响应较慢
OpenClaw 对接本地 Gemma 4:完整配置指南
如何在笔记本电脑上运行 Gemma 4:5 分钟本地部署指南
Android 上安装并运行 Gemma 4:完整上手指南
谷歌 Gemma 4 模型对比:2B/4B/26B/31B 怎么选?