Tags
29 个页面
本地大模型
Claude Code + Ollama 本地部署教程:用 CC Switch 打造免费 AI 编程助手
本地运行 DeepSeek 4:Antirez ds4 在 Apple Silicon Mac 上的尝试
llama.cpp 多 GPU 性能实测思路:2x V100 16GB 会比单卡 32GB 快吗?
RTX 5090 / 5080 AI 推理性能实测:本地大模型、4K 视频生成和实时 3D 怎么选
DeepSeek V4 本地私有化部署方案:国产芯片与消费级显卡集群怎么选
适合 RTX 3060 显卡运行的本地 LLM 模型推荐
Hermes + Qwen3.6:本地 Agent 的一套低成本部署方案
NVIDIA 发布 Nemotron 3 Nano Omni:面向智能体的开放全模态推理模型
本地部署 Qwen3.6:27B 与 35B-A3B 各量化版本需要多少显存
本地部署 DeepSeek V4:Pro、Flash 与 Base 版本显存占用估算表
本地部署 Gemma 4:E2B、E4B、26B、31B 各量化版本需要多少显存
8G 显存跑 llama.cpp 怎么调:32K 更稳,64K 要开 KV Cache 量化
16G 显卡也能跑 35B 模型:LM Studio 下 MoE 模型的显存压缩思路
Ollama 多显卡使用笔记:显存叠加、GPU 选择和常见误区
Gemma 4 E4B 越狱版和官方普通版有什么区别
llama-quantize 怎么用:GGUF 模型量化入门
llama.cpp 如何从 Hugging Face 获取 GGUF 模型
Gemma-4-31B-it 里的 it 是什么意思
Hugging Face 选择 Llama 的 GGUF 模型时,量化怎么选:从 Q8 到 Q2 的实用建议
Windows 局域网访问 Ollama API 设置指南
Gemma 4 本地调用指南:从一键运行到开发集成
Ollama 云模型是什么,怎么用
从 Hugging Face 下载 GGUF 模型并导入 Ollama
Ollama 下载模型 pull 速度很慢的排查和解决办法
树莓派 5 跑 Gemma 4 实测:可行,但响应较慢
OpenClaw 对接本地 Gemma 4:完整配置指南
如何在笔记本电脑上运行 Gemma 4:5 分钟本地部署指南
Android 上安装并运行 Gemma 4:完整上手指南
谷歌 Gemma 4 模型对比:2B/4B/26B/31B 怎么选?