🍥

KnightLi的博客

记录并分享日常

Tags

29 个页面

本地大模型

Claude Code + Ollama 本地部署教程：用 CC Switch 打造免费 AI 编程助手

本地运行 DeepSeek 4：Antirez ds4 在 Apple Silicon Mac 上的尝试

llama.cpp 多 GPU 性能实测思路：2x V100 16GB 会比单卡 32GB 快吗？

RTX 5090 / 5080 AI 推理性能实测：本地大模型、4K 视频生成和实时 3D 怎么选

DeepSeek V4 本地私有化部署方案：国产芯片与消费级显卡集群怎么选

适合 RTX 3060 显卡运行的本地 LLM 模型推荐

Hermes + Qwen3.6：本地 Agent 的一套低成本部署方案

NVIDIA 发布 Nemotron 3 Nano Omni：面向智能体的开放全模态推理模型

本地部署 Qwen3.6：27B 与 35B-A3B 各量化版本需要多少显存

本地部署 DeepSeek V4：Pro、Flash 与 Base 版本显存占用估算表

本地部署 Gemma 4：E2B、E4B、26B、31B 各量化版本需要多少显存

8G 显存跑 llama.cpp 怎么调：32K 更稳，64K 要开 KV Cache 量化

16G 显卡也能跑 35B 模型：LM Studio 下 MoE 模型的显存压缩思路

Ollama 多显卡使用笔记：显存叠加、GPU 选择和常见误区

Gemma 4 E4B 越狱版和官方普通版有什么区别

llama-quantize 怎么用：GGUF 模型量化入门

llama.cpp 如何从 Hugging Face 获取 GGUF 模型

Gemma-4-31B-it 里的 it 是什么意思

Hugging Face 选择 Llama 的 GGUF 模型时，量化怎么选：从 Q8 到 Q2 的实用建议

Windows 局域网访问 Ollama API 设置指南

Gemma 4 本地调用指南：从一键运行到开发集成

Ollama 云模型是什么，怎么用

从 Hugging Face 下载 GGUF 模型并导入 Ollama

Ollama 下载模型 pull 速度很慢的排查和解决办法

树莓派 5 跑 Gemma 4 实测：可行，但响应较慢

OpenClaw 对接本地 Gemma 4：完整配置指南

如何在笔记本电脑上运行 Gemma 4：5 分钟本地部署指南

Android 上安装并运行 Gemma 4：完整上手指南

谷歌 Gemma 4 模型对比：2B/4B/26B/31B 怎么选？