🍥

KnightLi的博客

记录并分享日常

Tags

13 个页面

GGUF

RTX 3060 跑 Qwen3 最佳量化版本：12GB 显存怎么选

8GB 显存跑 Gemma 4 12B：llama-cli 混合卸载参数怎么配

RTX 3060 也能跑 35B？llama.cpp 的 --n-cpu-moe 让老电脑继续本地大模型

Qwen3.6-35B-A3B 越狱版本地部署：无审查 GGUF、llama.cpp 与安全边界

RTX 3070 8GB 本地运行 Qwen3.6-35B：llama.cpp 部署要点与优化参数

llama.cpp b9196 更新：Windows 预编译版支持 CUDA 13.1、Vulkan、HIP 和 SYCL

适合 RTX 3060 显卡运行的本地 LLM 模型推荐

本地部署 Qwen3.6：27B 与 35B-A3B 各量化版本需要多少显存

本地部署 Gemma 4：E2B、E4B、26B、31B 各量化版本需要多少显存

llama-quantize 怎么用：GGUF 模型量化入门

llama.cpp 如何从 Hugging Face 获取 GGUF 模型

Hugging Face 选择 Llama 的 GGUF 模型时，量化怎么选：从 Q8 到 Q2 的实用建议

从 Hugging Face 下载 GGUF 模型并导入 Ollama