🍥

KnightLi的博客

记录并分享日常

Tags

7 个页面

量化

本地部署 Qwen3.6：27B 与 35B-A3B 各量化版本需要多少显存

本地部署 DeepSeek V4：Pro、Flash 与 Base 版本显存占用估算表

本地部署 Gemma 4：E2B、E4B、26B、31B 各量化版本需要多少显存

16G 显卡也能跑 35B 模型：LM Studio 下 MoE 模型的显存压缩思路

llama-quantize 怎么用：GGUF 模型量化入门

Hugging Face 选择 Llama 的 GGUF 模型时，量化怎么选：从 Q8 到 Q2 的实用建议

大模型量化详解：FP16、Q8、Q5、Q4 到 Q2 怎么选？