Tags
7 个页面
量化
本地部署 Qwen3.6:27B 与 35B-A3B 各量化版本需要多少显存
本地部署 DeepSeek V4:Pro、Flash 与 Base 版本显存占用估算表
本地部署 Gemma 4:E2B、E4B、26B、31B 各量化版本需要多少显存
16G 显卡也能跑 35B 模型:LM Studio 下 MoE 模型的显存压缩思路
llama-quantize 怎么用:GGUF 模型量化入门
Hugging Face 选择 Llama 的 GGUF 模型时,量化怎么选:从 Q8 到 Q2 的实用建议
大模型量化详解:FP16、Q8、Q5、Q4 到 Q2 怎么选?