大模型量化详解：FP16、Q8、Q5、Q4 到 Q2 怎么选？

量化的核心目标很简单：用少量精度损失，换取更小体积、更低显存占用和更快推理速度。
对本地部署用户来说，选对量化版本，往往比盲目追求大参数更重要。

什么是量化

量化是指把模型参数从高精度格式（如 FP16）压缩为更低位宽格式（如 Q8、Q4）。

可以把它理解为：

量化版本	精度/位宽	体积	质量损失	推荐场景
FP16	16 位浮点	最大	几乎无损	研究、评测、追求极致质量
Q8_0	8 位整数	较大	几乎无损	高配电脑，兼顾质量与性能
Q5_K_M	5 位混合	中等	轻微损失	日常主力，平衡方案
Q4_K_M	4 位混合	较小	可接受损失	通用默认，性价比高
Q3_K_M	3 位混合	很小	明显损失	低配设备，能跑优先
Q2_K	2 位混合	最小	较大损失	极限资源场景，临时可用

以 gemma-4:4b-q4_k_m 为例：

建议先从能稳定跑起来的版本开始用，再逐步提高精度，而不是一上来就追求最大模型。

选型的本质不是“越大越好”，而是“在你的硬件条件下，达到最稳定可用的效果”。