Tags
4 个页面
量化
16G 显卡也能跑 35B 模型:LM Studio 下 MoE 模型的显存压缩思路
llama-quantize 怎么用:GGUF 模型量化入门
Hugging Face 选择 Llama 的 GGUF 模型时,量化怎么选:从 Q8 到 Q2 的实用建议
大模型量化详解:FP16、Q8、Q5、Q4 到 Q2 怎么选?