Tags
5 个页面
本地推理
Gemma 4 MTP 实测调参:用 assistant 草稿模型冲 120 tokens/s
Gemma 4 assistant-MTP 是什么:多 Token 预测草稿模型怎么加速推理
8GB 显存跑 Gemma 4 12B:llama-cli 混合卸载参数怎么配
DiffusionGemma 本地部署:用 vLLM 跑起 Google 文本扩散模型
DiffusionGemma:Google 把扩散模型带进文本生成