🍥

KnightLi的博客

记录并分享日常

Tags

第 5 頁

本地推理

Gemma 4 MTP 實測調參：用 assistant 草稿模型衝 120 tokens/s

Gemma 4 assistant-MTP 是什麼：多 Token 預測草稿模型怎麼加速推理

8GB 顯存跑 Gemma 4 12B：llama-cli 混合卸載參數怎麼配

DiffusionGemma 本地部署：用 vLLM 跑起 Google 文字擴散模型

DiffusionGemma：Google 把擴散模型帶進文字生成