🍥

KnightLi的博客

记录并分享日常

Tags

5 个页面

本地推理

Gemma 4 MTP 实测调参：用 assistant 草稿模型冲 120 tokens/s

Gemma 4 assistant-MTP 是什么：多 Token 预测草稿模型怎么加速推理

8GB 显存跑 Gemma 4 12B：llama-cli 混合卸载参数怎么配

DiffusionGemma 本地部署：用 vLLM 跑起 Google 文本扩散模型

DiffusionGemma：Google 把扩散模型带进文本生成