Tags

5 ページ目

ローカル推論

Gemma 4 MTP実測チューニング：assistantドラフトモデルで120 tokens/sを狙う

Gemma 4 assistant-MTPとは：Multi-Token Predictionのドラフトモデルが推論を高速化する仕組み

8GB VRAMでGemma 4 12Bを動かす：llama-cliのハイブリッドオフロード設定

DiffusionGemmaのローカルデプロイ：vLLMでGoogleのテキスト拡散モデルを動かす

DiffusionGemma：Googleが拡散モデルをテキスト生成に持ち込む