Tags
5 ページ目
ローカル推論
Gemma 4 MTP実測チューニング:assistantドラフトモデルで120 tokens/sを狙う
Gemma 4 assistant-MTPとは:Multi-Token Predictionのドラフトモデルが推論を高速化する仕組み
8GB VRAMでGemma 4 12Bを動かす:llama-cliのハイブリッドオフロード設定
DiffusionGemmaのローカルデプロイ:vLLMでGoogleのテキスト拡散モデルを動かす
DiffusionGemma:Googleが拡散モデルをテキスト生成に持ち込む