Tags

7 ページ目

Gemma

Gemma 4 MTP実測チューニング：assistantドラフトモデルで120 tokens/sを狙う

Gemma 4 assistant-MTPとは：Multi-Token Predictionのドラフトモデルが推論を高速化する仕組み

8GB VRAMでGemma 4 12Bを動かす：llama-cliのハイブリッドオフロード設定

DiffusionGemmaのローカルデプロイ：vLLMでGoogleのテキスト拡散モデルを動かす

DiffusionGemma：Googleが拡散モデルをテキスト生成に持ち込む

Gemma 4 12B の使い方：Hugging Face モデルカードとローカル読み込みガイド

Gemma 4 12B はローカルで動く？16GB PC で試すときの考え方