Tags
7 ページ目
Gemma
Gemma 4 MTP実測チューニング:assistantドラフトモデルで120 tokens/sを狙う
Gemma 4 assistant-MTPとは:Multi-Token Predictionのドラフトモデルが推論を高速化する仕組み
8GB VRAMでGemma 4 12Bを動かす:llama-cliのハイブリッドオフロード設定
DiffusionGemmaのローカルデプロイ:vLLMでGoogleのテキスト拡散モデルを動かす
DiffusionGemma:Googleが拡散モデルをテキスト生成に持ち込む
Gemma 4 12B の使い方:Hugging Face モデルカードとローカル読み込みガイド
Gemma 4 12B はローカルで動く?16GB PC で試すときの考え方