Llama.cpp on KnightLiブログ

llama.cpp b9196アップデート：Windowsプリビルド版がCUDA 13.1、Vulkan、HIP、SYCLに対応

Mon, 18 May 2026 23:20:00 +0800

llama.cpp の最近のWindows版は、ローカルLLMユーザーにとってかなり扱いやすくなりました。以前WindowsでGGUFモデルを動かすとき、多くの人が環境問題でつまずいていました。CUDAバージョンの不一致、DLL不足、ドライバー非互換、CMakeビルド失敗、環境変数の誤り、Vulkan / HIP / SYCL設定の複雑さなどです。

現在は公式Releaseで複数のWindowsプリビルドパッケージが提供されています。多くの場合、ソースからビルドする必要はありません。対応するバージョンをダウンロードし、展開し、モデルファイルを置けば、そのままローカル推論サービスを起動できます。

llama.cppは何に向いているか

llama.cpp は、現在もっともよく使われているローカルGGUFモデル推論フレームワークのひとつです。軽量でクロスプラットフォーム、CPUでもGPUでも動作し、GGUFエコシステムには多くのモデル資源があります。

よく使われるモデル系統は次の通りです。

Qwen
Llama
DeepSeek
Gemma
Mistral
Mixtral
Hermes

GGUF量子化モデルが普及するにつれて、多くのオープンソースモデルがローカル展開向けのGGUF版を提供するようになりました。一般ユーザーにとって、llama.cpp の価値は明確です。複雑な推論フレームワーク一式を構築しなくても、自分のPCで使えるチャットサービスを動かせます。

Windowsプリビルド版の選び方

Windowsユーザーは、ハードウェアに応じて次のビルドを選べます。

Windows x64 CPU
Windows x64 CUDA 12.4
Windows x64 CUDA 13.1
Windows x64 Vulkan
Windows x64 HIP Radeon
Windows x64 SYCL
Windows ARM64 CPU

NVIDIA GPUなら、通常はCUDA版を優先します。RTX 3060、4060、4070、4080、4090のようなカードはCUDAルートに向いています。

AMD GPUなら、HIPまたはVulkanを試せます。実際には、完全なROCm環境を整えたくない場合、Vulkanのほうが扱いやすいこともあります。

Intel内蔵GPUやArc GPUなら、SYCLまたはVulkanを試せます。性能はNVIDIA CUDAには及ばないことが多いですが、中小規模のGGUFモデルを試すには十分です。

CPU版は、単体GPUがないユーザーや、小さなモデルを検証したいユーザーに向いています。速度は速くありませんが、導入はもっとも簡単です。

通常のGGUFモデルを起動する

llama.cpp のWindowsプリビルドパッケージをダウンロードし、モデルを models ディレクトリに置いたとします。展開した llama.cpp ディレクトリに入り、次のように起動できます。

`1`	`llama-server.exe -m models\your-model.gguf -ngl 999`

ここで -m はGGUFモデルファイルを指し、-ngl 999 は可能な限りモデル層をGPUに載せる指定です。実際にどれだけ載るかは、VRAM容量、モデルサイズ、量子化形式によって変わります。

起動に成功したら、ブラウザで次を開きます。

`1`	`http://127.0.0.1:8080`

これでローカルWebチャット画面に入れます。

VRAMが足りない場合は、より小さいモデルか、Q4やQ5など低めの量子化GGUFに切り替えます。パラメータ数だけでなく、量子化形式とコンテキスト長設定も確認してください。

マルチモーダル視覚モデルを起動する

マルチモーダル視覚モデルでは、通常メインモデルファイルだけでなく、mmproj 視覚投影ファイルも必要です。起動時にはメインモデルと mmproj を同時に指定します。

`1`	`llama-server.exe -m "models\main-model.gguf" --mmproj "models\mmproj-model.gguf" -ngl 999`

主な用途は次の通りです。

OCR認識
スクリーンショット理解
Webページスクリーンショット解析
画像Q&A
簡単な視覚内容判定

たとえば Qwen2-VL / Qwen2.5-VL 系の視覚モデルは、中国語スクリーンショット理解、OCR、画像とテキストのQ&Aで実用的です。メインモデルと mmproj ファイルが対応しているか必ず確認してください。バージョン不一致は読み込み失敗や異常な結果につながりやすいです。

batスクリプトで複数モデルを管理する

ローカルに複数モデルを置く場合、簡単な .bat スクリプトでメニュー切り替えできます。以下は例です。パスとモデル名は自分の環境に合わせて変更してください。

@echo off
chcp 65001 >nul
cd /d C:\path\to\llama-b9196-bin-win-cuda-13.1-x64

echo 请选择模型：
echo 1. Gemma
echo 2. Qwen VL 多模态
echo 3. DeepSeek

set /p choice=输入数字：

if "%choice%"=="1" llama-server.exe -m "models\gemma.gguf" -ngl 999
if "%choice%"=="2" llama-server.exe -m "models\qwen-vl.gguf" --mmproj "models\mmproj.gguf" -ngl 999
if "%choice%"=="3" llama-server.exe -m "models\deepseek.gguf" -ngl 999

pause

保存時はUTF-8エンコーディングを推奨します。その後、拡張子を .bat に変更します。ダブルクリックすると数字でモデルを選べます。

モデル選びで見るべき3点

第一にハードウェアです。VRAMが大きいほど大きなモデルを動かせます。VRAMが足りない場合、大きなモデルを無理に使わず、7B、8B、または低めの量子化版から始めるのが安全です。

第二に用途です。日常的なQ&A、要約、書き換えなら、小型モデルや中程度の量子化で十分なことが多いです。コード、長文書解析、マルチモーダル理解をしたいなら、より強いモデルとより多いVRAMが必要です。

第三にライセンスと安全境界です。ネット上には多くのコミュニティ改変モデルがありますが、能力、制限、ライセンスはそれぞれ異なります。ダウンロード前に、出所、ライセンス、適用場面、リスクを確認してください。出所不明のモデルに本番タスクを直接任せるのはおすすめしません。

よくある問題

起動時にDLL不足が出る場合は、まずダウンロードしたパッケージとGPUルートが合っているか確認してください。NVIDIAユーザーがHIP版を誤って落としたり、AMDユーザーがCUDA版を落としたりしないようにします。

モデル読み込みが遅い場合、モデルが大きすぎる、ディスクが遅い、またはVRAM不足で一部レイヤーがCPUに戻っている可能性があります。

Webページが開かない場合は、コマンドラインでサービスが正常に起動しているかを先に確認し、ポートが 8080 かどうかも見ます。ポートが使われている場合は、llama-server のパラメータでポートを変更できます。

マルチモーダルモデルの結果がおかしい場合は、プロンプトを変える前に、mmproj ファイルがメインモデルと対応しているかを確認します。

まとめ

今回のWindowsプリビルドパッケージの価値は、ローカルAIの入口を下げたことです。以前は多くのユーザーがビルドや依存関係でつまずいていましたが、今は「モデルをダウンロードし、サービスを起動し、結果を試す」段階に早く入れます。

Windowsユーザー向けには、ルート選択を簡単にまとめると次の通りです。

NVIDIA：CUDAを優先。
AMD：まずVulkanを試し、その後HIPを見る。
Intel：SYCLまたはVulkanを試す。
単体GPUなし：CPU版で小型モデルを動かす。

実際に使う前には、モデルの出所、ライセンス、VRAM要件、実際の出力を確認してください。ローカルAIの利点は制御しやすく、オフラインで、低遅延なことです。ただしコストがないわけではありません。モデル管理、ハードウェア資源、出力品質は自分で面倒を見る必要があります。

参考元：https://www.freedidi.com/24211.html

llama.cpp のマルチ GPU 性能を実測する考え方：2x V100 16GB は単体 32GB より速いのか？

Sat, 09 May 2026 15:05:41 +0800

大まかな結論は、llama.cpp のマルチ GPU offload は「2 枚目を足せば性能がそのまま増える」ものではない、ということです。モデルが最初から 1 枚の 32GB GPU に完全に収まるなら、2x V100 16GB は単体 32GB より扱いにくく、場合によっては遅くなります。逆に、モデルが 1 枚の 16GB に収まらないなら、2 枚構成の主な価値は「モデルを GPU に載せられること」で、その効果はかなり大きくなります。

まず split mode を分けて考える

llama.cpp のマルチ GPU 利用では、主に --split-mode と --tensor-split が関係します。性能を考えるときは、まず次のモードを分けて見ます。

layer：層ごとに別の GPU へ分割する方式。互換性が高く、多くの場合は最初に試す選択肢です。
tensor：テンソル計算を複数 GPU に分割する方式。より並列計算に近い一方で、GPU 間の帯域とバックエンド対応に強く依存します。
row：古い行分割方式です。今でも見かけますが、新規構成で最初に選ぶ方式ではありません。

簡単に言えば、layer は「階ごとに別のカードへ置く」ようなものです。単一 token 生成時には、2 枚のカードを同時に常に使い切れるとは限りません。tensor は「同じ層を 2 枚のカードで一緒に計算する」形に近く、理論上は並列性がありますが、カード間通信がボトルネックになります。

単体 32GB に収まるなら、双 16GB が速いとは限らない

モデルと KV cache が 1 枚の 32GB GPU に完全に収まるなら、単体カードのほうが安定し、速いことも多いです。1x V100 32GB と 2x V100 16GB のような同世代ハードウェアでは、後者が必ず勝つとは言えません。

保守的に見ると、2x V100 16GB は単体 V100 32GB より 10% から 40% 遅くなることがあります。特に、一人でのチャット、Continue Agent、コード Q&A のように、1 回のリクエストで主に 1 つの回答を生成する用途ではそうなりやすいです。

理由は単純です。マルチ GPU は VRAM を単純に 1 つの高速なプールへ合体するわけではありません。layer 分割では推論が GPU 間を移動し、token 生成時に片方の GPU がもう片方を待つことがあります。tensor 分割では 2 枚で同時に計算できますが、中間結果の同期が必要になり、帯域と遅延がスループットに直接効きます。

つまり選択肢が次の 2 つなら、

1x V100 32GB
2x V100 16GB

対象モデルがすでに 1 枚の 32GB に完全に収まる場合、単体 32GB のほうが使いやすいことが多いです。

単体 16GB に収まらないなら、双カードの価値は大きい

一方で、モデルが 1 枚の 16GB に収まらず、2 枚の 16GB なら収まる場合は話が変わります。

このとき双カードの価値ははっきりしています。

1 枚の 16GB：大量の CPU offload が必要になり、速度が大きく落ちる可能性があります。
2x 16GB：重みをできるだけ GPU に残せるため、CPU/GPU 混在実行よりかなり速くなる可能性があります。

この場面では、2x V100 16GB が単体 32GB より速いとは限りません。それでも「1 枚 16GB と大量のシステムメモリ offload」より数倍速いことはあります。つまり双カードの第一の価値は加速ではなく、モデル重みを遅いシステムメモリへ落とさずに済むことです。

V100 PCIe と V100 SXM2 は大きく違う

マルチ GPU 推論で見落としやすいのがインターコネクトです。

V100 SXM2 で、マシンに NVLink がある場合、GPU 間通信帯域はかなり高くなります。NVIDIA の V100 資料では、NVLink の相互接続帯域は最大 300GB/s とされています。この環境なら、tensor や大きめの batch を使う場面で、単体カードに近い性能、あるいはそれを超える性能を狙いやすくなります。

V100 PCIe の場合は、もっと保守的に見るべきです。V100 PCIe の相互接続は主に PCIe Gen3 で、資料上の interconnect bandwidth は 32GB/s です。NVLink とは桁が違うため、PCIe 双カードでは「VRAM は足りるが速度は 2 倍にならない」ことがよくあります。

そのため 2x V100 16GB が価値ある構成かを判断するときは、VRAM を足して 32GB と見るだけでは足りません。PCIe 版なのか、SXM2/NVLink 版なのかも確認する必要があります。

実際にはどう選ぶか

モデルが 1 枚の 32GB GPU に収まるなら、まず単体カードを優先します。遅延、安定性、調整コストの面で有利なことが多いです。

モデルが 1 枚の 16GB には収まらず、2 枚の 16GB なら収まるなら、双カードは使う価値があります。この場合の目的は、重みをできるだけ GPU に残すことであり、性能が線形に倍増することを期待することではありません。

V100 PCIe の双カードなら、まず --split-mode layer を試し、「安定して動くこと」と「CPU に落とす量を減らすこと」を目標にします。

V100 SXM2/NVLink なら、tensor 関連のモードを試す価値が高くなります。特に prefill、大きい batch、同時リクエストの場面で有効です。

いつ 2x16GB を買い、いつ 1x32GB を買うか

一人で使い、主にチャット、コード補完、Continue Agent、長文コンテキスト Q&A を行い、対象モデルが 32GB に収まるなら、1x32GB のほうが一般的にはおすすめです。GPU 間スケジューリングがなく、遅延が安定し、問題切り分けも簡単です。

すでに 16GB カードを 1 枚持っていて、低コストで 30B、32B、または高めの量子化モデルを動かしたいなら、2x16GB には意味があります。token/s が倍になるとは限りませんが、本来 CPU offload が必要だった重みを GPU に残せます。

新規に購入するなら、優先度は次のように考えられます。

単一モデル、単一ユーザー、応答遅延重視：1x32GB を優先。
モデルが単体カードに収まらず、予算が限られる：2x16GB を検討。
NVLink または SXM2 マシンがある：2x16GB の有用性は通常の PCIe 双カードよりかなり高い。
将来さらに長いコンテキストを使いたい：重みサイズだけでなく、KV cache 用の VRAM も残す。

layer split と tensor split の実用的な使い方

実用上のおすすめは、まず layer、次に tensor を測ることです。

layer は出発点に向いています。モデルを層単位で分配し、互換性が高く、PCIe 双カードにも比較的向いています。欠点は、生成段階がパイプラインのようになり、ある時点では片方のカードだけが忙しく、もう片方が待つことがある点です。

tensor は、V100 SXM2/NVLink のように相互接続帯域が高いマシンに向いています。同じ層の計算の一部を複数 GPU に分けるため、理論上は並列性があります。ただしカード間同期が増えます。PCIe 双カードでは、通信コストが利益を食いつぶす可能性があります。

実際のテストは、まず次のような組み合わせから始めます。

1
2
3

llama-bench -m model.gguf -ngl 99 --split-mode layer --tensor-split 1,1
llama-bench -m model.gguf -ngl 99 --split-mode tensor --tensor-split 1,1
llama-bench -m model.gguf -ngl 99 --split-mode layer --tensor-split 1,0

3 つ目は長期運用向けではありません。単体カードの参照値を取るためです。これにより、双カードが本当に速いのか、それとも単に VRAM 圧力を分散しているだけなのかを見分けられます。

prefill と decode で性能が違う理由

ローカル LLM の性能は、通常 2 つの段階に分けて見るべきです。

prefill：入力 prompt を処理します。代表的な指標は pp512 のような prompt processing スループットです。
decode：回答を token ごとに生成します。代表的な指標は tg128 のような token generation スループットです。

prefill は大きな batch の行列計算に近く、GPU を使い切りやすく、マルチ GPU 並列化の恩恵も受けやすいです。decode は 1 token ずつ生成するため、batch が小さく同期が頻繁です。そのためカード間通信とスケジューリング遅延が表に出やすくなります。

そのため、双カードで pp512 は良くなるのに、tg128 はほとんど改善しない、あるいは遅くなることがあります。チャットや Agent の体感は tg128 に近く、長文投入、batch prefill、同時リクエスト処理では pp512 も重要になります。

KV cache は第 2 の VRAM ボトルネックになるか

なります。多くの人はモデル重みだけを計算し、KV cache を忘れます。

モデル重みは「モデルをロードできるか」を決めます。KV cache は「必要なコンテキスト長を使えるか」を決めます。コンテキストが長く、同時実行が多く、batch が大きいほど、KV cache の占有は目立ちます。モデル本体は 32GB に収まるのに、32K や 64K コンテキストを開くと VRAM が足りなくなることがあります。

少なくとも次の分の VRAM 余裕を残して考えるべきです。

KV cache
CUDA graph またはバックエンドのランタイムオーバーヘッド
prompt batch と ubatch
デスクトップ、ドライバ、他プロセスの使用量

2x16GB を使う場合、VRAM は完全に等価な 32GB の大きなプールではありません。一部のバッファ、KV cache、中間テンソルは、単一カードの残り VRAM に制限される場合があります。長文コンテキストを測るときは、モデルが起動するかだけでなく、実際の --ctx-size と同時実行数でテストするのが安全です。

llama-bench で双カードを自分で測る

llama-bench は、直接チャットするよりハードウェア比較に向いています。prompt processing と token generation を分けて比較できるためです。公式 README の基本例は次の通りです。

`1`	`llama-bench -m model.gguf`

双 V100 なら、少なくとも次の組み合わせを測ります。

# Single-card baseline
CUDA_VISIBLE_DEVICES=0 llama-bench -m model.gguf -ngl 99

# Dual-card layer split
CUDA_VISIBLE_DEVICES=0,1 llama-bench -m model.gguf -ngl 99 --split-mode layer --tensor-split 1,1

# Dual-card tensor split
CUDA_VISIBLE_DEVICES=0,1 llama-bench -m model.gguf -ngl 99 --split-mode tensor --tensor-split 1,1

特に見るべき列は 2 つです。

pp512：prompt processing。長い入力や batch prefill に関係します。
tg128：token generation。単一ユーザーのチャットや Agent の体感に関係します。

テスト時は、モデル、量子化形式、コンテキスト長、batch、ドライババージョン、llama.cpp バージョンを固定します。各組み合わせを複数回実行し、一度だけの結果ではなく中央値で比べるほうが信頼できます。最後に、Continue Agent、OpenAI-compatible server、自分の RAG リクエストなど、実際のワークフローでも確認します。benchmark が良くても、対話体験が必ず良くなるとは限らないためです。

一言でまとめると

2x V100 16GB の強みは主に VRAM 容量であり、生成速度が必ず上がることではありません。モデルが単体カードに収まるなら、単体 32GB のほうが速く安定しやすいです。モデルが 1 枚 16GB に収まらないなら、双 16GB の価値は大きくなります。大量の CPU offload を避けられるためです。実際に速くなるかは、split mode、batch、モデルサイズ、そして 2 枚の V100 が PCIe でつながっているのか NVLink なのかで決まります。

参考資料：

RTX 3060 で動かしやすいローカル LLM モデルおすすめ

Fri, 08 May 2026 09:25:24 +0800

RTX 3060 で最もよく見かけるのは 12GB VRAM 版だ。最上位の AI GPU ではないが、ローカル LLM を動かすにはかなり実用的で、特に 7B、8B、9B、12B クラスのモデルに向いている。

すぐ選びたいなら、まず次の一文を覚えておくとよい。

RTX 3060 12GB では、8B 前後のモデルを Q4_K_M または Q5_K_M 量子化で選ぶ。安定重視なら Q4、品質を少し上げたいなら Q5 を試す。

最初から 32B や 70B を追う必要はない。低ビット量子化や CPU offload で動かせる場合もあるが、速度と体験は日常利用向きではないことが多い。

まず VRAM の上限を見る

RTX 3060 12GB でローカル LLM を動かすとき、本当の制約は VRAM だ。

モデル規模	推奨量子化	3060 12GB の体験
3B / 4B	Q4、Q5、Q8	とても軽く、速い
7B / 8B / 9B	Q4_K_M、Q5_K_M	最もおすすめ。品質と速度のバランスがよい
12B / 14B	Q4_K_M	試せるが、コンテキストを大きくしすぎない
30B 以上	Q2 / Q3 または一部 offload	試せるが、日常利用には非推奨
70B 以上	極低量子化または大量の CPU/RAM	実験に近い

ローカル LLM はモデルファイルだけが VRAM を使うわけではない。コンテキスト長、KV cache、バッチサイズ、推論フレームワーク、GPU ドライバもリソースを使う。

そのため、12GB VRAM があるからといって、12GB のモデルファイルをそのまま安全に読み込めるわけではない。システムとコンテキスト用に余裕を残すほうが安定する。

おすすめ1：Qwen3 8B

主に中国語を使うなら、Qwen3 8B は RTX 3060 で最初に試す価値が高い。

向いている用途：

中国語の質問応答。
要約とリライト。
日常的な知識アシスタント。
簡単なコード解説。
ローカル RAG。
軽量 Agent フロー。

おすすめ：

1
2
3

Qwen3 8B GGUF
Q4_K_M：最初のおすすめ
Q5_K_M：品質は上がるが、VRAM負荷も上がる

Qwen 系列は中国語に強く、日常の文章作成、資料整理、中国語指示の理解が比較的安定している。最初の中国語ローカルモデルに迷うなら、ここから始めるとよい。

おすすめ2：Llama 3.1 8B Instruct

Llama 3.1 8B Instruct は安定した汎用モデルで、英語能力とツールエコシステムが成熟している。

向いている用途：

英語の質問応答。
軽量なコード支援。
一般チャット。
文書要約。
プロンプトテスト。
推論ツールの比較。

おすすめ：

1
2
3

Llama 3.1 8B Instruct GGUF
Q4_K_M：速度とVRAMの安定性重視
Q5_K_M：回答品質重視

英語資料を主に扱う場合や、チュートリアルが多く互換性の高いモデルが欲しい場合、Llama 3.1 8B は今もよい基準モデルになる。

おすすめ3：Gemma 3 12B

Gemma 3 12B は RTX 3060 12GB の実用上限に近い選択肢だ。

8B モデルより VRAM を使うが、Q4 量子化なら 3060 12GB でも動かせる可能性がある。単一 GPU でもう少し大きいモデルを試したい人に向いている。

向いている用途：

より高品質な一般質問応答。
英語コンテンツ処理。
やや複雑な要約と分析。
8B モデルに物足りなさを感じたときの試行。

おすすめ：

1
2
3

Gemma 3 12B GGUF
Q4_K_M または公式 QAT Q4
コンテキストを大きくしすぎない

VRAM 不足になる場合は、まずコンテキスト長を下げるか、8B モデルに戻す。3060 にとって 12B は「試せる」選択肢であり、常に最初に選ぶモデルではない。

おすすめ4：DeepSeek R1 Distill Qwen 8B

ローカルで推論系モデルの雰囲気を試したいなら、DeepSeek R1 Distill Qwen 8B のような 8B 蒸留モデルが候補になる。

向いている用途：

簡単な推論問題。
段階的な分析。
推論モデルの出力スタイル学習。
低コストなローカル実験。

おすすめ：

1
2

DeepSeek R1 Distill Qwen 8B GGUF
Q4_K_M

この種のモデルは推論過程を長く出力することがあり、普通の指示モデルより速度やコンテキスト使用量が重く感じられる場合がある。日常チャットでは Qwen3 8B のほうが使いやすいこともあるが、推論実験には向いている。

おすすめ5：Phi / MiniCPM / 小型モデル

RTX 3060 が 8GB 版だったり、PC のメモリが少なかったりする場合は、3B、4B クラスのモデルから試すとよい。

向いている用途：

高速な質問応答。
簡単な要約。
ローカル小型ツールへの組み込み。
低遅延チャット。
古い PC でのテスト。

これらのモデルは 8B や 12B ほどの品質ではない場合もあるが、軽く、速く、導入しやすい。

量子化の選び方

ローカルモデルでは GGUF 形式がよく使われ、Q4、Q5、Q6、Q8 などの量子化がある。

量子化	特徴	向いている人
Q4_K_M	小さく速い。品質も十分	3060 の第一候補
Q5_K_M	品質が上がるが、使用量も増える	8B モデルで試す
Q6 / Q8	元品質に近いが大きい	小型モデルや VRAM に余裕があるとき
Q2 / Q3	VRAM を節約するが品質低下が大きい	大型モデルの実験

RTX 3060 12GB では、実用的には次の選び方になる。

1
2
3

8B モデル：Q4_K_M または Q5_K_M
12B モデル：Q4_K_M 優先
それ以上：日常主力には非推奨

どのツールで動かすか

初心者は Ollama から始めるとよい。インストールと実行が簡単だからだ。

よく使うコマンド例：

1
2

ollama run qwen3:8b
ollama run llama3.1:8b

GGUF ファイル、GPU layers、コンテキスト長を細かく制御したい場合は、llama.cpp や llama.cpp ベースの GUI ツールを使う。

主な選択肢：

Ollama：最も簡単。初心者向け。
LM Studio：GUI が使いやすく、モデルのダウンロードと切り替えが簡単。
llama.cpp：細かい制御ができ、性能調整向け。
text-generation-webui：機能が多く、バックエンド比較向け。

ローカルチャットと簡単な質問応答だけなら、Ollama か LM Studio で十分だ。

コンテキストを大きくしすぎない

多くのモデルは長いコンテキスト対応をうたっているが、RTX 3060 では最大値まで上げないほうがよい。

コンテキストが長いほど KV cache の使用量が増え、VRAM 負荷も高くなる。モデルが読み込めても、長いコンテキストでは生成速度が落ちることがある。

目安：

1
2
3

普通のチャット：4K から 8K
文書要約：8K から 16K
長文書 RAG：まず分割し、全文を一度に詰め込まない

3060 は「中程度のコンテキスト + 良いモデル + 良い検索」に向いており、数十万 token を一度に入れる用途には向かない。

用途別の選び方

主に中国語を書く場合：

1
2

優先：Qwen3 8B Q4_K_M
候補：DeepSeek R1 Distill Qwen 8B

主に英語を書く場合：

1
2

優先：Llama 3.1 8B Instruct Q4_K_M
候補：Gemma 3 12B Q4_K_M

速度重視の場合：

1
2
3

3B / 4B モデル
8B Q4_K_M
コンテキストは 4K から 8K

品質重視の場合：

1
2
3

8B Q5_K_M
12B Q4_K_M
速度低下は受け入れる

コード用途の場合：

1
2

8B コードモデルは解説や小さな修正に使える
複雑なエンジニアリング作業はクラウドの強いモデルを使う

ローカル 3060 モデルは、コード解説、関数補完、小さなスクリプト生成、オフライン支援に向いている。大規模リファクタリング、難しい bug、ファイル横断の Agent タスクでは、Claude Sonnet や GPT-5 レベルを期待しないほうがよい。

RTX 3060 ローカル LLM への現実的な期待

RTX 3060 12GB は、ローカル LLM を「おもちゃ」から「日常的に使える道具」に近づけるカードだ。ただし、自宅で最上位クラウドモデルを再現するものではない。

強み：

コストが低い。
8GB カードより VRAM に余裕がある。
8B モデルの体験がよい。
オフライン利用できる。
プライバシーに敏感な資料をローカル処理できる。

制約：

大型モデルは滑らかに動かしにくい。
長いコンテキストは VRAM を消費する。
推論速度は上位 GPU に劣る。
小型ローカルモデルの複雑推論は限界がある。
マルチモーダルや Agent ワークフローはさらに重い。

安定した使い方は、8B モデルを日常ローカル助手にし、12B モデルを品質確認用に試し、複雑な作業はクラウドモデルへ任せることだ。

まとめ

RTX 3060 12GB でおすすめのローカル LLM は次の通り。

中国語汎用：Qwen3 8B Q4_K_M
英語汎用：Llama 3.1 8B Instruct Q4_K_M
高品質の試行：Gemma 3 12B Q4_K_M
推論実験：DeepSeek R1 Distill Qwen 8B Q4_K_M
低 VRAM 高速体験：3B / 4B 小型モデル

量子化はまず Q4_K_M を選び、8B モデルなら Q5_K_M も試せる。ツールは Ollama または LM Studio から始めるのがよい。

3060 を大規模モデルサーバーとして扱わないほうがいい。ローカル知識助手、プライバシー文書処理、軽量コード支援、モデル実験用カードとして使うほうが、実際の能力に合っている。

参考リンク

Qwen3 8B GGUF：https://huggingface.co/Qwen/Qwen3-8B-GGUF
Llama 3.1 8B GGUF：https://huggingface.co/macandchiz/Llama-3.1-8B-Instruct-GGUF
Gemma 3 12B GGUF：https://huggingface.co/unsloth/gemma-3-12b-it-GGUF
llama.cpp：https://github.com/ggml-org/llama.cpp
Ollama：https://ollama.com

Hermes + Qwen3.6：ローカル Agent の低コスト構築案

Mon, 04 May 2026 06:40:30 +0800

この記事は、ローカル Agent の構築案を整理したものだ。WSL2 上で llama.cpp を使って Qwen3.6 GGUF モデルを動かし、Hermes Agent をローカルの OpenAI-compatible API に接続する。これにより、自分の PC 上で長時間動作するローカル AI アシスタントを用意でき、オンラインサービスの Token 消費に縛られにくくなる。

この構成は、ローカル AI Agent を試したい人、データのプライバシーと長期的な管理性を重視する人に向いている。日常の質問応答、執筆、コード補助、資料整理、簡単な自動化タスクに使える。ただし、モデルが大きいほど VRAM 要件も高くなる。原文の例では Qwen3.6-27B を使っており、24GB VRAM のほうが安定しやすい。VRAM が少ない場合は、小さいモデルや低い量子化版を選ぶ。

構成

全体の流れはシンプルだ。

Windows に WSL2 と Ubuntu 24.04 をインストールする。
WSL2 内に CUDA Toolkit を入れ、llama.cpp をビルドする。
Qwen3.6 GGUF モデルをダウンロードする。
llama-server でローカルモデルサービスを起動する。
Hermes Agent をインストールし、http://localhost:8080/v1 に接続する。
任意で起動スクリプトを書き、WSL2 起動時にモデルサービスを自動起動する。

Hermes は Agent 機能を担当し、Qwen3.6 はローカル LLM 機能を担当する。組み合わせることで、PC をローカルのプライベート AI アシスタントにできる。

WSL2 と Ubuntu のインストール

Windows PowerShell を管理者として開き、次を実行する。

1
2

wsl --install
wsl --set-default-version 2

再起動後、Ubuntu 24.04 をインストールする。

`1`	`wsl --install -d Ubuntu-24.04`

インストール後、Ubuntu がユーザー名とパスワードの設定を求める。Ubuntu に入ったら、まず NVIDIA GPU が WSL2 から見えているか確認する。

`1`	`nvidia-smi`

GPU が認識されない場合は、Windows 側の NVIDIA ドライバを更新する。WSL2 は Windows ドライバを継承するが、CUDA Toolkit は WSL2 内に別途インストールする必要がある。

Python と基本ツールのインストール

`1`	`sudo apt update && sudo apt install -y python3-pip python3-venv`

続いて、ビルドツール、Git、CMake も必要になる。

`1`	`sudo apt install -y cmake build-essential git`

llama.cpp のビルド

まずソースコードを取得する。

1
2

git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp

WSL2 内で CUDA が使える状態なら、そのままビルドできる。

1
2

cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

CMAKE_CUDA_ARCHITECTURES=89 は RTX 40 シリーズなど Ada アーキテクチャ向けだ。別の GPU では実際のアーキテクチャに合わせて変更する。

CUDA Toolkit がないというエラーが出る場合は、先に WSL2 内で CUDA Toolkit をインストールする。

wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/cuda-keyring_1.1-1_all.deb
sudo dpkg -i cuda-keyring_1.1-1_all.deb
sudo apt update
sudo apt install -y cuda-toolkit-12-8

環境変数を設定する。

export PATH=/usr/local/cuda-12.8/bin:$PATH
export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH
echo 'export PATH=/usr/local/cuda-12.8/bin:$PATH' >> ~/.bashrc
echo 'export LD_LIBRARY_PATH=/usr/local/cuda-12.8/lib64:$LD_LIBRARY_PATH' >> ~/.bashrc

その後、再ビルドする。

cd ~/llama.cpp
rm -rf build
cmake -B build -DGGML_CUDA=ON -DCMAKE_CUDA_ARCHITECTURES=89
cmake --build build -j$(nproc)

Qwen3.6 GGUF モデルのダウンロード

原文の例では、unsloth/Qwen3.6-27B-GGUF の Qwen3.6-27B-UD-Q4_K_XL.gguf を使っている。

1
2
3

hf download unsloth/Qwen3.6-27B-GGUF \
Qwen3.6-27B-UD-Q4_K_XL.gguf \
--local-dir ~/models/

このファイルは約 17GB。Hugging Face のダウンロードが遅い場合は、ModelScope などのミラーを使う。VRAM が足りない場合は 27B を無理に使わず、小さいモデルか低い量子化版を選ぶ。

ローカルモデルサービスを起動する

自分のモデルファイル名に合わせて llama-server を起動する。

~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 32768 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--port 8080

起動後、Windows のブラウザで次を開く。

`1`	`http://localhost:8080`

Hermes Agent や他の OpenAI-compatible クライアントから呼び出す場合、API アドレスは通常次になる。

`1`	`http://localhost:8080/v1`

Thinking モードの使い分け

Qwen3.6 はデフォルトで Thinking モードが有効になる場合がある。複雑な推論、難しいコード問題、多段階分析には向いているが、速度は遅くなる。

Thinking モードを無効にしたい場合は、サービスを停止して --chat-template-kwargs を追加する。

~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 32768 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--chat-template-kwargs '{"enable_thinking":false}' \
--port 8080

Thinking を無効にすると、簡単な Q&A、執筆、コード補完、コード説明は速くなる。一方、複雑なアルゴリズム設計、難しい Debug、アーキテクチャ分析では Thinking を有効にするほうがよい。

Hermes Agent のインストール

llama-server を動かしたまま、新しい WSL2 ターミナルを開いて Hermes Agent をインストールする。

`1`	`curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh \| bash`

インストールスクリプトは Python、Node.js、ripgrep、ffmpeg などの依存関係を処理する。モデル endpoint の設定では custom endpoint を選ぶ。

1
2
3

URL: http://localhost:8080/v1
API Key: 12345678
Model: 自動認識

ローカルの llama-server では、API Key は任意のプレースホルダでよい。設定後は Telegram、WeChat、QQ、Discord などのチャットツールと接続し、Hermes Agent からローカルモデルを呼び出してタスクを実行できる。

モデルサービスの自動起動

WSL2 ターミナルを開いたときにモデルサービスを自動起動するスクリプトを用意できる。

スクリプトを作成する。

cat > ~/start-llm.sh << 'EOF'
#!/bin/bash
echo "Starting Qwen3.6-27B llama-server..."
~/llama.cpp/build/bin/llama-server \
--model ~/models/Qwen3.6-27B-UD-Q4_K_XL.gguf \
--n-gpu-layers 99 \
--ctx-size 65536 \
--flash-attn on \
--temp 1.0 \
--top-p 0.95 \
--top-k 20 \
--presence-penalty 1.5 \
--port 8080 \
--host 0.0.0.0 &
echo "llama-server started, PID: $!"
echo "API: http://localhost:8080/v1"
echo "Chat UI: http://localhost:8080"
EOF
chmod +x ~/start-llm.sh

.bashrc に追記する。

echo '# Auto-start llama-server' >> ~/.bashrc
echo 'if ! pgrep -f "llama-server" > /dev/null 2>&1; then' >> ~/.bashrc
echo '    ~/start-llm.sh' >> ~/.bashrc
echo 'fi' >> ~/.bashrc

これで WSL2 ターミナルを開くたびに、llama-server が動いていなければ自動起動する。すでに動いている場合はスキップされ、重複起動を避けられる。

注意事項

27B モデルは VRAM 要件が高い。24GB VRAM のほうが安定しやすく、VRAM が少ない場合は小さいモデルにする。
--ctx-size 65536 は VRAM と RAM の負荷を大きく増やす。不安定な場合は 32768 かそれ以下に下げる。
WSL2 内の CUDA Toolkit と Windows 側の GPU ドライバの両方が正常である必要がある。どちらかが問題を起こすと、CUDA のビルドや実行に失敗する。
Hermes Agent がローカルサービスへ接続する仕組みは OpenAI-compatible API 呼び出しであり、重要なのは http://localhost:8080/v1 が正常に応答すること。
スマホや他の端末からアクセスする場合は、Windows Firewall、LAN アドレス、セキュリティ分離を追加で扱う。ローカルモデルサービスを直接インターネットへ公開しない。

8GB VRAM で llama.cpp をどう調整するか: 32K の方が安定しやすく、64K では KV Cache 量子化が重要

Thu, 23 Apr 2026 12:13:04 +0800

8GB の VRAM でローカル LLM をスムーズに動かせるのか、特に長いコンテキストで速度を維持できるのかは、llama.cpp を使う人がよく直面する問題です。

まず覚えておきたいポイントは 3 つあります。

8GB VRAM では、32K コンテキストの方が安定したバランスになりやすい
どうしても 64K を使いたいなら、KV Cache の量子化がほぼ必須になる
フル GPU 推論では、CPU スレッド数をむやみに増やすとかえって遅くなることがある

1. まず、32K・64K・KV Cache とは何か

この手の調整記事で最初につまずきやすいのが、この 3 つの用語です。

32K と 64K はコンテキスト長を意味し、モデルが一度に処理できる token 数の上限を表します。ここでの K は千なので、32K は約 32000 token、64K は約 64000 token です。コンテキストが長いほど、モデルは一度により多くの過去情報を見られるため、長文読解、長い対話、複数段階の分析に向いています。

KV Cache は、連続生成を高速化するためにモデルが保持する中間結果のキャッシュです。すでに読んで計算済みの部分を毎回最初から計算し直すのではなく、重要な中間情報を保存して再利用する仕組みだと考えるとわかりやすいです。K と V は Transformer の Key と Value を指します。

この 3 つがいつも一緒に出てくるのは、次の関係があるからです。

32K と 64K は、一度にどれだけの内容を記憶させたいかを決める
KV Cache は、その記憶を維持するためにどれだけ追加の VRAM が必要かを決める
コンテキストが長くなるほど KV Cache は大きくなり、VRAM の負担も増える

そのため、長コンテキストで速度が落ちる原因は、モデルの計算能力不足というより、キャッシュが大きくなりすぎて VRAM が限界に近づくことにある場合が多いです。

2. なぜ 32K と 64K で速度差が大きくなるのか

たとえば《三体》の約 3 万字を使って負荷テストを行い、32K と 64K のコンテキストを比較すると、文章量が近くても 64K の方が大きく遅くなり、総処理時間もかなり長くなることがあります。

原因はモデルが急に遅くなったからではなく、VRAM の境界にぶつかったからです。

32K では、モデルの重みとキャッシュがまだ 8GB VRAM の中にほぼ収まり、データは主に GPU メモリ帯域の中で処理されます。ところが 64K にするとキャッシュがさらに増え、総使用量が VRAM 上限に近づくか超えてしまい、一部データが共有メモリやシステムメモリに押し出されます。

このとき落ちるのは演算性能そのものではなく、帯域です。

つまり、「コンテキストを倍にしたら急に遅くなった」という現象の本質は、データ経路が VRAM からより遅いメモリへ落ちたことにあります。

3. 64K を使うなら、KV Cache 量子化が重要

8GB VRAM 環境で特に重要なのが、KV Cache の量子化です。

モデル本体を変えず、キャッシュだけを量子化すると、長コンテキスト時のキャッシュ使用量を直接削減できます。すると、もともと VRAM からあふれていた一部のデータを 다시 VRAM 側に戻しやすくなります。その結果、64K は依然として 32K より重いものの、最も遅い領域に落ち込みにくくなります。

要するに、

32K は 8GB VRAM における実用的な標準レンジ
64K も不可能ではない
ただしキャッシュ量子化なしでは、「使える」から「かなり厳しい」へ一気に落ちやすい

長コンテキストを安定して使いたいなら、優先順位は次のようになります。

まず VRAM が上限に近づいていないか確認する
次に KV Cache 量子化を有効にするか判断する
その後で、より攻めたスループット設定を試す

4. GPU 使用率が低くても、GPU が遊んでいるとは限らない

これは直感に反しやすいポイントです。

タスクマネージャーで GPU 使用率が 20% や 30% しか見えないと、多くの人は次のように考えます。

パラメータ設定が間違っているのではないか
モデルが本当に GPU 上で動いていないのではないか
GPU を使い切れていないのではないか

しかし llama.cpp の推論では、ボトルネックがコア演算ではなくメモリ読み書きにあることがよくあります。

つまり、GPU コアはあるバッチの計算をすぐ終えても、次の重みやキャッシュデータが届くまで待たされる、という状態です。

その結果、

コア使用率はそれほど高くない
それでも全体の速度は伸びない

という現象になります。

これは GPU が怠けているのではなく、データ経路が狭いだけです。

そのため、ローカル LLM の速度を見るときは GPU Usage だけで判断してはいけません。VRAM 容量、メモリ帯域、キャッシュのあふれ方の方が重要なことが多いです。

5. スループット関連パラメータは効くことがあるが、VRAM 余裕が前提

GPU コアが完全には埋まっていないなら、スループット関連の設定を上げて一度に処理するデータ量を増やし、GPU の並列性をもっと引き出せるのではないか、という考え方があります。

これは実際に速度向上につながることがあります。

ただし前提条件があります。VRAM にまだ余裕があることです。

スループット関連の設定を上げると、VRAM 使用量も増えることが多いからです。すでに 64K、大きなキャッシュ、VRAM ぎりぎりという状態でさらに押し上げると、次のような結果になりがちです。

そのままクラッシュする
クラッシュしなくても、より遅い共有メモリモードに落ちる

したがって、より安全な順番は「最初に全部最大化する」ことではなく、

まず VRAM の境界を守る
次にスループット最適化を試す
変更のたびに速度と安定性を確認する

という流れです。

6. CPU スレッドは多ければ多いほどよいわけではない

これも覚えておきやすい落とし穴です。

スレッドが多いほど速いはずだ、と考えるのは自然です。しかし、モデルがすでに主に GPU で動いている場合、CPU スレッド数を無理に増やすとかえって性能が落ちることがあります。

理由は単純です。

フル GPU 推論では、CPU は主力の計算機というより、スケジューラや前処理補助の役割に近くなります。この状態でスレッドを増やしすぎると、CPU 側のスレッド競合、スケジューリング負荷、コンテキストスイッチのコストが大きくなり、本来スムーズであるべきデータの流れを乱してしまいます。

結果として、

CPU はより忙しそうに見える
それでも全体は遅くなる

ということが起きます。

この種の構成では、デフォルト設定や低めのスレッド数の方が、全部を最大化するより安定しやすいです。

7. 8GB VRAM 向けの、より実用的な考え方

ここまでの結論を実行しやすい形にまとめると、だいたい次のようになります。

1. まず 32K を標準目標にする

8GB GPU なら、最初から 64K を狙いにいかない方が無難です。32K の方が、速度・安定性・メモリ使用量のバランスが取りやすいことが多いです。

2. 64K を使いたいなら、まずキャッシュを見る

「あと少し速くできるか」より先に、KV Cache が量子化されているか、VRAM がすでに限界付近ではないかを確認すべきです。

3. GPU 使用率だけで判断しない

使用率が低いからといって設定ミスとは限りません。単にメモリ帯域が本当のボトルネックかもしれません。

4. スループット最適化は有効だが、VRAM 境界を越えない

これらの設定は確かに効くことがありますが、前提は VRAM に余裕があることです。

5. CPU スレッドは保守的に始める

モデルがほぼ GPU 上で動いているなら、CPU スレッド数は高ければよいわけではありません。まずはデフォルトか低めで試し、必要なら少しずつ調整します。

結論

この話の価値は、いくつかのベンチマーク数字そのものより、ひとつの見落とされがちな事実をはっきりさせてくれる点にあります。

ローカル LLM の調整で本当に大事なのは、すべての設定を最大にすることではなく、ボトルネックが演算性能なのか、VRAM 容量なのか、メモリ帯域なのか、それとも CPU のスケジューリングなのかを見極めることです。

8GB VRAM ユーザーにとって、より安全な方針は「最長コンテキストを無理に追う」ことではなく、まず VRAM の境界を守り、そのうえでどこまで伸ばすかを判断することです。

ひとことでまとめるなら、こうです。

32K は 8GB VRAM でより安定しやすい作業レンジであり、64K も不可能ではないが、その前提として KV Cache と VRAM 使用量をしっかり管理できている必要がある。

llama.cpp / ollama GPU 性能ランキング：CUDA、ROCm、Vulkan

Thu, 23 Apr 2026 10:22:04 +0800

まずパラメータを理解する

`Q4_0` とは

Q4_0 は 4-bit 量子化フォーマットの一種です。これは「モデルがより強い」という意味ではなく、「モデルが小さく、VRAM を節約でき、より多くのデバイスに載せやすい」という意味です。これらのランキングでは多くの場合 Llama 2 7B, Q4_0 に条件をそろえ、変数を減らして GPU 同士を横比較しやすくしています。

`pp512` とは

pp512 は一般に prompt processing 512 tokens、つまり 512 個の入力 token を処理するときのスループットとして理解できます。

pp = prompt processing
512 = 入力長が 512 token
t/s = tokens per second

これは「プロンプトを読み込む速度」に近く、並列化が効きやすいため数値が大きくなりがちです。

`tg128` とは

tg128 は一般に text generation 128 tokens、つまり 128 個の token を連続生成するときの速度として理解できます。

tg = text generation
128 = 128 token を連続生成
t/s = tokens per second

こちらは普段感じる「モデルの返答が速いか」により近い指標です。生成段階は token を逐次的に進めるため、通常は pp512 よりかなり低くなります。

`FA` とは

FA は Flash Attention です。簡単に言えば、attention 計算を最適化するためのスイッチです。

with FA は Flash Attention を有効化した状態
no FA は Flash Attention を無効化した状態

多くの GPU では、FA は tg128 より pp512 に対して目立った改善を出しやすいです。ただし、バックエンド、ドライバ、アーキテクチャによって効果はそろわず、デバイスによっては PP だけ伸びる、TG の変化が小さい、あるいは PP が下がることもあります。

`t/s` の読み方

t/s は tokens per second です。フレームレートでも FLOPS でもなく、モデルのスループットを直接表す結果です。

ランキングを読むときに一番大事なのは、同じ種類のテストを比較しているかを先に確認することです。

pp512 と tg128 を混ぜて比較しない
no FA と with FA を混ぜて比較しない
CUDA、ROCm、Vulkan の結果を完全に同じ条件の曲線として扱わない

先に結論

現時点でこれらの discussion に見えているデータからは、おおよそ次のように読めます。

CUDA は今でも llama.cpp の GPU ベンチマークで最も強く、サンプルも最も多い系統です。特に高性能な Nvidia GPU は pp512 で大きな優位があります。
ROCm はハイエンド AMD GPU や Instinct 系でかなり実用的な成績を出しており、MI300X、7900 XTX、W7900 などの項目は十分強いです。
Vulkan の強みは「絶対に最速」ではなく、対応範囲の広さです。Nvidia、AMD、Intel、Apple Asahi / MoltenVK に加え、古い GPU や内蔵 GPU でも比較対象を見つけやすいです。
tg128 は日常の体感に近く、pp512 はスループットを見るのに向いています。ランキング上位の GPU でも、両指標でのリード幅は必ずしも同じではありません。

CUDA 完全ランキング

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14073.41 ± 115.16	290.02 ± 1.10	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	14854.63 ± 22.73	274.20 ± 0.14	79c1160	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	9918.34 ± 176.97	267.81 ± 1.54	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	4849.53 ± 8.94	190.88 ± 0.33	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	10293.86 ± 134.72	189.33 ± 0.19	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	11992.70 ± 107.99	186.21 ± 0.13	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	8297.36 ± 9.50	181.99 ± 0.42	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	6952.38 ± 13.73	176.85 ± 0.07	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	9229.23 ± 101.78	176.07 ± 0.26	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6567.49 ± 20.30	171.19 ± 3.98	9c35706	@slaren
RTX 3090	24 GB / GDDR6X / 384 bit	5174.69 ± 21.83	158.16 ± 0.21	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	8870.49 ± 378.76	152.01 ± 0.28	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	8125.15 ± 41.05	148.33 ± 0.20	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	8031.64 ± 26.49	142.49 ± 0.16	20638e4	@Ristovski
RTX 3080	10 GB / GDDR6X / 320 bit	5013.86 ± 24.80	139.65 ± 0.99	9c35706	@slaren
RTX A6000	48 GB / GDDR6 / 384 bit	4913.93 ± 6.79	138.73 ± 2.75	4795c91	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	6924.53 ± 13.87	132.26 ± 0.16	9c35706	@Ristovski
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	4992.83 ± 113.52	131.66 ± 0.20	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4028.16 ± 19.14	130.07 ± 2.74	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	3042.64 ± 40.71	129.08 ± 0.05	51f5a45	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5184.75 ± 18.70	127.54 ± 0.46	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	4609.01 ± 10.67	124.11 ± 0.17	3470a5c	@Hedede
A30	24 GB / HBM2e / 3072 bit	2767.10 ± 1.88	124.81 ± 0.16	583cb83	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2617.46 ± 2.10	108.79 ± 0.05	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	2890.66 ± 2.42	107.51 ± 0.21	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	2751.18 ± 19.43	102.77 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	2709.95 ± 3.35	102.68 ± 0.03	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	2827.20 ± 66.43	97.32 ± 2.80	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	3737.25 ± 6.79	90.94 ± 0.02	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2088.34 ± 1.94	88.06 ± 0.28	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2684.06 ± 15.28	83.77 ± 0.37	65349f2	@TinyServal
Titan Xp	12 GB / GDDR5X / 384 bit	1154.96 ± 1.46	76.08 ± 0.08	c4510dc	@Hedede
RTX 3060	12 GB / GDDR6 / 192 bit	2137.50 ± 10.12	75.57 ± 0.07	baa9255	@QuantiusBenignus
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1536.89 ± 0.90	65.62 ± 0.62	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3394.63 ± 7.44	63.86 ± 0.01	89d1029	@mike-llamacpp
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1084.41 ± 3.01	62.49 ± 0.06	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	2779.77 ± 9.91	61.83 ± 0.04	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1420.24 ± 1.95	60.04 ± 0.01	5c0eb5e	@ggerganov
Tesla P100	16 GB / HBM2 / 4096 bit	760.80 ± 2.92	58.35 ± 0.00	b8372ee	@Hedede
DGX Spark	128 GB / LPDDR5x	3062.31 ± 11.02	57.21 ± 0.06	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1007.42 ± 1.23	54.74 ± 0.07	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	1956.22 ± 7.74	50.62 ± 0.04	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1219.06 ± 4.18	46.38 ± 0.73	d32e03f	@pt13762104
RTX 4050 Laptop	6 GB / GDDR6 / 96 bit	1725.85 + 17.85	43.72 + 0.41	d79d8f3	@TimCabbage
GTX 1660	6 GB / GDDR5 / 192 bit	148.91 ± 0.01	41.35 ± 0.02	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	282.65 ± 0.15	38.04 ± 0.02	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	714.44 ± 2.04	37.82 ± 0.02	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	991.31 ± 1.15	33.58 ± 0.14	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	514.53 ± 3.06	33.29 ± 0.00	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	406.94 ± 0.25	30.40 ± 0.02	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	416.85 ± 1.75	27.79 ± 0.02	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	79.44 ± 0.01	27.82 ± 0.18	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	309.30 ± 0.05	23.63 ± 0.00	baa9255	@TinyServal
Quadro P1000	4 GB / GDDR5 / 128 bit	183.40 ± 0.11	13.99 ± 0.13	1e74897	@aleksyx
Tesla K80	12 GB / GDDR5 / 384 bit	133.14 ± 0.55	13.80 ± 0.02	32732f2	@pebaryan

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14970.15 ± 381.06	300.40 ± 0.28	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	16618.98 ± 20.66	281.11 ± 0.41	5143fa8	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	11263.29 ± 98.34	280.74 ± 1.17	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	5285.96 ± 6.58	200.90 ± 0.12	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	12506.97 ± 11.51	191.57 ± 0.03	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	14770.63 ± 102.93	188.96 ± 0.05	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	9487.70 ± 21.89	184.68 ± 0.05	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	8419.56 ± 35.50	182.43 ± 0.09	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	10576.85 ± 530.21	179.47 ± 0.32	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6924.01 ± 10.76	172.26 ± 1.31	9c35706	@slaren
RTX PRO 4500 Blackwell	32 GB / GDDR7 / 256 bit	7251.66 ± 92.40	168.90 ± 0.20	becc481	@Hedede
RTX 3090	24 GB / GDDR6X / 384 bit	5560.06 ± 16.28	161.89 ± 0.18	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	10097.64 ± 671.22	153.76 ± 0.12	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	9439.01 ± 56.75	147.48 ± 1.41	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	9205.93 ± 22.31	143.47 ± 0.02	20638e4	@Ristovski
RTX A6000	48 GB / GDDR6 / 384 bit	5662.39 ± 13.87	144.87 ± 0.18	4795c91	@Hedede
RTX 3080	10 GB / GDDR6X / 320 bit	5569.56 ± 14.04	139.95 ± 0.95	9c35706	@slaren
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	5674.44 ± 139.53	136.38 ± 0.13	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4552.15 ± 9.68	135.83 ± 0.11	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	2973.78 ± 3.62	134.76 ± 0.02	51f5a45	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	7612.32 ± 37.35	132.85 ± 0.31	9c35706	@Ristovski
A30	24 GB / HBM2e / 3072 bit	3068.72 ± 0.63	131.93 ± 0.18	583cb83	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5783.44 ± 36.95	128.21 ± 2.52	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	5256.38 ± 19.39	126.24 ± 0.06	3470a5c	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2481.25 ± 1.31	112.17 ± 0.01	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	3107.61 ± 4.34	109.17 ± 0.07	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	3053.96 ± 1.37	104.38 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	3052.35 ± 5.64	103.63 ± 0.02	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	3453.10 ± 49.19	103.00 ± 0.25	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	4195.53 ± 1.98	93.46 ± 0.01	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2293.29 ± 5.91	87.71 ± 0.29	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2807.83 ± 52.44	85.17 ± 0.66	65349f2	@TinyServal
RTX 3060	12 GB / GDDR6 / 192 bit	2407.67 ± 3.73	76.92 ± 0.03	baa9255	@QuantiusBenignus
Titan Xp	12 GB / GDDR5X / 384 bit	1218.12 ± 1.82	73.84 ± 0.04	c4510dc	@Hedede
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1662.80 ± 2.04	67.62 ± 0.67	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3803.45 ± 70.80	64.03 ± 0.53	89d1029	@mike-llamacpp
Tesla P100	16 GB / HBM2 / 4096 bit	787.36 ± 3.27	61.99 ± 0.00	b8372ee	@Hedede
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1138.14 ± 2.02	61.38 ± 0.03	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	3171.86 ± 4.34	61.37 ± 0.01	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1563.77 ± 0.51	61.13 ± 0.05	5c0eb5e	@ggerganov
DGX Spark	128 GB / LPDDR5x	3661.37 ± 38.66	56.74 ± 0.03	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1079.66 ± 0.18	53.73 ± 0.05	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	2250.14 ± 5.91	50.71 ± 0.01	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1309.73 ± 1.02	44.03 ± 0.57	d32e03f	@pt13762104
GTX 1660	6 GB / GDDR5 / 192 bit	154.45 ± 0.52	41.43 ± 0.01	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	290.17 ± 0.11	39.98 ± 0.01	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	790.52 ± 2.39	37.87 ± 0.00	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	1171.96 ± 4.70	35.88 ± 0.18	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	529.53 ± 2.12	33.12 ± 0.03	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	438.49 ± 0.38	30.64 ± 0.06	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	446.19 ± 0.81	28.18 ± 0.01	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	27.46 ± 0.23	27.46 ± 0.23	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	311.55 ± 0.19	23.76 ± 0.01	baa9255	@TinyServal
Tesla K80	12 GB / GDDR5 / 384 bit	133.36 ± 0.60	14.27 ± 0.32	32732f2	@pebaryan
Quadro P1000	4 GB / GDDR5 / 128 bit	173.82 ± 0.02	13.65 ± 0.14	1e74897	@aleksyx

Apple Silicon の参照基準

#4167 の discussion が後の 3 つと大きく違うのは、より早い段階で統一された見方を作っており、Q4_0 だけでなく F16 や Q8_0 も併記している点です。PP / TG / t/s を理解するうえで役立ちます。

discussion 内での説明は次のとおりです。

PP は prompt processing
TG は text-generation
t/s は tokens per second

本文で確認できる時系列比較の例として、同じ M2 Ultra がバージョンと FA の進化に応じてどう変わったかが示されています。

日時	デバイス	バージョン/説明	帯域 GB/s	GPU コア	F16 PP	F16 TG	Q8_0 PP	Q8_0 TG	Q4_0 PP	Q4_0 TG
2023-11-21	M2 Ultra	8e672ef	800	76	1401.85	41.02	1248.59	66.64	1238.48	94.27
2024-11-12	M2 Ultra	86ed72d + FA	800	76	1525.95	43.15	1368.18	73.11	1391.78	108.80
2025-08-02	M2 Ultra	5c0eb5e + FA	800	76	1561.35	43.24	1386.97	73.35	1412.42	109.41

デバイス	Q4_0 PP	Q4_0 TG	Q8_0 PP	Q8_0 TG	F16 PP	F16 TG
M1 Pro 16 GPU	266.25	36.41	270.37	22.34	302.14	12.75
M2 Ultra 76 GPU	1238.48	94.27	1248.59	66.64	1401.85	41.02
M3 Max 40 GPU	690.99	65.85	749.37	43.00	794.26	25.27

Apple の系統はここでは全文を展開せず、以降は指定された 3 種類のディスクリート GPU バックエンドのランキングを中心に見ます。

ROCm / HIP 完全ランキング

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11476.40 ± 72.79	232.92 ± 0.53	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3552.27 ± 101.96	167.11 ± 0.50	2f0c2db	@Diablo-D3
Instinct MI210	64 GB / HBM2e / 4096 bit	2486.22 ± 9.58	124.51 ± 0.04	8160b38	@65a
Pro W7900	48 GB / GDDR6 / 384 bit	3213.17 ± 80.47	121.18 ± 0.06	8160b38	@65a
RX 7900 XT	20 GB / GDDR6 / 320 bit	3098.38 ± 24.02	116.15 ± 0.06	1e15bfd	@AdamNiederer
RX 9070	16 GB / GDDR6 / 256 bit	2381.77 ± 3.68	114.48 ± 0.60	d0660f2	@andj1210
Instinct MI100	32 GB / HBM2 / 4096 bit	2732.83 ± 1.98	110.48 ± 0.14	9c35706	@firefox42
RX 9070 XT	16 GB / GDDR6 / 256 bit	5055.19 ± 109.58	101.27 ± 0.27	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2151.81 + 17.94	100.94 + 0.10	00131d6	@olegshulyakov
Instinct MI50	32 GB / HBM2 / 4096 bit	1057.24 ± 0.53	98.95 ± 0.25	97d5117	@wtarreau
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1456.98 ± 12.39	96.07 ± 0.10	6fa3b55	@MihaiBojescu
AI PRO R9700	32 GB / GDDR6 / 256 bit	4443.54 ± 339.25	93.84 ± 0.26	bd4ef13	@gogich77
Instinct MI60	32 GB / HBM2 / 4096 bit	1289.11 ± 0.62	91.46 ± 0.13	504af20	@Said-Akbar
RX 6900 XT	16 GB / GDDR6 / 256 bit	1889.84 ± 31.21	88.49 ± 0.00	a972fae	@notgood
Pro VII	16 GB / HBM2 / 4096 bit	1064.99 ± 1.18	87.45 ± 0.04	2739a71	@8XXD8
RX 6800 XT	16 GB / GDDR6 / 256 bit	1447.07 ± 1.36	83.92 ± 0.03	79c1160	@MrLavender
Pro V620	32 GB / GDDR6 / 256 bit	1803.65 ± 2.54	74.66 ± 0.01	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1419.67 ± 3.64	67.58 ± 0.24	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	354.17 ± 0.18	67.55 ± 0.04	c05e8c9	@daniandtheweb
Instinct MI25	16 GB / HBM2 / 2048 bit	409.83 ± 0.23	63.94 ± 0.06	2739a71	@8XXD8
AI Max+ 395	128 GB / LPDDR5	911.36 ± 1.79	50.01 ± 0.07	e60f241	@firefox42
RX 7600 XT	16 GB / GDDR6 / 128 bit	1099.64 ± 2.05	48.58 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	240.68 ± 0.09	48.46 ± 0.09	ec428b0	@davispuh
Radeon 8060S	System Shared / DDR5	351.36 ± 0.67	47.97 ± 0.33	1d0125b	@hspak
Radeon 880M	System Shared / DDR5	163.25 ± 13.86	12.97 ± 1.63	c55d53a	@Hedede

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11945.97 ± 54.29	218.53 ± 0.09	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3874.25 ± 11.92	170.12 ± 0.56	2f0c2db	@Diablo-D3
Pro W7900	48 GB / GDDR6 / 384 bit	3472.86 ± 52.86	127.43 ± 0.12	8160b38	@65a
Instinct MI210	64 GB / HBM2e / 4096 bit	2571.82 ± 2.89	130.18 ± 0.06	8160b38	@65a
RX 9070	16 GB / GDDR6 / 256 bit	2452.68 ± 1.33	115.32 ± 0.52	d0660f2	@andj1210
RX 7900 XT	20 GB / GDDR6 / 320 bit	3261.75 ± 9.09	112.30 ± 0.06	1e15bfd	@AdamNiederer
Instinct MI50	32 GB / HBM2 / 4096 bit	1129.43 ± 0.15	105.82 ± 0.07	97d5117	@wtarreau
Instinct MI100	32 GB / HBM2 / 4096 bit	2755.00 ± 3.68	104.71 ± 0.10	9c35706	@firefox42
AI PRO R9700	32 GB / GDDR6 / 256 bit	4773.07 ± 49.30	97.98 ± 0.13	bd4ef13	@gogich77
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1598.79 ± 11.48	97.53 ± 0.06	6fa3b55	@MihaiBojescu
RX 9070 XT	16 GB / GDDR6 / 256 bit	4903.51 ± 96.36	97.28 ± 0.13	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2304.63 + 2.85	95.99 + 0.21	00131d6	@olegshulyakov
RX 6900 XT	16 GB / GDDR6 / 256 bit	1948.31 ± 13.51	85.04 ± 0.02	a972fae	@notgood
Pro V620	32 GB / GDDR6 / 256 bit	1256.86 ± 0.55	70.83 ± 0.02	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1479.27 ± 0.71	65.42 ± 0.19	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	314.17 ± 0.29	62.02 ± 0.05	c05e8c9	@daniandtheweb
AI Max+ 395	128 GB / LPDDR5	1003.53 ± 2.91	49.87 ± 0.02	e60f241	@firefox42
Radeon 8060S	System Shared / DDR5	366.08 ± 1.44	48.97 ± 0.15	1d0125b	@hspak
RX 7600 XT	16 GB / GDDR6 / 128 bit	1199.16 ± 1.07	47.65 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	153.17 ± 0.72	42.46 ± 0.40	ec428b0	@davispuh
Radeon 880M	System Shared / DDR5	213.31 ± 14.05	16.16 ± 1.41	c55d53a	@Hedede

Vulkan 完全ランキング

Llama 2 7B, Q4_0, no FA

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	10381.64 ± 508.84	263.63 ± 0.91	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3531.93 ± 31.74	191.28 ± 0.20	2f0c2db
Nvidia RTX 4090	9452.03 ± 187.70	187.97 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 5080	7444.99 ± 20.11	185.10 ± 0.54	f6b533d	coopmat2
Nvidia A100	6389.86 ± 4.83	160.78 ± 0.16	2257758	coopmat2
Nvidia RTX 3090	4298.97 ± 10.59	160.13 ± 0.25	4ae88d0	coopmat2
Nvidia RTX 4080 Super	7101.18 ± 269.79	147.13 ± 5.64	81086cd	coopmat2
Nvidia RTX 3080	4287.11 ± 55.50	139.15 ± 0.05	7c7d6ce	coopmat2
Nvidia RTX A5000	3641.55 ± 9.05	139.89 ± 0.69	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	5036.04 ± 88.16	137.11 ± 0.02	e9fd8dc
Nvidia RTX 5070 Ti	6213.63 ± 27.72	135.63 ± 0.18	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4036.04 ± 34.58	130.19 ± 0.39	3191462
Nvidia Tesla V100	1391.39 ± 1.19	129.58 ± 0.58	7d77f07
Nvidia RTX 4070 Ti Super	6099.18 ± 154.30	129.45 ± 0.18	4ae88d0	coopmat2
AMD Radeon RX 7900 XT	2941.58 ± 17.17	123.18 ± 0.40	71e74a3
AMD Radeon RX 9070	3164.10 ± 66.84	119.71 ± 3.40	21c17b5
AMD Radeon RX 7800 XT	2017.33 ± 19.30	118.27 ± 0.27	4fdbc1e
AMD Radeon RX 7900 GRE	2336.31 ± 7.52	116.11 ± 0.26	4b2a477
Apple M3 Ultra	1116.83 ± 0.55	115.54 ± 0.78	2d451c8	MoltenVK
Intel Arc Pro B70	3379.00 ± 47.92	112.02 ± 1.08	b863507
Nvidia Titan V	984.36 ± 4.13	108.86 ± 0.28	e56abd2
AMD Radeon Pro VII	1078.54 ± 0.86	107.82 ± 0.14	N/A
AMD Radeon RX 6900 XT	1837.21 ± 25.44	104.60 ± 0.30	a972fae
Intel Arc Pro A60	2261.11 ± 9.53	104.25 ± 0.07	97d5117
AMD Radeon RX 6800 XT	1752.92 ± 1.71	100.32 ± 0.97	N/A
AMD Radeon VII	1059.14 ± 0.56	101.19 ± 0.53	77d6ae4
Nvidia RTX 2080 Ti	1888.24 ± 9.20	97.58 ± 6.60	N/A
AMD Radeon RX 6800	1698.69 ± 0.80	95.61 ± 0.19	4b385bf
AMD Radeon Pro W6800X Duo	687.71 ± 4.33	94.82 ± 0.12	N/A
Nvidia RTX 5060 Ti	3460.92 ± 7.16	93.51 ± 0.15	89f10ba	coopmat2
Nvidia RTX 4070	3179.37 ± 46.16	92.29 ± 0.28	9a48399
AMD Radeon Pro W6800X	510.80 ± 0.13	86.47 ± 0.46	13b4548	MoltenVK
AMD Radeon RX 6700 XT	1051.20 ± 0.98	83.88 ± 0.08	6d75883
AMD Radeon RX 6750 XT	1040.58 ± 0.35	81.98 ± 0.03	228f34c
AMD Radeon Pro V620	1595.32 ± 1.59	81.78 ± 0.06	03d4698
Nvidia RTX 3070	2113.02 ± 7.38	78.71 ± 0.13	1b8fb81
AMD Radeon Instinct MI60	369.26 ± 2.48	78.16 ± 1.40	504af20
Nvidia RTX 3060	1815.70 ± 5.85	75.94 ± 0.80	92c0b38	coopmat2
Apple M4 Max	724.77 ± 20.93	75.02 ± 0.14	1ece0cb6
Nvidia Tesla T10	1692.70 ± 2.05	75.01 ± 0.21	7f76692	coopmat2
Nvidia RTX A4000	2248.14 ± 7.59	73.74 ± 0.08	f5245b5	coopmat2
AMD Radeon RX 5700 XT	529.69 ± 0.26	70.73 ± 0.04	4fdbc1e
AMD Radeon RX 9060 XT	2141.67 ± 6.87	70.54 ± 0.74	ed52f36
Intel Arc B580	620.94 ± 15.33	70.14 ± 0.28	7f76692
AMD Radeon Pro V540	583.88 ± 6.56	69.64 ± 0.24	9da3dcd
AMD Radeon Pro W5700	449.85 ± 0.46	68.55 ± 0.15	23bc779
Intel Arc Pro B60	522.36 ± 3.60	68.55 ± 0.01	516a4ca
Nvidia GTX 1080 Ti	540.69 ± 0.71	64.99 ± 0.08	360d653
Nvidia RTX 2070 Super	1199.13 ± 7.70	64.64 ± 0.20	b7552cf
Nvidia RTX 3070 Mobile	1689.40 ± 19.57	63.64 ± 0.39	ceff6bb	coopmat2
Nvidia Tesla P100	678.14 ± 1.40	63.16 ± 0.06	eec1e33
AMD BC-250	370.66 ± 0.04	62.32 ± 0.32	5886f4f
AMD Radeon RX 6650 XT	1029.52 ± 1.21	62.14 ± 0.02	dbb852b
Nvidia RTX 4060 Mobile	2135.66 ± 23.18	59.53 ± 0.03	a5c07dc	coopmat2
Nvidia Tesla P40	488.06 ± 0.27	59.36 ± 0.16	N/A
Nvidia GTX 1660 Ti Mobile	511.67 ± 2.85	56.60 ± 0.07	b43556e
AMD Radeon Instinct MI25	439.42 ± 0.34	54.69 ± 0.03	2739a71
AMD Radeon RX 6600 XT	574.65 ± 0.86	53.92 ± 0.11	091592d
AMD Ryzen AI Max+ 395	1288.96 ± 6.49	53.59 ± 0.38	7f76692
AMD Radeon RX 7600 XT	840.85 ± 3.02	53.02 ± 0.01	01d8eaa
Intel Arc A770	1073.85 + 29.68	52.56 + 0.11	a69d54f
Nvidia GB10	2737.79 ± 19.56	52.28 ± 0.03	b9da444	coopmat2
AMD FirePro S9300 x2	247.26 ± 0.43	51.86 ± 0.11	eec1e33	Split across two GPUs
AMD Radeon RX 6600	761.89 ± 1.76	50.63 ± 0.02	b1c70e2
AMD Radeon RX Vega 56	439.87 ± 0.61	50.23 ± 0.14	92c0b38
Intel Arc B570	913.95 ± 0.90	49.64 ± 0.03	7f76692
Nvidia RTX 3060 Mobile	1059.76 ± 3.54	49.03 ± 0.13	dbb3a47
AMD Radeon RX 6800M	861.99 ± 7.67	48.71 ± 0.71	8e6f8bc
AMD Radeon RX 6600M	605.59 ± 0.65	48.21 ± 0.07	fe5b78c
Intel Arc A770M	875.92 ± 2.16	47.69 ± 0.16	eeee367
Nvidia P104-100	311.90 ± 0.22	46.18 ± 0.05	eec1e33
AMD Radeon RX Vega 64	356.08 ± 0.09	45.73 ± 0.18	ec428b0
Nvidia RTX A2000	1245.19 ± 8.76	45.52 ± 0.54	b1afcab	coopmat2
AMD Radeon RX 7600M XT	459.39 ± 2.34	45.28 ± 0.10	b9ab0a4	eGPU
AMD Radeon Pro V340	375.41 ± 0.24	45.16 ± 0.06	9da3dcd	Split across two GPUs
Nvidia GTX 1070 Ti	297.50 ± 0.54	42.86 ± 1.20	860a9e4	eGPU
Intel Arc A750	1075.94 ± 13.89	42.66 ± 0.18	c1b1876
Nvidia RTX 4050 Mobile	1154.28 + 15.76	41.89 + 0.10	d79d8f3
Nvidia GTX 1070	321.57 ± 0.93	41.48 ± 0.09	eec1e33
Intel Arc Pro B50	193.50 ± 0.24	39.99 ± 0.10	7b43f55
Nvidia Tesla M40	92.48 ± 0.02	39.35 ± 1.22	b8372ee
AMD Radeon RX 580	258.03 ± 0.71	39.32 ± 0.03	de4c07f
AMD Radeon RX 470	218.07 ± 0.56	38.63 ± 0.21	e288693
AMD Radeon Pro W5500	315.39 ± 3.76	36.82 ± 0.38	860a9e4
AMD Radeon RX 480	248.66 ± 0.28	34.71 ± 0.14	3b15924
Apple M2 Ultra	205.98 ± 0.02	34.34 ± 0.12	dbb852b	Asahi Linux
Nvidia GTX 980	186.24 ± 0.09	33.90 ± 0.51	860a9e4
Nvidia P106-100	183.78 ± 0.26	29.77 ± 0.04	23bc779
AMD FirePro W8100	155.22 ± 0.17	29.52 ± 0.05	4536363
Nvidia Tesla P4	265.54 ± 0.21	28.03 ± 0.14	24d2ee0
AMD Radeon RX 6500 XT	255.25 ± 0.35	27.81 ± 0.10	g9fdfcd
Apple M3	263.70 ± 0.02	26.39 ± 0.14	b9ab0a4	MoltenVK
AMD FirePro S10000	94.78 ± 0.02	25.32 ± 0.02	914a82d	Split across two GPUs
Nvidia Quadro P2000	169.55 ± 0.17	23.05 ± 0.03	63f8fe0
Intel Core Ultra 200 Series	544.95 ± 4.15	22.49 ± 0.09	cea560f
AMD Ryzen AI 9 300 Series	479.07 ± 0.41	22.41 ± 0.18	N/A
AMD Ryzen 6000 Series	240.89 ± 0.52	21.26 ± 0.08	ee09828
Apple M2 Pro	62.70 ± 0.03	20.95 ± 0.11	1fe0029	Asahi Linux
Nvidia GTX 1050 Ti	136.42 ± 0.67	20.96 ± 0.21	2f0c2db
AMD Ryzen 8000 Series	266.19 ± 1.36	20.53 ± 0.08	a5c07dc
AMD Ryzen 7000 Series	281.62 ± 1.56	19.91 ± 0.07	ebce03e
AMD Ryzen Z1 Extreme	199.36 ± 7.02	18.77 ± 0.02	53ff6b9
AMD FirePro D700	69.95 ± 0.04	16.62 ± 0.01	d3bd719	MoltenVK, running in FP16 mode on FP32 only chip
AMD Radeon Pro WX 4100	78.79 ± 0.10	16.05 ± 0.07	860a9e4
Apple M2	50.79 ± 0.16	13.50 ± 0.02	8c0d6bb	Asahi Linux
Apple M1	38.29 ± 0.00	12.47 ± 0.03	2370665	Asahi Linux
AMD Ryzen 5000 Series	90.55 ± 0.08	10.98 ± 0.07	d84635b
Intel Core 1100 Series	187.20 ± 1.78	10.39 ± 0.04	abb9f3c
AMD Radeon RX 550	52.66 ± 0.49	10.20 ± 0.01	N/A
AMD Ryzen 4000 Series	103.87 ± 0.02	9.63 ± 0.01	4b385bf
Nvidia Tesla K80	89.46 ± 0.10	9.39 ± 0.06	5d46bab	Running on single GPU
Nvidia Tesla K40	64.37 ± 0.09	9.30 ± 0.19	eec1e33
MediaTek Dimensity 9400	38.36 ± 15.15	8.92 ± 0.06	b9ab0a4	GPU supports coopmat but pp512 is faster with it turned off
Intel Core Ultra 100 Series	185.51 ± 0.22	8.21 ± 0.07	1d72c84
AMD Ryzen 3000 Series	48.63 ± 0.10	8.49 ± 0.01	1fe0029
CIX CD8180	2.80 ± 0.01	5.51 ± 0.00	4dca015
Intel Core 1000 Series	25.58 ± 0.00	4.25 ± 0.18	N/A
Intel Core 8000 Series	25.43 ± 0.17	3.35 ± 0.03	c4df49a
Intel N150	28.84 ± 0.02	2.93 ± 0.00	4f63cd7

Llama 2 7B, Q4_0, FA enabled

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	11796.38 ± 601.36	273.68 ± 0.52	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3332.90 ± 11.47	195.30 ± 0.23	2f0c2db
Nvidia RTX 5080	8054.59 ± 35.68	192.17 ± 0.21	f6b533d	coopmat2
Nvidia RTX 4090	10830.41 ± 36.25	190.10 ± 0.31	4ae88d0	coopmat2
Nvidia A100	7064.40 ± 1.63	170.56 ± 0.02	2257758	coopmat2
Nvidia RTX 3090	4732.33 ± 4.80	162.28 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 4080 Super	8007.37 ± 46.03	150.20 ± 0.26	81086cd	coopmat2
Nvidia RTX 3080	4913.83 ± 21.52	145.74 ± 0.16	7c7d6ce	coopmat2
Nvidia Tesla V100	1411.25 ± 2.12	142.13 ± 0.03	7d77f07
Nvidia RTX A5000	4071.22 ± 13.13	140.43 ± 0.22	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	4911.74 ± 28.52	138.20 ± 0.18	e9fd8dc
Nvidia RTX 5070 Ti	6764.53 ± 11.95	135.65 ± 0.02	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4333.83 ± 29.36	130.90 ± 0.12	3191462
AMD Radeon RX 7900 XT	3043.93 ± 10.42	124.20 ± 0.09	71e74a3
AMD Radeon RX 7800 XT	2094.64 ± 14.38	119.63 ± 0.13	4fdbc1e
AMD Radeon RX 9070	3277.24 ± 18.17	119.55 ± 0.06	21c17b5
AMD Radeon RX 7900 GRE	2402.07 ± 22.50	116.77 ± 0.08	4b2a477
Apple M3 Ultra	1115.55 ± 0.75	115.99 ± 0.12	2d451c8	MoltenVK
Intel Arc Pro B70	3314.53 ± 17.95	111.63 ± 0.05	b863507
Nvidia Titan V	792.74 ± 4.30	109.21 ± 0.72	e56abd2
AMD Radeon Pro VII	783.94 ± 0.77	108.45 ± 0.48	N/A
AMD Radeon RX 6900 XT	1761.93 ± 4.75	106.15 ± 0.04	a972fae
Nvidia RTX 2080 Ti	1936.25 ± 32.08	100.99 ± 0.24	N/A
AMD Radeon RX 6800 XT	1704.79 ± 0.71	100.50 ± 0.06	N/A
AMD Radeon Pro W6800X Duo	795.28 ± 0.72	100.08 ± 0.02	N/A
Nvidia RTX 5060 Ti	3912.65 ± 5.86	97.01 ± 0.14	89f10ba	coopmat2
AMD Radeon RX 6800	1749.46 ± 3.36	96.65 ± 0.48	4b385bf
Nvidia RTX 4070	4293.57 ± 27.70	91.49 ± 0.89	9a48399	coopmat2
AMD Radeon RX 6750 XT	997.05 ± 0.45	82.29 ± 0.06	228f34c
AMD Radeon RX 6700 XT	1010.90 ± 12.89	81.86 ± 0.19	6d75883
Nvidia RTX 3060	2012.88 ± 10.12	80.59 ± 0.02	92c0b38	coopmat2
AMD Radeon Pro V620	1556.31 ± 2.82	79.24 ± 0.09	03d4698
Nvidia RTX A4000	2482.74 ± 26.05	76.07 ± 0.08	f5245b5	coopmat2
Nvidia Tesla T10	1840.14 ± 1.22	76.05 ± 0.13	7f76692	coopmat2
AMD Radeon RX 5700 XT	538.31 ± 0.35	74.43 ± 0.03	4fdbc1e
Intel Arc B580	419.49 ± 3.37	72.00 ± 0.24	7f76692
Apple M4 Max	557.46 ± 26.87	71.79 ± 4.16	1ece0cb6
AMD Radeon Pro W5700	446.98 ± 0.39	71.30 ± 0.24	23bc779
Intel Arc Pro B60	274.76 ± 0.27	70.54 ± 0.03	516a4ca
AMD Radeon RX 9060 XT	1915.41 ± 7.90	70.52 ± 0.16	ed52f36
Nvidia Tesla P100	685.51 ± 0.88	66.48 ± 0.02	eec1e33
AMD Radeon RX 6650 XT	1088.90 ± 0.40	64.53 ± 0.75	dbb852b
Nvidia GTX 1080 Ti	529.96 ± 0.38	64.63 ± 0.10	360d653
AMD BC-250	356.87 ± 1.24	63.14 ± 0.09	5886f4f
Nvidia RTX 3070 Mobile	1832.07 ± 57.14	62.92 ± 0.37	ceff6bb	coopmat2
Nvidia RTX 4060 Mobile	2358.03 ± 12.17	60.01 ± 0.08	a5c07dc	coopmat2
Nvidia Tesla P40	484.37 ± 0.27	59.22 ± 0.15	N/A
Nvidia GTX 1660 Ti Mobile	514.34 ± 0.88	57.30 ± 0.42	b43556e
AMD Radeon RX 7600 XT	1024.38 ± 7.56	56.11 ± 0.02	01d8eaa
AMD FirePro S9300 x2	243.33 ± 0.22	55.64 ± 0.06	eec1e33	Split across two GPUs
Nvidia GB10	3279.89 ± 26.78	53.64 ± 0.05	b9da444	coopmat2
AMD Radeon RX 6600	808.76 ± 0.15	53.24 ± 0.03	b1c70e2
Intel Arc A770	1119.68 + 30.25	53.07 + 0.09	a69d54f
AMD Ryzen AI Max+ 395	1357.07 ± 10.94	53.00 ± 0.13	7f76692
AMD Radeon RX Vega 56	428.54 ± 0.50	52.66 ± 0.03	92c0b38
Intel Arc B570	288.51 ± 0.09	50.49 ± 0.05	7f76692
Nvidia P104-100	325.30 ± 0.25	48.64 ± 0.04	eec1e33
AMD Radeon Pro V340	360.23 ± 0.74	47.54 ± 0.06	9da3dcd	Split across two GPUs
AMD Radeon RX 6800M	784.16 ± 2.76	49.06 ± 0.34	8e6f8bc
AMD Radeon RX Vega 64	320.12 ± 0.22	47.06 ± 0.01	ec428b0
Nvidia RTX A2000	1361.85 ± 3.26	45.69 ± 0.20	b1afcab	coopmat2
Intel Arc A770M	384.74 ± 0.78	45.68 ± 0.06	eeee367
Intel Arc A750	303.37 ± 1.44	43.96 ± 0.03	c1b1876
Nvidia GTX 1070 Ti	292.85 ± 0.23	43.42 ± 0.34	860a9e4	eGPU
Nvidia GTX 1070	330.84 ± 1.02	43.33 ± 0.06	360d653
Nvidia Tesla M40	93.35 ± 0.01	41.68 ± 0.01	b8372ee
Intel Arc Pro B50	132.48 ± 0.04	41.02 ± 0.04	7b43f55
AMD Radeon RX 470	197.26 ± 0.27	37.28 ± 0.11	3769fe6
AMD Radeon RX 480	194.52 ± 0.61	37.23 ± 0.09	0bcb40b
Apple M2 Ultra	198.83 ± 0.85	198.83 ± 0.85	dbb852b	Asahi Linux
Nvidia GTX 980	180.97 ± 0.74	34.16 ± 0.10	860a9e4
Nvidia P106-100	183.40 ± 0.34	30.79 ± 0.32	23bc779
AMD FirePro W8100	140.52 ± 0.34	29.28 ± 0.14	4536363
Nvidia Tesla P4	287.14 ± 0.29	28.37 ± 0.24	24d2ee0
Nvidia Quadro P2000	181.71 ± 0.12	23.77 ± 0.02	63f8fe0
Intel Core Ultra 200 Series	536.48 ± 1.27	23.05 ± 0.04	cea560f
AMD Ryzen AI 9 300 Series	532.59 ± 3.55	22.31 ± 0.06	N/A
AMD Ryzen 6000 Series	277.91 ± 0.37	21.15 ± 0.09	ee09828
Apple M2 Pro	58.86 ± 0.02	20.97 ± 0.03	1fe0029	Asahi Linux
AMD Ryzen 8000 Series	297.39 ± 1.22	20.59 ± 0.38	a5c07dc
AMD Ryzen 7000 Series	312.85 ± 2.51	20.09 ± 0.35	835b2b9
Nvidia GTX 1050 Ti	127.54 ± 1.03	20.08 ± 0.17	2f0c2db
AMD Radeon Pro WX 4100	75.59 ± 0.19	16.56 ± 0.04	860a9e4
Apple M1	35.93 ± 0.00	12.85 ± 0.02	2370665	Asahi Linux
Apple M2	46.81 ± 0.08	12.25 ± 2.30	8c0d6bb	Asahi Linux
AMD Ryzen 5000 Series	79.06 ± 0.01	10.75 ± 0.00	5d195f1
Intel Core 1100 Series	174.77 ± 4.47	10.58 ± 0.03	abb9f3c
Nvidia Tesla K40	64.37 ± 0.02	9.92 ± 0.06	eec1e33
AMD Ryzen 4000 Series	113.32 ± 0.01	9.87 ± 0.01	4b385bf
Nvidia Tesla K80	88.26 ± 0.19	9.49 ± 0.01	5d46bab	Running on single GPU
AMD Ryzen 5 3000 Series	47.41 ± 0.14	8.47 ± 0.01	1fe0029
Intel Core Ultra 100 Series	77.66 ± 2.75	7.75 ± 0.05	2e89f76
Intel Core 8000 Series	25.55 ± 0.04	3.35 ± 0.02	c4df49a
Intel N150	25.59 ± 0.00	2.91 ± 0.00	4f63cd7

これらの表の使い方

GPU を買いたい、または手元のマシンがおおよそどの位置にあるかを知りたいだけなら、実用的な読み方は次の 3 ステップです。

まず tg128 と pp512 のどちらを重視するかを見る。
日常会話、コーディング、チャットの体感なら tg128 を優先します。長いコンテキストの処理、バッチ処理、サーバー側で大量の prompt をさばく用途なら pp512 を見るべきです。
次に実際に使うバックエンドを見る。
Nvidia なら通常 CUDA が実際の上限に近く、AMD なら ROCm と Vulkan を先に照合します。クロスプラットフォーム互換を重視する場合は Vulkan が参考になります。
最後に FA を見る。
多くの GPU では FA 有効時に pp512 がより大きく伸びますが、tg128 が同じだけ伸びるとは限りません。単一の最高スコアだけで判断しないほうが安全です。

ひと言でまとめると

同じ llama.cpp ベンチマークでも、pp512、tg128、Q4_0、FA、CUDA / ROCm / Vulkan はそれぞれまったく違う軸を表します。先に条件を切り分けてから数字を見ることで、ランキングに意味が出ます。

最短で覚えるなら、次のとおりです。

CUDA は現時点で全体的に最も強い
ROCm はハイエンド AMD GPU でかなり戦える
Vulkan は対応範囲が最も広く、古い GPU、内蔵 GPU、Intel Arc、Apple Asahi まで比較対象がある
tg128 は pp512 より日常の実際の体感に近い

元データ

CUDA discussion #15013: https://github.com/ggml-org/llama.cpp/discussions/15013
Apple Silicon discussion #4167: https://github.com/ggml-org/llama.cpp/discussions/4167
ROCm discussion #15021: https://github.com/ggml-org/llama.cpp/discussions/15021
Vulkan discussion #10879: https://github.com/ggml-org/llama.cpp/discussions/10879

GPU 推論速度テストでよく見る指標の意味: FA、pp512、tg128、Q4_0 とは何か

Thu, 23 Apr 2026 00:15:00 +0800

ローカル LLM や GPU 推論速度テストを見始めると、すぐに FA、pp512、tg128、Q4_0 といった略称に出会います。どれも性能指標のように見えますが、文脈がないとかなりわかりにくいです。

たとえば、次のような行を見かけることがあります。

`1`	`CUDA Scoreboard for Llama 2 7B, Q4_0 (no FA)`

さらにその下には、

1
2

pp512 t/s
tg128 t/s

のような表示が並びます。

これらを分解して理解しないままだと、この種の速度テストが何を測っているのか、また異なる GPU の結果をどう比較すべきかが見えてきません。

この記事では、どの GPU を買うべきかではなく、GPU 推論速度テストでよく出てくる指標そのものを整理します。

まずタイトル行全体が何を言っているのか

CUDA Scoreboard for Llama 2 7B, Q4_0 (no FA) のような一行には、すでにかなり多くの前提が含まれています。

少なくとも次の四つの情報があります。

CUDA: NVIDIA GPU の CUDA 経路で測っている
Llama 2 7B: テスト対象は Llama 2 の 7B モデル
Q4_0: モデルは 4-bit 量子化形式
no FA: Flash Attention を有効にしていない

つまりこれは要するに、

「NVIDIA GPU 上で、ある量子化済み LLM を、特定の推論経路で動かしたときの速度テスト」

という意味になります。

FA とは何か: Flash Attention

ここでいう FA は Flash Attention の略です。

これは大規模モデルの学習や推論で非常に重要な最適化のひとつで、主に Attention 計算の実装を高速化するための技術です。Transformer 系モデルでは、Attention 部分が最も重い処理のひとつだからです。

従来の Attention 実装には次のような問題があります。

グローバルメモリの読み書きが多い
中間結果が増えやすい
メモリと演算コアの間でデータ移動が多い
コンテキストが長いほど負担が重くなる

Flash Attention は計算順序を工夫し、より多くの処理を高速なメモリ階層の中で完結させることで、この負担を減らします。

その典型的な効果は次の三つです。

速くなる
メモリ使用量が減る
数学的には通常の Attention と等価で、精度を落とす近道ではない

そのため、現在の推論・学習系フレームワークでは重要な最適化として扱われています。

no FA とは何か

FA が Flash Attention なら、no FA は単純に Flash Attention を使っていないという意味です。

つまり、そのベンチマークはより伝統的な Attention 実装で測られています。

なぜわざわざ no FA と書くのかというと、主に次の理由があります。

比較用の基準として残したい
ハードウェアやソフトウェアの都合で FA を使えないケースがある
条件の違うスコアを混ぜて読まれないようにしたい

したがって no FA は「GPU が弱い」という意味ではありません。より正確には、

「このスコアは Flash Attention を使わない条件で測られた」

という意味です。

Q4_0 とは何か: 量子化形式

Q4_0 は 4-bit 量子化形式のひとつです。

LLM の元の重みは通常、こんな低精度では保存されていません。そのままではサイズが大きすぎるため、量子化によって重みをより少ない bit 数で表現し、一般的な GPU でも動かしやすくします。

ざっくり言えば、

Q: Quantization
4: 4-bit
_0: 具体的な量子化方式の識別

という理解で十分です。

重要なのは、量子化によって

モデルサイズが縮む
VRAM 要求が下がる
そのままでは載らないモデルも動かしやすくなる

という点です。

つまり Llama 2 7B, Q4_0 は、「7B モデル」ではあるものの、「4-bit 量子化された 7B モデル」を意味しています。

pp512 t/s とは何か

pp512 は通常、

Prompt Processing 512 tokens

を意味します。

これは入力プロンプトを処理する速度の指標で、単位は t/s、つまり tokens per second です。

ここでの 512 は、テスト時の入力長が 512 token だったことを表しています。

この指標が測っているのは「しゃべる速さ」ではなく、モデルが回答を始める前に、入力内容を読み込んで計算する速さです。言い換えると、「まずこちらの入力を読む段階」のスループットです。

この段階の大きな特徴は、並列性が高いことです。

入力系列はまとめて処理しやすいので、GPU はこの場面では高い並列度を活かせます。そのため pp512 の値は非常に大きくなることが多く、初めて見ると少し不自然に感じるほどです。

たとえば

`1`	`pp512 ≈ 14000 t/s`

のような値が出ても不思議ではありません。これは「入力処理の吞吐量」を測っているのであって、逐次生成の速さを測っているわけではないからです。

tg128 t/s とは何か

tg128 は通常、

Text Generation 128 tokens

を意味します。

これは 128 token を連続生成したときの平均生成速度で、同じく単位は t/s です。

この指標は、私たちが普段感じる「モデルの返答速度」により近いです。実際に出力フェーズを測っているからです。

ただし pp512 との最大の違いは、テキスト生成が一般に自己回帰的であることです。

つまり、

まず 1 個目の token を出す
それが決まってから 2 個目を出す
さらにその後に 3 個目を出す

という順番になります。

そのため、入力処理のような大規模並列はかけにくく、速度はずっと低くなります。

だからこそ、

pp512 は数万 t/s
tg128 は数百 t/s

といった差が普通に起こります。

これは測定ミスではなく、そもそも別の性質の処理を測っているためです。

なぜ pp512 と tg128 の差がこんなに大きいのか

ここは多くの人が最初に引っかかるポイントです。

一言で言えば、

pp512 は並列吞吐、tg128 は逐次生成性能を見ているからです。

もう少し丁寧に言うと、

入力処理は並列化しやすい
出力生成はトークンごとの逐次性が強い
生成側はメモリ帯域やキャッシュ効率の影響を受けやすい
そのため生成速度は入力処理よりかなり低くなりやすい

これにより、GPU 間比較でも面白い現象が起きます。

pp512 では一方が勝つ
tg128 では別の GPU が少し速い

ということがあり得るのです。

これは矛盾ではなく、一方がピーク算力寄り、他方が実際の生成経路での帯域・遅延特性に左右されているからです。

t/s はどう読むべきか

t/s は tokens per second の略です。

つまり、モデルが 1 秒あたりに何 token を処理または生成できるかを表しています。

ただし注意したいのは、token は「文字」でも「単語」でもなく、モデルのトークナイザが切る単位だということです。モデルや言語によって、1 token が表すテキスト量はかなり変わります。

そのため t/s は主に次の用途に向いています。

同一モデル内で GPU を比べる
同じ環境で設定違いを比べる
同一フレームワークで最適化の有無を比べる

逆に、モデルもフレームワークもトークナイザも違う条件をまたいで、絶対値だけで単純比較するのにはあまり向いていません。

Scoreboard を読むときにまず押さえるべき点

毎回略称に埋もれたくないなら、まず次のポイントから見れば十分です。

1. テスト対象モデルは何か

たとえば Llama 2 7B なのか、量子化形式は Q4_0 なのか。同じモデル・同じ量子化でなければ、結果の横比較はあまり意味を持ちません。

2. 重要な最適化が有効かどうか

もっとも典型的なのが FA です。一方は Flash Attention を有効にしていて、もう一方は無効なら、そのスコアは単純には比較できません。

3. 入力速度を見ているのか、出力速度を見ているのか

pp512 と tg128 は別物です。前者は「読み込みの速さ」、後者は「しゃべる速さ」に近いです。

4. 吞吐を見たいのか、体感を見たいのか

長いプロンプトの立ち上がりを重視するなら pp512 が参考になります。実際の返答の滑らかさを気にするなら、tg128 の方が体感に近いことが多いです。

もっとも実用的な覚え方

これらを一番短く覚えるなら、次のように整理すると実用的です。

Q4_0: モデルは 4-bit 量子化されている
FA: Flash Attention を使っているかどうか
pp512: 512 token の入力処理速度
tg128: 128 token の出力生成速度
t/s: 1 秒あたり何 token か

この五つだけ分かっていれば、似たような CUDA Scoreboard を見たときに、単に「どちらの数字が大きいか」ではなく、「その数字は何を測っているのか」を理解しやすくなります。

結び

GPU ベンチマーク表が難しく見えるのは、指標そのものが神秘的だからではありません。モデル名、量子化、最適化の有無、入力処理と出力生成という別々の吞吐が、短い略称に圧縮されているからです。

FA、Q4_0、pp512、tg128 を順に解きほぐしていけば、こうした Scoreboard は実はそれほど難しくありません。

本当に大事なのは、GPU 名だけを見て終わらないことです。つまり、

どのモデル条件で測ったのか
最適化は有効か無効か
入力を測っているのか、出力を測っているのか
算力寄りなのか、実際の生成体感に近いのか

を一緒に見ることです。

そうすれば、似たようなベンチマーク表を見ても、その結果がどんな条件と意味を持っているのかを判断しやすくなります。

llama-cli -hf でダウンロードした Hugging Face モデルのデフォルト保存先

Fri, 17 Apr 2026 14:48:04 +0800

llama-cli を使って Hugging Face から直接モデルをダウンロードして実行する場合、たとえば次のように実行します。

`1`	`llama-cli -hf unsloth/gemma-4-E4B-it-GGUF`

これは llama.cpp に組み込まれている Hugging Face ダウンロード機能です。新しい llama.cpp では、-hf でダウンロードしたモデルは標準の Hugging Face Hub キャッシュディレクトリに保存されます。

デフォルトのキャッシュ場所

llama-cli -hf でダウンロードしたモデルのキャッシュ場所は、まず LLAMA_CACHE 環境変数で制御されます。LLAMA_CACHE が設定されていない場合は、HF_HUB_CACHE、HUGGINGFACE_HUB_CACHE、HF_HOME などの Hugging Face 関連のキャッシュ変数が確認されます。

これらの変数がどれも設定されていない場合、主なデフォルトパスは次のとおりです。

システム	デフォルトキャッシュディレクトリ
Linux	`~/.cache/huggingface/hub`
macOS	`~/.cache/huggingface/hub`
Windows	`%USERPROFILE%\.cache\huggingface\hub`

Windows では、%USERPROFILE% は通常次の場所を指します。

`1`	`C:\Users\用户名`

そのため、デフォルトのキャッシュディレクトリはおおよそ次のようになります。

`1`	`C:\Users\用户名\.cache\huggingface\hub`

llama-cli のキャッシュディレクトリを変更する方法

モデルキャッシュを指定したディスクやディレクトリに置きたい場合は、LLAMA_CACHE を設定します。Hugging Face の慣例に合わせて HF_HOME を設定することもできます。その場合、実際の Hub キャッシュディレクトリは $HF_HOME/hub になります。

Windows CMD の一時設定例：

1
2

set LLAMA_CACHE=D:\models\llama-cache
llama-cli -hf unsloth/gemma-4-E4B-it-GGUF

PowerShell の一時設定例：

1
2

$env:LLAMA_CACHE="D:\models\llama-cache"
llama-cli -hf unsloth/gemma-4-E4B-it-GGUF

Linux / macOS の一時設定例：

1
2

export LLAMA_CACHE=/data/models/llama-cache
llama-cli -hf unsloth/gemma-4-E4B-it-GGUF

まとめ

llama-cli -hf ... は llama.cpp のダウンロード機構を使いますが、新しいバージョンでは標準の Hugging Face Hub キャッシュがデフォルトです。
Linux / macOS デフォルト：~/.cache/huggingface/hub
Windows デフォルト：%USERPROFILE%\.cache\huggingface\hub
場所を変更したい場合：LLAMA_CACHE、または HF_HOME / HF_HUB_CACHE を設定する

Windows で llama-cli から Hugging Face に直接アクセスすると SSL 証明書検証に失敗する場合の対処

Fri, 17 Apr 2026 14:20:29 +0800

Windows で次のコマンドを実行したとします。

`1`	`llama-cli -hf unsloth/gemma-4-E4B-it-GGUF`

そして、次のようなエラーが表示される場合があります。

1
2

get_repo_commit: error: HTTPLIB failed: SSL server verification failed
error: failed to download model from Hugging Face

この場合、問題は CUDA や llama.cpp 本体ではないことが多いです。多くの場合、現在の環境でプログラムがシステムの証明書チェーンを正しく参照できず、HTTPS の検証に失敗しています。

ログを見ると、ggml-rpc.dll と ggml-cpu-alderlake.dll は正常に読み込まれています。つまり、実行環境自体はおおむね利用可能で、問題は主にモデルのダウンロード段階にあります。

一番手軽な方法：先にモデルを手動ダウンロードする

とにかく早く動かしたい場合は、ローカルに手動でダウンロードする方法がもっとも安定しています。

対象の Hugging Face リポジトリページを開きます。
Files and versions から必要な .gguf ファイルをダウンロードします。
ダウンロード後、ローカルファイルのパスを指定して実行します。

`1`	`llama-cli -m C:\Users\knightli\Downloads\gemma-4-e4b-it.gguf`

この方法なら、-hf のダウンロード段階で発生する SSL 検証問題を回避できます。まずモデルが正常に推論できるか確認したい場合に向いています。

それでも `-hf` の自動ダウンロードを使いたい場合

証明書ファイルのパスを手動で指定し、現在のセッションで利用できる CA 証明書をプログラムに見つけさせます。

cacert.pem は curl 公式が管理している CA Extract ページから取得できます。

ページ：https://curl.se/docs/caextract.html
直接ダウンロード：https://curl.se/ca/cacert.pem

ブラウザでダウンロードする場合は、上の直接ダウンロード URL を開いて cacert.pem として保存します。PowerShell で固定ディレクトリにダウンロードすることもできます。

1
2

New-Item -ItemType Directory -Force C:\certs
Invoke-WebRequest -Uri https://curl.se/ca/cacert.pem -OutFile C:\certs\cacert.pem

ダウンロード後、コマンドラインで次のように設定します。

1
2

set SSL_CERT_FILE=C:\certs\cacert.pem
set CURL_CA_BUNDLE=C:\certs\cacert.pem

その後、元のコマンドをもう一度実行します。

`1`	`llama-cli -hf unsloth/gemma-4-E4B-it-GGUF`

問題の原因が証明書チェーンにある場合、この方法で解決できることが多いです。

llama-quantize の使用方法: GGUF モデル量子化の概要

Sun, 12 Apr 2026 09:42:36 +0800

llama-quantize は、llama.cpp の量子化ツールで、高精度 GGUF モデルをより小さい量子化バージョンに変換するために使用されます。

最も一般的な用途は、F32、BF16、FP16 などの高精度モデルを、ローカル操作に適した Q4_K_M、Q5_K_M、Q8_0 などの形式に変換することです。量子化後、モデルのサイズは大幅に小さくなり、通常は推論が速くなりますが、精度はある程度低下します。

基本的な使い方

一般的なプロセスでは、通常、最初に元のモデルを準備し、次にそれを GGUF に変換し、最後に定量化を実行します。

# install Python dependencies
python3 -m pip install -r requirements.txt

# convert the model to ggml FP16 format
python3 convert_hf_to_gguf.py ./models/mymodel/

# quantize the model to 4-bits (using Q4_K_M method)
./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M

量子化が完了したら、llama-cli を直接使用して新しい GGUF ファイルをロードできます。

1
2

# start inference on a gguf model
./llama-cli -m ./models/mymodel/ggml-model-Q4_K_M.gguf -cnv -p "You are a helpful assistant"

共通パラメータ

--allow-requantize: すでに定量化されたモデルの再定量化が可能ですが、品質が大幅に低下する可能性があるため、通常は推奨されません。
--leave-output-tensor: 量子化せずに出力レイヤーを保持します。ボリュームは大きくなりますが、場合によっては品質が向上する場合があります。
--pure: 混合量子化をオフにして、より多くのテンソルが同じ量子化タイプを使用できるようにします。
--imatrix: 重要度マトリックスを使用して量子化効果を最適化します。通常は優先順位を付ける価値があります。
--keep-split: 単一ファイルにマージするのではなく、入力モデルのシャード構造を保持します。

単に始めたい場合は、最も現実的な出発点は次のとおりです。

`1`	`./llama-quantize ./models/mymodel/ggml-model-f16.gguf ./models/mymodel/ggml-model-Q4_K_M.gguf Q4_K_M`

定量化の選び方

まず、さまざまな定量化レベルを「体積、速度、質量の間の交換」として理解することができます。

Q8_0: サイズは大きくなりますが、一般に品質がより安定しています。
Q6_K / Q5_K_M: 共通のバランス型オプション
Q4_K_M: 非常に一般的なデフォルトファイル。通常、音量とエフェクトは比較的バランスが取れています。
Q3 / Q2: リソースが非常に不足しているが、品質の低下がより明らかになるシナリオに適しています。

与えられたデータ例から判断すると、通常、量子化レベルが低いほど、モデルは小さくなります。実際の推論では、精度が高いほど必ずしも高速であるとは限りません。そのため、通常、選択の焦点は「大きいほど良い」ではなく、「ハードウェア上で十分に安定しており、十分に経済的で、効果が許容範囲である」ことに重点を置きます。

実践的なアドバイス

Q4_K_M または Q5_K_M から優先順位を付ける
品質がより重要な場合は、Q6_K または Q8_0 にアップグレードしてください。
マシンリソースが不足している場合は、Q3 または Q2 を試してください。
異なる量子化バージョンを比較するには、常に同じバッチのテスト問題を使用することが最善です

一文の要約: llama-quantize の中心的な価値は、単にモデルを小さくすることではなく、GGUF モデルをローカルデバイス上で実行しやすくすることです。

llama.cpp Hugging Face から GGUF モデルを取得する方法

Sun, 12 Apr 2026 09:31:38 +0800

llama.cpp は、Hugging Face の GGUF モデルで直接使用できます。最初にファイルを手動でローカルにダウンロードする必要はありません。

モデルウェアハウス自体が GGUF ファイルを提供している場合は、次のようにコマンドラインで -hf パラメーターを直接使用できます。

`1`	`llama-cli -hf ggml-org/gemma-3-1b-it-GGUF`

デフォルトでは、このパラメータは Hugging Face からモデルをダウンロードします。
Hugging Face API と互換性のある別のモデルホスティングサービスを使用している場合は、環境変数 MODEL_ENDPOINT を通じてダウンロードエンドポイントを切り替えることもできます。

llama.cpp は、GGUF 形式のみを直接使用できることに注意してください。
他の形式でモデルファイルを取得した場合は、まずウェアハウス内の convert_*.py スクリプトを使用して、それを GGUF に変換する必要があります。

Hugging Face は、llama.cpp に関連するいくつかのオンラインツールも提供します。一般的な用途には次のようなものがあります。

モデルを GGUF に変換します
モデルを定量化し、サイズを縮小する
LoRA アダプターを変換する
GGUF メタデータをオンラインで編集する
llama.cpp 推論サービスを直接ホストする

最も実用的な結論だけを覚えておきたい場合は、まず GGUF をすでに提供しているモデルウェアハウスを探し、次に llama-cli -hf <user>/<model> を直接使用します。これが通常は最も簡単な方法です。

Gemma 4 ローカル通話ガイド: ワンクリック実行から開発統合まで

Fri, 10 Apr 2026 22:54:17 +0800

Gemma 4 (2026 年に Google がリリースした新世代のオープンソースモデル) をローカルで呼び出したい場合は、ニーズに応じてこれら 4 種類のソリューションから選択できます。

1) 最も早く始める: Ollama (推奨)

これは最も障壁の低いアプローチであり、簡単なテスト、日常会話、ローカル API 呼び出しに適しています。

`1`	`ollama run gemma4`

特徴：

Win/Mac/Linux で利用可能
ハードウェアアクセラレーションを自動的に処理します
OpenAIスタイルに対応したネイティブAPIを提供

2) グラフィカルインターフェイス: LM Studio / Unsloth Studio

デスクトップ GUI (ChatGPT に似たもの) に慣れている場合は、これら 2 種類のツールの方が便利です。

LM Studio:Hugging Face で Gemma 4 量子化モデル (4 ビット、8 ビットなど) を直接検索してダウンロードし、リソースの使用状況を表示できます。
Unsloth Studio: 推論に加えて、低メモリ微調整もサポートしています。 6GB～8GBのビデオメモリを搭載したマシンにさらに優しい。

3) 低構成と究極の制御: llama.cpp

古いマシン、純粋な CPU シナリオ、または推論パラメーターを詳細に制御したいユーザーに適しています。

量子化バージョンで .gguf モデルファイルを使用すると、より低いハードウェアしきい値で Gemma 4 を実行できます。

4) 開発統合: Transformers/vLLM

Gemma 4 を独自のアプリケーションに統合したい場合:

Transformers: Python プロジェクトにモデルを直接ロードするのに適しています
vLLM: 高性能 GPU シナリオおよび高スループット推論サービスに適しています

クイック選択

需求	推荐工具	硬件门槛
我只想马上跑起来	Ollama	低（自动适配）
我更喜欢图形界面	LM Studio	中
显存很紧张（6GB-8GB）	Unsloth / llama.cpp	低
我要做本地 AI 应用开发	Ollama / Transformers / vLLM	中到高
我要做微调训练	Unsloth Studio	中到高

モデルの推奨サイズ

Gemma 4 はさまざまなサイズで利用できます (E2B、E4B、31B など)。

通常のオフィスのラップトップの場合は、定量化された E2B/E4B が推奨されます。
ビデオメモリに余裕がある場合は、より大きなバージョンを試してください。

Llama.cpp on KnightLiブログ

llama.cpp b9196アップデート：Windowsプリビルド版がCUDA 13.1、Vulkan、HIP、SYCLに対応

llama.cppは何に向いているか

Windowsプリビルド版の選び方

通常のGGUFモデルを起動する

マルチモーダル視覚モデルを起動する

batスクリプトで複数モデルを管理する

モデル選びで見るべき3点

よくある問題

まとめ

llama.cpp のマルチ GPU 性能を実測する考え方：2x V100 16GB は単体 32GB より速いのか？

まず split mode を分けて考える

単体 32GB に収まるなら、双 16GB が速いとは限らない

単体 16GB に収まらないなら、双カードの価値は大きい

V100 PCIe と V100 SXM2 は大きく違う

実際にはどう選ぶか

いつ 2x16GB を買い、いつ 1x32GB を買うか

layer split と tensor split の実用的な使い方

prefill と decode で性能が違う理由

KV cache は第 2 の VRAM ボトルネックになるか

llama-bench で双カードを自分で測る

一言でまとめると

RTX 3060 で動かしやすいローカル LLM モデルおすすめ

まず VRAM の上限を見る

おすすめ1：Qwen3 8B

おすすめ2：Llama 3.1 8B Instruct

おすすめ3：Gemma 3 12B

おすすめ4：DeepSeek R1 Distill Qwen 8B

おすすめ5：Phi / MiniCPM / 小型モデル

量子化の選び方

どのツールで動かすか

コンテキストを大きくしすぎない

用途別の選び方

RTX 3060 ローカル LLM への現実的な期待

まとめ

参考リンク

Hermes + Qwen3.6：ローカル Agent の低コスト構築案

構成

WSL2 と Ubuntu のインストール

Python と基本ツールのインストール

llama.cpp のビルド

Qwen3.6 GGUF モデルのダウンロード

ローカルモデルサービスを起動する

Thinking モードの使い分け

Hermes Agent のインストール

モデルサービスの自動起動

注意事項

関連リンク

8GB VRAM で llama.cpp をどう調整するか: 32K の方が安定しやすく、64K では KV Cache 量子化が重要

1. まず、32K・64K・KV Cache とは何か

2. なぜ 32K と 64K で速度差が大きくなるのか

3. 64K を使うなら、KV Cache 量子化が重要

4. GPU 使用率が低くても、GPU が遊んでいるとは限らない

5. スループット関連パラメータは効くことがあるが、VRAM 余裕が前提

6. CPU スレッドは多ければ多いほどよいわけではない

7. 8GB VRAM 向けの、より実用的な考え方

1. まず 32K を標準目標にする

2. 64K を使いたいなら、まずキャッシュを見る

3. GPU 使用率だけで判断しない

4. スループット最適化は有効だが、VRAM 境界を越えない

5. CPU スレッドは保守的に始める

結論

llama.cpp / ollama GPU 性能ランキング：CUDA、ROCm、Vulkan

まずパラメータを理解する

Q4_0 とは

pp512 とは

tg128 とは

FA とは

t/s の読み方

先に結論

CUDA 完全ランキング

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

Apple Silicon の参照基準

ROCm / HIP 完全ランキング

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

Vulkan 完全ランキング

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, FA enabled

`Q4_0` とは

`pp512` とは

`tg128` とは

`FA` とは

`t/s` の読み方

それでも `-hf` の自動ダウンロードを使いたい場合