CUDA on KnightLi的博客

Ubuntu 26.04 LTS 的 GPU 與硬體支援更新：CUDA、ROCm、DPC++ 和更多平台變化

Sun, 26 Apr 2026 19:35:57 +0800

如果上一篇比較像是 Ubuntu 26.04 LTS 的桌面總覽，那這篇可以看作它在硬體與算力側的補充版。官方在這一輪 26.04 裡，把不少和 AI、GPU 計算、平台相容性直接相關的內容都推進了主倉庫或正式支援範圍。

先說結論：這次最值得關注的，不只是桌面和核心升級，而是 Ubuntu 正在把 Intel、NVIDIA、AMD 三家的 GPU 計算堆疊，更系統地納入發行版生態。

1. Intel DPC++ 與相關元件進入 Ubuntu Archive

從 26.04 開始，Intel 開源的 oneAPI DPC++ 編譯器已經可以直接從 Ubuntu Archive 取得，用來建構 SYCL 程式碼。其執行階段也包含面向 Intel GPU 的配接器。

同時進入 Ubuntu 倉庫的，還有兩個相關元件：

oneDPL，也就是 DPC++ library，提供更高生產力的開發介面
oneDNN，而且是基於 dpclang-6 建構，可在 Intel GPU 上運行

這代表如果你本來就在看 SYCL、異質運算，或是 Intel GPU 上的 AI 工作負載，Ubuntu 現在給出的路徑會直接很多，不再需要完全依賴一套獨立維護的外部環境。

官方也特別提醒一點：如果要實際調用這些 Intel GPU 相關能力，使用者需要加入 render 群組。

2. NVIDIA CUDA toolkit 現在也能直接 `apt install`

對很多開發者和維運人員來說，這可能是這份更新裡最實用的一條。

從 26.04 開始，NVIDIA CUDA toolkit 已經可以直接透過 Ubuntu Archive 安裝。命令就是：

`1`	`sudo apt install cuda-toolkit`

這背後的意義，不只是「少打幾條指令」。

對以 Ubuntu 為目標平台發佈軟體的開發者來說，新的模式意味著可以直接宣告對 CUDA runtime 的依賴，後續安裝與相容性由 Ubuntu 在發行版層面處理。這會讓 CUDA 在 Ubuntu 上更容易取得，也更接近系統原生能力，而不是額外疊上一層需要單獨維護的外部軟體堆疊。

3. AMD ROCm 7.1.0 進入 Universe

AMD 這邊，Ubuntu Universe 現在已經包含 ROCm 7.1.0。

這套函式庫主要提供的是：

面向 AMD GPU 的 AI 訓練與推論後端能力
機器學習與高效能運算相關的軟體基礎設施

官方還提到，Canonical 會在自己的 CI/CD 流程裡持續測試 ROCm 相關元件。除了 autopkgtests，也覆蓋了一些使用者態應用，包括：

llama.cpp
pytorch
Blender
Lemonade Server

這條資訊其實很關鍵，因為它說明 Ubuntu 不是單純「把套件放進倉庫」，而是把 ROCm 當成一套可維護的軟體堆疊來驗證。

4. 這一輪真正的重點，是三家 GPU 生態都在落地

把 DPC++、CUDA 和 ROCm 放在一起看，會更容易理解 26.04 的方向：

Intel：推進 SYCL / oneAPI 相關能力進入官方倉庫
NVIDIA：讓 CUDA toolkit 具備發行版級的安裝路徑
AMD：把 ROCm 7.1.0 納入 Universe，並持續做測試

如果你平常會在 Ubuntu 上碰到這些場景，這一輪更新會比較有感：

本地大模型推論
GPU 加速訓練或微調
Blender、科學運算、HPC
需要在多種 GPU 平台之間切換的開發環境

換句話說，Ubuntu 現在不只是「能裝顯卡驅動」，而是開始更完整地承接 AI 與 GPU 計算所需的使用者態軟體堆疊。

5. NVIDIA Dynamic Boost 預設啟用

從 25.04 開始，支援的 NVIDIA 筆電已經預設啟用 Dynamic Boost。

這個功能的邏輯很直接：系統會根據當前負載，在 CPU 和 GPU 之間動態分配功耗。對遊戲場景來說，常見收益就是在需要時把更多功率給 GPU，以換取更高效能。

不過它有兩個前提：

裝置接上交流電
GPU 負載夠高

在電池供電狀態下，它不會介入。

6. Intel 新一代內顯與獨顯支援持續往前推進

Ubuntu 這一輪也把對新 Intel GPU 的支援繼續往前推，重點包括：

整合顯示：

Intel Core Ultra Xe2
Intel Core Ultra Xe3

獨立顯示：

Intel Arc 5 B570
Intel Arc 5 B580
Intel Arc Pro B50
Intel Arc Pro B60
Intel Arc Pro B65
Intel Arc Pro B70

圍繞這批裝置，官方也列出了一些已經到位的特性：

基於 Intel Embree 的 GPU 與 CPU 光線追蹤渲染效能提升，像 Blender 4.2+ 這類應用可受益
“Battlemage” 裝置支援 AVC、JPEG、HEVC 和 AV1 的硬體視訊編碼
Intel Compute Runtime 引入新的 CCS 最佳化
已啟用 Intel Xe GPU 偵錯支援

如果你更關注後續版本，25.10 還會繼續帶進一些新能力，例如：

借助 Linux kernel 6.17 初步支援代號 Panther Lake 的下一代 Intel 用戶端平台
改進 IOMMU、PCIe 子系統與多 GPU 支援
Mesa 25.2.3 為 Battlemage 和 Panther Lake 啟用 VK_KHR_shader_bfloat16
intel-media-driver 25.3.0 增加 Panther Lake 解碼與 VP9 編碼支援
intel-compute-runtime 25.31 調整 Level Zero 的 USM 池與本地顯存事件配置策略
level-zero 1.24 與 level-zero-raytracing 1.1.0 帶來更完整的規範與 RTAS 擴充支援

7. Nvidia 桌機的掛起恢復也更穩定了

從 25.10 開始，Ubuntu 在專有 Nvidia 驅動中啟用了掛起恢復支援，以減少桌機喚醒後的損毀與卡死問題。

這類改動不算「看得見的新功能」，但對實際日常穩定性很重要，尤其是長時間開機、經常掛起恢復的桌面環境。

8. ARM、樹莓派、RISC-V 和 IBM Z 也有硬性門檻變化

除了 GPU 軟體堆疊，這份發行說明裡還有幾條平台層面的變化很值得單獨記一下。

ARM64 桌面平台

從 25.10 開始，linux-generic 的 ARM64 核心會提供更廣泛的桌面相容性，覆蓋那些使用 UEFI 開機的 ARM64 桌面平台。

Raspberry Pi 新開機配置

25.10 引入、26.04 持續調整的一個變化，是樹莓派開機分割區的新配置。

它的目標是提升開機可靠性：新寫入的開機資源會先被「測試」，確認沒問題後才會提交為新的 “known good” 集合。

這裡最需要注意的是韌體時間要求：

Pi 3 / 3+ / CM3+ / Zero 2W：不需要額外操作，開機韌體就在映像檔內
Pi 4 / 400 / CM4：開機韌體日期不得早於 2022-11-25
Pi 5 / 500 / CM5：開機韌體日期不得早於 2025-02-11

檢查命令是：

`1`	`sudo rpi-eeprom-update`

如果韌體太舊，而且你使用的是 Ubuntu 24.04 LTS 或更新版本，可以這樣更新：

1
2

sudo rpi-eeprom-update -a
sudo reboot

Raspberry Pi 桌面映像改用 desktop-minimal

從 25.10 開始，樹莓派版 Ubuntu Desktop 映像改為基於 desktop-minimal，而不是完整的 desktop seed。

官方給出的收益很明確：預設安裝的應用更少，未壓縮映像與實際系統都能節省大約 777MB 空間。

如果升級後想批次移除這批預設應用，可以使用：

`1`	`sudo apt purge ubuntu-desktop --autoremove`

如果你想保留其中某些應用，先用 apt 把它們標記為手動安裝即可。

樹莓派 swap 改由 cloud-init 處理

從 25.10 開始，樹莓派桌面映像裡的 swap 檔建立改由 cloud-init 負責。
如果你想在首次開機前自訂 swap 大小，可以直接修改開機分割區上的 user-data。

RISC-V 門檻上調

從 25.10 開始，Ubuntu 26.04 LTS 的 RISC-V 版本要求硬體實作 RVA23S64 ISA profile。

不符合這個要求的裝置，已經不能執行 Ubuntu 26.04 LTS。如果你手上還是較早的 RVA20 處理器板卡，那就得繼續留在 Ubuntu 24.04 LTS 這一代支援線上。

按照官方說明，截至 2026 年 4 月，現實裡還沒有可用的 RVA23S64 硬體，因此目前唯一受支援的平台，其實是基於 QEMU 並使用 -cpu rva23s64 配置的虛擬化環境。

IBM Z 最低要求提高到 z15

從 26.04 開始，s390x 架構最低要求提高到 z15。

這意味著：

z14 / LinuxONE II 以及更早的平台，已經不能安裝 Ubuntu 26.04 LTS
z15 / LinuxONE III 以及更新平台，會有更好的效能表現

9. 哪些人更適合先看這篇

如果你屬於下面這些場景，這篇會比桌面總覽更值得優先看：

在 Ubuntu 上做 CUDA、ROCm、SYCL 或本地 AI 推論
用 Intel、NVIDIA、AMD GPU 做開發或計算任務
維護 Raspberry Pi、ARM64、RISC-V、IBM Z 等非標準 x86 平台
對升級後的驅動、執行時、倉庫可用性和平台門檻更敏感

10. 一句話總結

Ubuntu 26.04 LTS 在硬體與 AI 軟體堆疊上的重點，不是哪一家顯卡單獨增強了什麼，而是 Intel 的 DPC++、NVIDIA 的 CUDA、AMD 的 ROCm，都開始以更官方、更多倉庫內、也更可維護的方式進入 Ubuntu 生態。

如果你過去把 Ubuntu 當成「先裝系統，再自己拼 GPU 環境」的底座，那從 26.04 開始，它已經更像一個願意主動承接 AI 與異質運算工作負載的發行版了。

NVIDIA nvbandwidth 是什麼：GPU 頻寬測試工具怎麼用

Fri, 24 Apr 2026 14:41:35 +0800

如果你最近在排查多張 NVIDIA GPU 之間的互連效能，或是想確認 PCIe、NVLink、主機記憶體到顯存之間的實際頻寬，NVIDIA/nvbandwidth 是一個很值得知道的小工具。

它不是通用跑分軟體，也不是大模型框架裡的隱藏命令，而是 NVIDIA 開源出來、專門用來測量 GPU 相關記憶體拷貝頻寬與延遲的工具。相比只看理論頻寬，nvbandwidth 更適合回答一個實際問題：這台機器目前這組 GPU 和互連鏈路，實際到底能跑出多少頻寬。

1. `nvbandwidth` 是做什麼的

從官方 README 的定位來看，nvbandwidth 是一個用來測量 NVIDIA GPU 頻寬的命令列工具。

它重點關注的是各種 memcpy 模式下的傳輸表現，例如：

GPU -> GPU
CPU -> GPU
GPU -> CPU
多節點 GPU 之間的傳輸

這類測試特別適合下面幾種場景：

排查多卡訓練或推理時的互連瓶頸
驗證 NVLink、PCIe、C2C 等鏈路的實際表現
比較不同伺服器、不同拓撲、不同驅動或 CUDA 版本下的傳輸差異
做叢集部署前的基礎硬體驗收

簡單說，nvbandwidth 看的不是模型吞吐，而是更底層的「資料搬運能力」。

2. 它測的不是單一分數

很多人會把「頻寬測試」理解成最後只得到一個分數，但 nvbandwidth 實際輸出的資訊會更細。

它會依照測試類型給出矩陣結果。比如在 device_to_device_memcpy_write_ce 這類測試裡，輸出會按 GPU 的行列展示每一對裝置之間的頻寬。這樣你不只知道「這台機器大概有多快」，還可以看出：

哪兩張卡之間速度特別高
哪些卡之間明顯受限於 PCIe
某些 GPU 配對之間是否存在異常低頻寬
多卡拓撲是否符合預期

如果你在看八卡伺服器、雙路平台或跨節點系統，這類矩陣結果通常會比單一平均值更有參考意義。

3. `CE` 和 `SM` 兩類拷貝怎麼理解

官方文件把測試分成兩類：

CE：基於 memcpy API 的 copy engine 拷貝
SM：基於 kernel 的拷貝

這兩類結果不一定會完全一樣，因為它們代表的是不同的拷貝路徑。
如果你只是想看裝置之間的一般資料搬運表現，通常會先關注 CE；如果你要研究更細的執行路徑，再繼續看 SM 會更合適。

另外，README 也說明帶寬結果預設取多次測試的中位數；新版又補上了統計波動資訊，這對判斷結果是否穩定會更有幫助。

4. 執行它需要什麼環境

nvbandwidth 不是那種「下載就能直接跑」的純二進位小工具，它需要標準的 CUDA 開發環境。

官方 README 目前列出的基本要求包括：

CUDA Toolkit 11.x 或更高版本
支援 C++17 的編譯器
CMake 3.20+，更推薦 3.24+
Boost program_options
可用的 CUDA 裝置與相容驅動

如果你要跑多節點版本，要求會更高。當前 README 明確寫到：

多節點建置需要 CUDA Toolkit 12.3
驅動需要 550 或更高
需要 MPI
需要設定 nvidia-imex 服務

所以它更像是面向 Linux GPU 伺服器與叢集環境的工程工具，而不是給一般桌面使用者隨手裝來玩的。

5. 單機版怎麼編譯和執行

單機版建置流程很直接：

1
2

cmake .
make

在 Ubuntu / Debian 上，官方還提供了一個 debian_install.sh 腳本，用來安裝通用依賴並建置專案。

編譯完成後，可以先看幫助：

`1`	`./nvbandwidth -h`

幾個比較常用的參數包括：

-l：列出可用測試
-t：按測試名稱或索引執行指定測試
-p：按前綴批次執行測試
-b：設定 memcpy buffer 大小，預設 512 MiB
-i：設定測試迭代次數
-j：輸出 JSON
-H：啟用 huge pages 的主機記憶體配置

如果只是想先跑一輪預設測試，直接執行：

`1`	`./nvbandwidth`

如果只想測一個具體項目，例如某個裝置到裝置的拷貝：

`1`	`./nvbandwidth -t device_to_device_memcpy_read_ce`

6. 多節點支援是它比較特別的地方

nvbandwidth 不只是單機多卡測試工具，它也支援多節點場景。

從 README 來看，多節點版本的建置方式是：

1
2

cmake -DMULTINODE=1 .
make

執行時通常要搭配 mpirun，並以「每張 GPU 一個進程」的方式啟動。
官方文件也要求所有參與測試的 rank 都處在同一個 multinode clique 內，並建議在 MPI 環境下主要執行帶 multinode 前綴的測試。

這一點說明它的定位明顯更偏向高效能運算與大型 GPU 系統，而不只是工作站自測。

如果你手上是 NVLink 多節點部署、GB200 / Grace Hopper 這類更複雜的平台，nvbandwidth 的價值會比一般消費級顯卡環境大得多。

7. 新版 `v0.9` 更新了什麼

截至 2026 年 4 月 24 日，GitHub Releases 頁面顯示 nvbandwidth 的最新版本是 v0.9，發布時間是 2026 年 4 月 8 日。

這一版比較值得注意的更新主要有：

為頻寬輸出增加波動統計資訊
增加 host memory huge pages 支援（Windows 不啟用）
為裝置到裝置測試增加 pair sampling 選項
補充 troubleshooting guide
統一單機與多節點執行路徑

另外還有兩點工程層面的變化也很實用：

改進 CUDA 架構檢測，降低對實際 GPU 存取的依賴
在 CUDA Toolkit 13.0+ 場景下棄用 Volta（sm_70 / sm_72）支援

如果你之前只看過舊版資料，現在再回來看，v0.9 已經不只是「測一下頻寬」的初始版本，而是朝著更適合自動化、排障和大型系統測試的方向繼續推進了。

8. 什麼時候適合用它

nvbandwidth 最適合下面這些情況：

你想確認多張 NVIDIA GPU 之間的真實互連頻寬
你懷疑某張卡被插在了受限的 PCIe 插槽
你想比較 NVLink 和非 NVLink 路徑的差異
你在做多節點 GPU 叢集部署，需要驗證鏈路是否正常
你想把測試結果接進自動化流程，輸出 JSON

但如果你的目標只是看「訓練快不快」或「推理 tokens/s 有多少」，那它不是直接答案。
這時你還需要搭配訓練框架、推理引擎或具體 workload 的實測一起看。

9. 可以怎麼理解它的價值

很多 GPU 效能問題，本質上都不是「算力不夠」，而是資料沒有搬好。

例如：

GPU 之間沒有走到預期的鏈路
跨 NUMA 節點存取導致速度下降
某些卡配對之間頻寬異常
跨節點通訊配置不完整

這類問題如果只看 nvidia-smi、只看模型吞吐，往往不容易定位。
而 nvbandwidth 這種更底層、矩陣化的測試工具，剛好能把「鏈路層實際發生了什麼」暴露出來。

所以你可以把它理解成：給 NVIDIA GPU 系統做頻寬體檢的命令列工具。

llama.cpp ollama 顯卡性能天梯：CUDA、ROCm、Vulkan

Thu, 23 Apr 2026 10:22:04 +0800

先看懂這些參數

`Q4_0` 是什麼

Q4_0 是一種 4-bit 量化格式。它的意義不是「模型更強」，而是「模型更小、更省顯存、更容易塞進更多設備裡」。這些榜單大多統一使用 Llama 2 7B, Q4_0，核心目的就是減少變數，讓不同 GPU 的成績更容易橫向比較。

`pp512` 是什麼

pp512 一般可以理解為 prompt processing 512 tokens，也就是處理 512 個輸入 token 時的吞吐。

pp = prompt processing
512 = 輸入長度是 512 token
t/s = tokens per second

它更像是「吃提示詞的速度」，通常能更充分地並行，所以數字往往很高。

`tg128` 是什麼

tg128 一般可以理解為 text generation 128 tokens，也就是連續生成 128 個 token 時的速度。

tg = text generation
128 = 連續生成 128 token
t/s = tokens per second

它更接近我們平時感受到的「模型回答快不快」。因為生成階段是逐 token 遞推，所以通常明顯低於 pp512。

`FA` 是什麼

FA 是 Flash Attention。簡單理解，就是注意力計算的一種最佳化開關。

with FA 表示啟用了 Flash Attention
no FA 表示關閉 Flash Attention

在不少卡上，FA 對 pp512 的提升比對 tg128 更明顯；但不同後端、不同驅動和不同架構之間，提升幅度並不一致，個別設備甚至會出現 PP 上升、TG 變化很小，或者 PP 反而下降的情況。

`t/s` 怎麼看

t/s 就是 tokens per second。它不是幀率，也不是 FLOPS，而是模型吞吐表現的直接結果。

讀榜單時最重要的一點是：先確認你比較的是不是同一種測試。

不要把 pp512 和 tg128 直接混著比
不要把 no FA 和 with FA 混著比
不要把 CUDA、ROCm、Vulkan 的結果當成完全等價的同一條曲線

先說結論

從這幾條討論串目前可見的資料看，大致可以先記住這幾個結論：

CUDA 仍然是目前 llama.cpp GPU 跑分裡最強、樣本也最密集的一條線，特別是高階 Nvidia 卡在 pp512 上優勢很大。
ROCm 在高階 AMD 卡和 Instinct 卡上已經能給出非常像樣的成績，MI300X、7900 XTX、W7900 這些條目都不弱。
Vulkan 的優點不是「絕對最快」，而是覆蓋面最廣，Nvidia、AMD、Intel、Apple Asahi / MoltenVK，甚至很多老卡和核顯都能找到條目。
tg128 往往更接近日常體感，pp512 更適合看吞吐能力。很多「榜一」卡，在兩項裡的領先幅度並不完全一樣。

CUDA 完整榜單

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14073.41 ± 115.16	290.02 ± 1.10	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	14854.63 ± 22.73	274.20 ± 0.14	79c1160	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	9918.34 ± 176.97	267.81 ± 1.54	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	4849.53 ± 8.94	190.88 ± 0.33	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	10293.86 ± 134.72	189.33 ± 0.19	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	11992.70 ± 107.99	186.21 ± 0.13	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	8297.36 ± 9.50	181.99 ± 0.42	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	6952.38 ± 13.73	176.85 ± 0.07	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	9229.23 ± 101.78	176.07 ± 0.26	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6567.49 ± 20.30	171.19 ± 3.98	9c35706	@slaren
RTX 3090	24 GB / GDDR6X / 384 bit	5174.69 ± 21.83	158.16 ± 0.21	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	8870.49 ± 378.76	152.01 ± 0.28	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	8125.15 ± 41.05	148.33 ± 0.20	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	8031.64 ± 26.49	142.49 ± 0.16	20638e4	@Ristovski
RTX 3080	10 GB / GDDR6X / 320 bit	5013.86 ± 24.80	139.65 ± 0.99	9c35706	@slaren
RTX A6000	48 GB / GDDR6 / 384 bit	4913.93 ± 6.79	138.73 ± 2.75	4795c91	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	6924.53 ± 13.87	132.26 ± 0.16	9c35706	@Ristovski
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	4992.83 ± 113.52	131.66 ± 0.20	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4028.16 ± 19.14	130.07 ± 2.74	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	3042.64 ± 40.71	129.08 ± 0.05	51f5a45	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5184.75 ± 18.70	127.54 ± 0.46	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	4609.01 ± 10.67	124.11 ± 0.17	3470a5c	@Hedede
A30	24 GB / HBM2e / 3072 bit	2767.10 ± 1.88	124.81 ± 0.16	583cb83	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2617.46 ± 2.10	108.79 ± 0.05	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	2890.66 ± 2.42	107.51 ± 0.21	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	2751.18 ± 19.43	102.77 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	2709.95 ± 3.35	102.68 ± 0.03	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	2827.20 ± 66.43	97.32 ± 2.80	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	3737.25 ± 6.79	90.94 ± 0.02	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2088.34 ± 1.94	88.06 ± 0.28	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2684.06 ± 15.28	83.77 ± 0.37	65349f2	@TinyServal
Titan Xp	12 GB / GDDR5X / 384 bit	1154.96 ± 1.46	76.08 ± 0.08	c4510dc	@Hedede
RTX 3060	12 GB / GDDR6 / 192 bit	2137.50 ± 10.12	75.57 ± 0.07	baa9255	@QuantiusBenignus
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1536.89 ± 0.90	65.62 ± 0.62	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3394.63 ± 7.44	63.86 ± 0.01	89d1029	@mike-llamacpp
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1084.41 ± 3.01	62.49 ± 0.06	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	2779.77 ± 9.91	61.83 ± 0.04	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1420.24 ± 1.95	60.04 ± 0.01	5c0eb5e	@ggerganov
Tesla P100	16 GB / HBM2 / 4096 bit	760.80 ± 2.92	58.35 ± 0.00	b8372ee	@Hedede
DGX Spark	128 GB / LPDDR5x	3062.31 ± 11.02	57.21 ± 0.06	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1007.42 ± 1.23	54.74 ± 0.07	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	1956.22 ± 7.74	50.62 ± 0.04	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1219.06 ± 4.18	46.38 ± 0.73	d32e03f	@pt13762104
RTX 4050 Laptop	6 GB / GDDR6 / 96 bit	1725.85 + 17.85	43.72 + 0.41	d79d8f3	@TimCabbage
GTX 1660	6 GB / GDDR5 / 192 bit	148.91 ± 0.01	41.35 ± 0.02	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	282.65 ± 0.15	38.04 ± 0.02	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	714.44 ± 2.04	37.82 ± 0.02	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	991.31 ± 1.15	33.58 ± 0.14	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	514.53 ± 3.06	33.29 ± 0.00	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	406.94 ± 0.25	30.40 ± 0.02	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	416.85 ± 1.75	27.79 ± 0.02	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	79.44 ± 0.01	27.82 ± 0.18	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	309.30 ± 0.05	23.63 ± 0.00	baa9255	@TinyServal
Quadro P1000	4 GB / GDDR5 / 128 bit	183.40 ± 0.11	13.99 ± 0.13	1e74897	@aleksyx
Tesla K80	12 GB / GDDR5 / 384 bit	133.14 ± 0.55	13.80 ± 0.02	32732f2	@pebaryan

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14970.15 ± 381.06	300.40 ± 0.28	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	16618.98 ± 20.66	281.11 ± 0.41	5143fa8	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	11263.29 ± 98.34	280.74 ± 1.17	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	5285.96 ± 6.58	200.90 ± 0.12	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	12506.97 ± 11.51	191.57 ± 0.03	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	14770.63 ± 102.93	188.96 ± 0.05	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	9487.70 ± 21.89	184.68 ± 0.05	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	8419.56 ± 35.50	182.43 ± 0.09	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	10576.85 ± 530.21	179.47 ± 0.32	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6924.01 ± 10.76	172.26 ± 1.31	9c35706	@slaren
RTX PRO 4500 Blackwell	32 GB / GDDR7 / 256 bit	7251.66 ± 92.40	168.90 ± 0.20	becc481	@Hedede
RTX 3090	24 GB / GDDR6X / 384 bit	5560.06 ± 16.28	161.89 ± 0.18	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	10097.64 ± 671.22	153.76 ± 0.12	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	9439.01 ± 56.75	147.48 ± 1.41	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	9205.93 ± 22.31	143.47 ± 0.02	20638e4	@Ristovski
RTX A6000	48 GB / GDDR6 / 384 bit	5662.39 ± 13.87	144.87 ± 0.18	4795c91	@Hedede
RTX 3080	10 GB / GDDR6X / 320 bit	5569.56 ± 14.04	139.95 ± 0.95	9c35706	@slaren
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	5674.44 ± 139.53	136.38 ± 0.13	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4552.15 ± 9.68	135.83 ± 0.11	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	2973.78 ± 3.62	134.76 ± 0.02	51f5a45	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	7612.32 ± 37.35	132.85 ± 0.31	9c35706	@Ristovski
A30	24 GB / HBM2e / 3072 bit	3068.72 ± 0.63	131.93 ± 0.18	583cb83	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5783.44 ± 36.95	128.21 ± 2.52	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	5256.38 ± 19.39	126.24 ± 0.06	3470a5c	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2481.25 ± 1.31	112.17 ± 0.01	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	3107.61 ± 4.34	109.17 ± 0.07	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	3053.96 ± 1.37	104.38 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	3052.35 ± 5.64	103.63 ± 0.02	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	3453.10 ± 49.19	103.00 ± 0.25	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	4195.53 ± 1.98	93.46 ± 0.01	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2293.29 ± 5.91	87.71 ± 0.29	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2807.83 ± 52.44	85.17 ± 0.66	65349f2	@TinyServal
RTX 3060	12 GB / GDDR6 / 192 bit	2407.67 ± 3.73	76.92 ± 0.03	baa9255	@QuantiusBenignus
Titan Xp	12 GB / GDDR5X / 384 bit	1218.12 ± 1.82	73.84 ± 0.04	c4510dc	@Hedede
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1662.80 ± 2.04	67.62 ± 0.67	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3803.45 ± 70.80	64.03 ± 0.53	89d1029	@mike-llamacpp
Tesla P100	16 GB / HBM2 / 4096 bit	787.36 ± 3.27	61.99 ± 0.00	b8372ee	@Hedede
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1138.14 ± 2.02	61.38 ± 0.03	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	3171.86 ± 4.34	61.37 ± 0.01	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1563.77 ± 0.51	61.13 ± 0.05	5c0eb5e	@ggerganov
DGX Spark	128 GB / LPDDR5x	3661.37 ± 38.66	56.74 ± 0.03	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1079.66 ± 0.18	53.73 ± 0.05	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	2250.14 ± 5.91	50.71 ± 0.01	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1309.73 ± 1.02	44.03 ± 0.57	d32e03f	@pt13762104
GTX 1660	6 GB / GDDR5 / 192 bit	154.45 ± 0.52	41.43 ± 0.01	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	290.17 ± 0.11	39.98 ± 0.01	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	790.52 ± 2.39	37.87 ± 0.00	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	1171.96 ± 4.70	35.88 ± 0.18	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	529.53 ± 2.12	33.12 ± 0.03	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	438.49 ± 0.38	30.64 ± 0.06	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	446.19 ± 0.81	28.18 ± 0.01	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	27.46 ± 0.23	27.46 ± 0.23	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	311.55 ± 0.19	23.76 ± 0.01	baa9255	@TinyServal
Tesla K80	12 GB / GDDR5 / 384 bit	133.36 ± 0.60	14.27 ± 0.32	32732f2	@pebaryan
Quadro P1000	4 GB / GDDR5 / 128 bit	173.82 ± 0.02	13.65 ± 0.14	1e74897	@aleksyx

Apple Silicon 參考口徑

#4167 這條討論和後三條最大的區別，是它更早建立了統一口徑，除了 Q4_0，還會順帶放 F16 和 Q8_0。它對理解 PP / TG / t/s 很有幫助。

討論裡直接給出的說明是：

PP 表示 prompt processing
TG 表示 text-generation
t/s 表示 tokens per second

文中可見的一個時間對比樣例，是 M2 Ultra 在同一台機器上隨著版本和 FA 演進後的成績：

時間	設備	版本/說明	頻寬 GB/s	GPU 核心	F16 PP	F16 TG	Q8_0 PP	Q8_0 TG	Q4_0 PP	Q4_0 TG
2023-11-21	M2 Ultra	8e672ef	800	76	1401.85	41.02	1248.59	66.64	1238.48	94.27
2024-11-12	M2 Ultra	86ed72d + FA	800	76	1525.95	43.15	1368.18	73.11	1391.78	108.80
2025-08-02	M2 Ultra	5c0eb5e + FA	800	76	1561.35	43.24	1386.97	73.35	1412.42	109.41

設備	Q4_0 PP	Q4_0 TG	Q8_0 PP	Q8_0 TG	F16 PP	F16 TG
M1 Pro 16 GPU	266.25	36.41	270.37	22.34	302.14	12.75
M2 Ultra 76 GPU	1238.48	94.27	1248.59	66.64	1401.85	41.02
M3 Max 40 GPU	690.99	65.85	749.37	43.00	794.26	25.27

Apple 這條線這裡不展開全文搬運，後面重點看你指定的三類獨顯後端榜單。

ROCm / HIP 完整榜單

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11476.40 ± 72.79	232.92 ± 0.53	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3552.27 ± 101.96	167.11 ± 0.50	2f0c2db	@Diablo-D3
Instinct MI210	64 GB / HBM2e / 4096 bit	2486.22 ± 9.58	124.51 ± 0.04	8160b38	@65a
Pro W7900	48 GB / GDDR6 / 384 bit	3213.17 ± 80.47	121.18 ± 0.06	8160b38	@65a
RX 7900 XT	20 GB / GDDR6 / 320 bit	3098.38 ± 24.02	116.15 ± 0.06	1e15bfd	@AdamNiederer
RX 9070	16 GB / GDDR6 / 256 bit	2381.77 ± 3.68	114.48 ± 0.60	d0660f2	@andj1210
Instinct MI100	32 GB / HBM2 / 4096 bit	2732.83 ± 1.98	110.48 ± 0.14	9c35706	@firefox42
RX 9070 XT	16 GB / GDDR6 / 256 bit	5055.19 ± 109.58	101.27 ± 0.27	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2151.81 + 17.94	100.94 + 0.10	00131d6	@olegshulyakov
Instinct MI50	32 GB / HBM2 / 4096 bit	1057.24 ± 0.53	98.95 ± 0.25	97d5117	@wtarreau
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1456.98 ± 12.39	96.07 ± 0.10	6fa3b55	@MihaiBojescu
AI PRO R9700	32 GB / GDDR6 / 256 bit	4443.54 ± 339.25	93.84 ± 0.26	bd4ef13	@gogich77
Instinct MI60	32 GB / HBM2 / 4096 bit	1289.11 ± 0.62	91.46 ± 0.13	504af20	@Said-Akbar
RX 6900 XT	16 GB / GDDR6 / 256 bit	1889.84 ± 31.21	88.49 ± 0.00	a972fae	@notgood
Pro VII	16 GB / HBM2 / 4096 bit	1064.99 ± 1.18	87.45 ± 0.04	2739a71	@8XXD8
RX 6800 XT	16 GB / GDDR6 / 256 bit	1447.07 ± 1.36	83.92 ± 0.03	79c1160	@MrLavender
Pro V620	32 GB / GDDR6 / 256 bit	1803.65 ± 2.54	74.66 ± 0.01	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1419.67 ± 3.64	67.58 ± 0.24	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	354.17 ± 0.18	67.55 ± 0.04	c05e8c9	@daniandtheweb
Instinct MI25	16 GB / HBM2 / 2048 bit	409.83 ± 0.23	63.94 ± 0.06	2739a71	@8XXD8
AI Max+ 395	128 GB / LPDDR5	911.36 ± 1.79	50.01 ± 0.07	e60f241	@firefox42
RX 7600 XT	16 GB / GDDR6 / 128 bit	1099.64 ± 2.05	48.58 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	240.68 ± 0.09	48.46 ± 0.09	ec428b0	@davispuh
Radeon 8060S	System Shared / DDR5	351.36 ± 0.67	47.97 ± 0.33	1d0125b	@hspak
Radeon 880M	System Shared / DDR5	163.25 ± 13.86	12.97 ± 1.63	c55d53a	@Hedede

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11945.97 ± 54.29	218.53 ± 0.09	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3874.25 ± 11.92	170.12 ± 0.56	2f0c2db	@Diablo-D3
Pro W7900	48 GB / GDDR6 / 384 bit	3472.86 ± 52.86	127.43 ± 0.12	8160b38	@65a
Instinct MI210	64 GB / HBM2e / 4096 bit	2571.82 ± 2.89	130.18 ± 0.06	8160b38	@65a
RX 9070	16 GB / GDDR6 / 256 bit	2452.68 ± 1.33	115.32 ± 0.52	d0660f2	@andj1210
RX 7900 XT	20 GB / GDDR6 / 320 bit	3261.75 ± 9.09	112.30 ± 0.06	1e15bfd	@AdamNiederer
Instinct MI50	32 GB / HBM2 / 4096 bit	1129.43 ± 0.15	105.82 ± 0.07	97d5117	@wtarreau
Instinct MI100	32 GB / HBM2 / 4096 bit	2755.00 ± 3.68	104.71 ± 0.10	9c35706	@firefox42
AI PRO R9700	32 GB / GDDR6 / 256 bit	4773.07 ± 49.30	97.98 ± 0.13	bd4ef13	@gogich77
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1598.79 ± 11.48	97.53 ± 0.06	6fa3b55	@MihaiBojescu
RX 9070 XT	16 GB / GDDR6 / 256 bit	4903.51 ± 96.36	97.28 ± 0.13	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2304.63 + 2.85	95.99 + 0.21	00131d6	@olegshulyakov
RX 6900 XT	16 GB / GDDR6 / 256 bit	1948.31 ± 13.51	85.04 ± 0.02	a972fae	@notgood
Pro V620	32 GB / GDDR6 / 256 bit	1256.86 ± 0.55	70.83 ± 0.02	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1479.27 ± 0.71	65.42 ± 0.19	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	314.17 ± 0.29	62.02 ± 0.05	c05e8c9	@daniandtheweb
AI Max+ 395	128 GB / LPDDR5	1003.53 ± 2.91	49.87 ± 0.02	e60f241	@firefox42
Radeon 8060S	System Shared / DDR5	366.08 ± 1.44	48.97 ± 0.15	1d0125b	@hspak
RX 7600 XT	16 GB / GDDR6 / 128 bit	1199.16 ± 1.07	47.65 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	153.17 ± 0.72	42.46 ± 0.40	ec428b0	@davispuh
Radeon 880M	System Shared / DDR5	213.31 ± 14.05	16.16 ± 1.41	c55d53a	@Hedede

Vulkan 完整榜單

Llama 2 7B, Q4_0, no FA

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	10381.64 ± 508.84	263.63 ± 0.91	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3531.93 ± 31.74	191.28 ± 0.20	2f0c2db
Nvidia RTX 4090	9452.03 ± 187.70	187.97 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 5080	7444.99 ± 20.11	185.10 ± 0.54	f6b533d	coopmat2
Nvidia A100	6389.86 ± 4.83	160.78 ± 0.16	2257758	coopmat2
Nvidia RTX 3090	4298.97 ± 10.59	160.13 ± 0.25	4ae88d0	coopmat2
Nvidia RTX 4080 Super	7101.18 ± 269.79	147.13 ± 5.64	81086cd	coopmat2
Nvidia RTX 3080	4287.11 ± 55.50	139.15 ± 0.05	7c7d6ce	coopmat2
Nvidia RTX A5000	3641.55 ± 9.05	139.89 ± 0.69	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	5036.04 ± 88.16	137.11 ± 0.02	e9fd8dc
Nvidia RTX 5070 Ti	6213.63 ± 27.72	135.63 ± 0.18	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4036.04 ± 34.58	130.19 ± 0.39	3191462
Nvidia Tesla V100	1391.39 ± 1.19	129.58 ± 0.58	7d77f07
Nvidia RTX 4070 Ti Super	6099.18 ± 154.30	129.45 ± 0.18	4ae88d0	coopmat2
AMD Radeon RX 7900 XT	2941.58 ± 17.17	123.18 ± 0.40	71e74a3
AMD Radeon RX 9070	3164.10 ± 66.84	119.71 ± 3.40	21c17b5
AMD Radeon RX 7800 XT	2017.33 ± 19.30	118.27 ± 0.27	4fdbc1e
AMD Radeon RX 7900 GRE	2336.31 ± 7.52	116.11 ± 0.26	4b2a477
Apple M3 Ultra	1116.83 ± 0.55	115.54 ± 0.78	2d451c8	MoltenVK
Intel Arc Pro B70	3379.00 ± 47.92	112.02 ± 1.08	b863507
Nvidia Titan V	984.36 ± 4.13	108.86 ± 0.28	e56abd2
AMD Radeon Pro VII	1078.54 ± 0.86	107.82 ± 0.14	N/A
AMD Radeon RX 6900 XT	1837.21 ± 25.44	104.60 ± 0.30	a972fae
Intel Arc Pro A60	2261.11 ± 9.53	104.25 ± 0.07	97d5117
AMD Radeon RX 6800 XT	1752.92 ± 1.71	100.32 ± 0.97	N/A
AMD Radeon VII	1059.14 ± 0.56	101.19 ± 0.53	77d6ae4
Nvidia RTX 2080 Ti	1888.24 ± 9.20	97.58 ± 6.60	N/A
AMD Radeon RX 6800	1698.69 ± 0.80	95.61 ± 0.19	4b385bf
AMD Radeon Pro W6800X Duo	687.71 ± 4.33	94.82 ± 0.12	N/A
Nvidia RTX 5060 Ti	3460.92 ± 7.16	93.51 ± 0.15	89f10ba	coopmat2
Nvidia RTX 4070	3179.37 ± 46.16	92.29 ± 0.28	9a48399
AMD Radeon Pro W6800X	510.80 ± 0.13	86.47 ± 0.46	13b4548	MoltenVK
AMD Radeon RX 6700 XT	1051.20 ± 0.98	83.88 ± 0.08	6d75883
AMD Radeon RX 6750 XT	1040.58 ± 0.35	81.98 ± 0.03	228f34c
AMD Radeon Pro V620	1595.32 ± 1.59	81.78 ± 0.06	03d4698
Nvidia RTX 3070	2113.02 ± 7.38	78.71 ± 0.13	1b8fb81
AMD Radeon Instinct MI60	369.26 ± 2.48	78.16 ± 1.40	504af20
Nvidia RTX 3060	1815.70 ± 5.85	75.94 ± 0.80	92c0b38	coopmat2
Apple M4 Max	724.77 ± 20.93	75.02 ± 0.14	1ece0cb6
Nvidia Tesla T10	1692.70 ± 2.05	75.01 ± 0.21	7f76692	coopmat2
Nvidia RTX A4000	2248.14 ± 7.59	73.74 ± 0.08	f5245b5	coopmat2
AMD Radeon RX 5700 XT	529.69 ± 0.26	70.73 ± 0.04	4fdbc1e
AMD Radeon RX 9060 XT	2141.67 ± 6.87	70.54 ± 0.74	ed52f36
Intel Arc B580	620.94 ± 15.33	70.14 ± 0.28	7f76692
AMD Radeon Pro V540	583.88 ± 6.56	69.64 ± 0.24	9da3dcd
AMD Radeon Pro W5700	449.85 ± 0.46	68.55 ± 0.15	23bc779
Intel Arc Pro B60	522.36 ± 3.60	68.55 ± 0.01	516a4ca
Nvidia GTX 1080 Ti	540.69 ± 0.71	64.99 ± 0.08	360d653
Nvidia RTX 2070 Super	1199.13 ± 7.70	64.64 ± 0.20	b7552cf
Nvidia RTX 3070 Mobile	1689.40 ± 19.57	63.64 ± 0.39	ceff6bb	coopmat2
Nvidia Tesla P100	678.14 ± 1.40	63.16 ± 0.06	eec1e33
AMD BC-250	370.66 ± 0.04	62.32 ± 0.32	5886f4f
AMD Radeon RX 6650 XT	1029.52 ± 1.21	62.14 ± 0.02	dbb852b
Nvidia RTX 4060 Mobile	2135.66 ± 23.18	59.53 ± 0.03	a5c07dc	coopmat2
Nvidia Tesla P40	488.06 ± 0.27	59.36 ± 0.16	N/A
Nvidia GTX 1660 Ti Mobile	511.67 ± 2.85	56.60 ± 0.07	b43556e
AMD Radeon Instinct MI25	439.42 ± 0.34	54.69 ± 0.03	2739a71
AMD Radeon RX 6600 XT	574.65 ± 0.86	53.92 ± 0.11	091592d
AMD Ryzen AI Max+ 395	1288.96 ± 6.49	53.59 ± 0.38	7f76692
AMD Radeon RX 7600 XT	840.85 ± 3.02	53.02 ± 0.01	01d8eaa
Intel Arc A770	1073.85 + 29.68	52.56 + 0.11	a69d54f
Nvidia GB10	2737.79 ± 19.56	52.28 ± 0.03	b9da444	coopmat2
AMD FirePro S9300 x2	247.26 ± 0.43	51.86 ± 0.11	eec1e33	Split across two GPUs
AMD Radeon RX 6600	761.89 ± 1.76	50.63 ± 0.02	b1c70e2
AMD Radeon RX Vega 56	439.87 ± 0.61	50.23 ± 0.14	92c0b38
Intel Arc B570	913.95 ± 0.90	49.64 ± 0.03	7f76692
Nvidia RTX 3060 Mobile	1059.76 ± 3.54	49.03 ± 0.13	dbb3a47
AMD Radeon RX 6800M	861.99 ± 7.67	48.71 ± 0.71	8e6f8bc
AMD Radeon RX 6600M	605.59 ± 0.65	48.21 ± 0.07	fe5b78c
Intel Arc A770M	875.92 ± 2.16	47.69 ± 0.16	eeee367
Nvidia P104-100	311.90 ± 0.22	46.18 ± 0.05	eec1e33
AMD Radeon RX Vega 64	356.08 ± 0.09	45.73 ± 0.18	ec428b0
Nvidia RTX A2000	1245.19 ± 8.76	45.52 ± 0.54	b1afcab	coopmat2
AMD Radeon RX 7600M XT	459.39 ± 2.34	45.28 ± 0.10	b9ab0a4	eGPU
AMD Radeon Pro V340	375.41 ± 0.24	45.16 ± 0.06	9da3dcd	Split across two GPUs
Nvidia GTX 1070 Ti	297.50 ± 0.54	42.86 ± 1.20	860a9e4	eGPU
Intel Arc A750	1075.94 ± 13.89	42.66 ± 0.18	c1b1876
Nvidia RTX 4050 Mobile	1154.28 + 15.76	41.89 + 0.10	d79d8f3
Nvidia GTX 1070	321.57 ± 0.93	41.48 ± 0.09	eec1e33
Intel Arc Pro B50	193.50 ± 0.24	39.99 ± 0.10	7b43f55
Nvidia Tesla M40	92.48 ± 0.02	39.35 ± 1.22	b8372ee
AMD Radeon RX 580	258.03 ± 0.71	39.32 ± 0.03	de4c07f
AMD Radeon RX 470	218.07 ± 0.56	38.63 ± 0.21	e288693
AMD Radeon Pro W5500	315.39 ± 3.76	36.82 ± 0.38	860a9e4
AMD Radeon RX 480	248.66 ± 0.28	34.71 ± 0.14	3b15924
Apple M2 Ultra	205.98 ± 0.02	34.34 ± 0.12	dbb852b	Asahi Linux
Nvidia GTX 980	186.24 ± 0.09	33.90 ± 0.51	860a9e4
Nvidia P106-100	183.78 ± 0.26	29.77 ± 0.04	23bc779
AMD FirePro W8100	155.22 ± 0.17	29.52 ± 0.05	4536363
Nvidia Tesla P4	265.54 ± 0.21	28.03 ± 0.14	24d2ee0
AMD Radeon RX 6500 XT	255.25 ± 0.35	27.81 ± 0.10	g9fdfcd
Apple M3	263.70 ± 0.02	26.39 ± 0.14	b9ab0a4	MoltenVK
AMD FirePro S10000	94.78 ± 0.02	25.32 ± 0.02	914a82d	Split across two GPUs
Nvidia Quadro P2000	169.55 ± 0.17	23.05 ± 0.03	63f8fe0
Intel Core Ultra 200 Series	544.95 ± 4.15	22.49 ± 0.09	cea560f
AMD Ryzen AI 9 300 Series	479.07 ± 0.41	22.41 ± 0.18	N/A
AMD Ryzen 6000 Series	240.89 ± 0.52	21.26 ± 0.08	ee09828
Apple M2 Pro	62.70 ± 0.03	20.95 ± 0.11	1fe0029	Asahi Linux
Nvidia GTX 1050 Ti	136.42 ± 0.67	20.96 ± 0.21	2f0c2db
AMD Ryzen 8000 Series	266.19 ± 1.36	20.53 ± 0.08	a5c07dc
AMD Ryzen 7000 Series	281.62 ± 1.56	19.91 ± 0.07	ebce03e
AMD Ryzen Z1 Extreme	199.36 ± 7.02	18.77 ± 0.02	53ff6b9
AMD FirePro D700	69.95 ± 0.04	16.62 ± 0.01	d3bd719	MoltenVK, running in FP16 mode on FP32 only chip
AMD Radeon Pro WX 4100	78.79 ± 0.10	16.05 ± 0.07	860a9e4
Apple M2	50.79 ± 0.16	13.50 ± 0.02	8c0d6bb	Asahi Linux
Apple M1	38.29 ± 0.00	12.47 ± 0.03	2370665	Asahi Linux
AMD Ryzen 5000 Series	90.55 ± 0.08	10.98 ± 0.07	d84635b
Intel Core 1100 Series	187.20 ± 1.78	10.39 ± 0.04	abb9f3c
AMD Radeon RX 550	52.66 ± 0.49	10.20 ± 0.01	N/A
AMD Ryzen 4000 Series	103.87 ± 0.02	9.63 ± 0.01	4b385bf
Nvidia Tesla K80	89.46 ± 0.10	9.39 ± 0.06	5d46bab	Running on single GPU
Nvidia Tesla K40	64.37 ± 0.09	9.30 ± 0.19	eec1e33
MediaTek Dimensity 9400	38.36 ± 15.15	8.92 ± 0.06	b9ab0a4	GPU supports coopmat but pp512 is faster with it turned off
Intel Core Ultra 100 Series	185.51 ± 0.22	8.21 ± 0.07	1d72c84
AMD Ryzen 3000 Series	48.63 ± 0.10	8.49 ± 0.01	1fe0029
CIX CD8180	2.80 ± 0.01	5.51 ± 0.00	4dca015
Intel Core 1000 Series	25.58 ± 0.00	4.25 ± 0.18	N/A
Intel Core 8000 Series	25.43 ± 0.17	3.35 ± 0.03	c4df49a
Intel N150	28.84 ± 0.02	2.93 ± 0.00	4f63cd7

Llama 2 7B, Q4_0, FA enabled

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	11796.38 ± 601.36	273.68 ± 0.52	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3332.90 ± 11.47	195.30 ± 0.23	2f0c2db
Nvidia RTX 5080	8054.59 ± 35.68	192.17 ± 0.21	f6b533d	coopmat2
Nvidia RTX 4090	10830.41 ± 36.25	190.10 ± 0.31	4ae88d0	coopmat2
Nvidia A100	7064.40 ± 1.63	170.56 ± 0.02	2257758	coopmat2
Nvidia RTX 3090	4732.33 ± 4.80	162.28 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 4080 Super	8007.37 ± 46.03	150.20 ± 0.26	81086cd	coopmat2
Nvidia RTX 3080	4913.83 ± 21.52	145.74 ± 0.16	7c7d6ce	coopmat2
Nvidia Tesla V100	1411.25 ± 2.12	142.13 ± 0.03	7d77f07
Nvidia RTX A5000	4071.22 ± 13.13	140.43 ± 0.22	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	4911.74 ± 28.52	138.20 ± 0.18	e9fd8dc
Nvidia RTX 5070 Ti	6764.53 ± 11.95	135.65 ± 0.02	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4333.83 ± 29.36	130.90 ± 0.12	3191462
AMD Radeon RX 7900 XT	3043.93 ± 10.42	124.20 ± 0.09	71e74a3
AMD Radeon RX 7800 XT	2094.64 ± 14.38	119.63 ± 0.13	4fdbc1e
AMD Radeon RX 9070	3277.24 ± 18.17	119.55 ± 0.06	21c17b5
AMD Radeon RX 7900 GRE	2402.07 ± 22.50	116.77 ± 0.08	4b2a477
Apple M3 Ultra	1115.55 ± 0.75	115.99 ± 0.12	2d451c8	MoltenVK
Intel Arc Pro B70	3314.53 ± 17.95	111.63 ± 0.05	b863507
Nvidia Titan V	792.74 ± 4.30	109.21 ± 0.72	e56abd2
AMD Radeon Pro VII	783.94 ± 0.77	108.45 ± 0.48	N/A
AMD Radeon RX 6900 XT	1761.93 ± 4.75	106.15 ± 0.04	a972fae
Nvidia RTX 2080 Ti	1936.25 ± 32.08	100.99 ± 0.24	N/A
AMD Radeon RX 6800 XT	1704.79 ± 0.71	100.50 ± 0.06	N/A
AMD Radeon Pro W6800X Duo	795.28 ± 0.72	100.08 ± 0.02	N/A
Nvidia RTX 5060 Ti	3912.65 ± 5.86	97.01 ± 0.14	89f10ba	coopmat2
AMD Radeon RX 6800	1749.46 ± 3.36	96.65 ± 0.48	4b385bf
Nvidia RTX 4070	4293.57 ± 27.70	91.49 ± 0.89	9a48399	coopmat2
AMD Radeon RX 6750 XT	997.05 ± 0.45	82.29 ± 0.06	228f34c
AMD Radeon RX 6700 XT	1010.90 ± 12.89	81.86 ± 0.19	6d75883
Nvidia RTX 3060	2012.88 ± 10.12	80.59 ± 0.02	92c0b38	coopmat2
AMD Radeon Pro V620	1556.31 ± 2.82	79.24 ± 0.09	03d4698
Nvidia RTX A4000	2482.74 ± 26.05	76.07 ± 0.08	f5245b5	coopmat2
Nvidia Tesla T10	1840.14 ± 1.22	76.05 ± 0.13	7f76692	coopmat2
AMD Radeon RX 5700 XT	538.31 ± 0.35	74.43 ± 0.03	4fdbc1e
Intel Arc B580	419.49 ± 3.37	72.00 ± 0.24	7f76692
Apple M4 Max	557.46 ± 26.87	71.79 ± 4.16	1ece0cb6
AMD Radeon Pro W5700	446.98 ± 0.39	71.30 ± 0.24	23bc779
Intel Arc Pro B60	274.76 ± 0.27	70.54 ± 0.03	516a4ca
AMD Radeon RX 9060 XT	1915.41 ± 7.90	70.52 ± 0.16	ed52f36
Nvidia Tesla P100	685.51 ± 0.88	66.48 ± 0.02	eec1e33
AMD Radeon RX 6650 XT	1088.90 ± 0.40	64.53 ± 0.75	dbb852b
Nvidia GTX 1080 Ti	529.96 ± 0.38	64.63 ± 0.10	360d653
AMD BC-250	356.87 ± 1.24	63.14 ± 0.09	5886f4f
Nvidia RTX 3070 Mobile	1832.07 ± 57.14	62.92 ± 0.37	ceff6bb	coopmat2
Nvidia RTX 4060 Mobile	2358.03 ± 12.17	60.01 ± 0.08	a5c07dc	coopmat2
Nvidia Tesla P40	484.37 ± 0.27	59.22 ± 0.15	N/A
Nvidia GTX 1660 Ti Mobile	514.34 ± 0.88	57.30 ± 0.42	b43556e
AMD Radeon RX 7600 XT	1024.38 ± 7.56	56.11 ± 0.02	01d8eaa
AMD FirePro S9300 x2	243.33 ± 0.22	55.64 ± 0.06	eec1e33	Split across two GPUs
Nvidia GB10	3279.89 ± 26.78	53.64 ± 0.05	b9da444	coopmat2
AMD Radeon RX 6600	808.76 ± 0.15	53.24 ± 0.03	b1c70e2
Intel Arc A770	1119.68 + 30.25	53.07 + 0.09	a69d54f
AMD Ryzen AI Max+ 395	1357.07 ± 10.94	53.00 ± 0.13	7f76692
AMD Radeon RX Vega 56	428.54 ± 0.50	52.66 ± 0.03	92c0b38
Intel Arc B570	288.51 ± 0.09	50.49 ± 0.05	7f76692
Nvidia P104-100	325.30 ± 0.25	48.64 ± 0.04	eec1e33
AMD Radeon Pro V340	360.23 ± 0.74	47.54 ± 0.06	9da3dcd	Split across two GPUs
AMD Radeon RX 6800M	784.16 ± 2.76	49.06 ± 0.34	8e6f8bc
AMD Radeon RX Vega 64	320.12 ± 0.22	47.06 ± 0.01	ec428b0
Nvidia RTX A2000	1361.85 ± 3.26	45.69 ± 0.20	b1afcab	coopmat2
Intel Arc A770M	384.74 ± 0.78	45.68 ± 0.06	eeee367
Intel Arc A750	303.37 ± 1.44	43.96 ± 0.03	c1b1876
Nvidia GTX 1070 Ti	292.85 ± 0.23	43.42 ± 0.34	860a9e4	eGPU
Nvidia GTX 1070	330.84 ± 1.02	43.33 ± 0.06	360d653
Nvidia Tesla M40	93.35 ± 0.01	41.68 ± 0.01	b8372ee
Intel Arc Pro B50	132.48 ± 0.04	41.02 ± 0.04	7b43f55
AMD Radeon RX 470	197.26 ± 0.27	37.28 ± 0.11	3769fe6
AMD Radeon RX 480	194.52 ± 0.61	37.23 ± 0.09	0bcb40b
Apple M2 Ultra	198.83 ± 0.85	198.83 ± 0.85	dbb852b	Asahi Linux
Nvidia GTX 980	180.97 ± 0.74	34.16 ± 0.10	860a9e4
Nvidia P106-100	183.40 ± 0.34	30.79 ± 0.32	23bc779
AMD FirePro W8100	140.52 ± 0.34	29.28 ± 0.14	4536363
Nvidia Tesla P4	287.14 ± 0.29	28.37 ± 0.24	24d2ee0
Nvidia Quadro P2000	181.71 ± 0.12	23.77 ± 0.02	63f8fe0
Intel Core Ultra 200 Series	536.48 ± 1.27	23.05 ± 0.04	cea560f
AMD Ryzen AI 9 300 Series	532.59 ± 3.55	22.31 ± 0.06	N/A
AMD Ryzen 6000 Series	277.91 ± 0.37	21.15 ± 0.09	ee09828
Apple M2 Pro	58.86 ± 0.02	20.97 ± 0.03	1fe0029	Asahi Linux
AMD Ryzen 8000 Series	297.39 ± 1.22	20.59 ± 0.38	a5c07dc
AMD Ryzen 7000 Series	312.85 ± 2.51	20.09 ± 0.35	835b2b9
Nvidia GTX 1050 Ti	127.54 ± 1.03	20.08 ± 0.17	2f0c2db
AMD Radeon Pro WX 4100	75.59 ± 0.19	16.56 ± 0.04	860a9e4
Apple M1	35.93 ± 0.00	12.85 ± 0.02	2370665	Asahi Linux
Apple M2	46.81 ± 0.08	12.25 ± 2.30	8c0d6bb	Asahi Linux
AMD Ryzen 5000 Series	79.06 ± 0.01	10.75 ± 0.00	5d195f1
Intel Core 1100 Series	174.77 ± 4.47	10.58 ± 0.03	abb9f3c
Nvidia Tesla K40	64.37 ± 0.02	9.92 ± 0.06	eec1e33
AMD Ryzen 4000 Series	113.32 ± 0.01	9.87 ± 0.01	4b385bf
Nvidia Tesla K80	88.26 ± 0.19	9.49 ± 0.01	5d46bab	Running on single GPU
AMD Ryzen 5 3000 Series	47.41 ± 0.14	8.47 ± 0.01	1fe0029
Intel Core Ultra 100 Series	77.66 ± 2.75	7.75 ± 0.05	2e89f76
Intel Core 8000 Series	25.55 ± 0.04	3.35 ± 0.02	c4df49a
Intel N150	25.59 ± 0.00	2.91 ± 0.00	4f63cd7

這些表格該怎麼用

如果你只是想買卡，或者看手裡機器大概在哪個檔位，最實用的讀法其實是這三步：

先看你關心的是 tg128 還是 pp512。
日常對話、寫程式、聊天體感，優先看 tg128；長上下文吞吐、批次處理、服務端壓 prompt，則更應該看 pp512。
再看你實際跑的後端。
Nvidia 通常看 CUDA 更貼近真實上限；AMD 機器更應該先對照 ROCm 和 Vulkan；跨平台相容場景則更適合參考 Vulkan。
最後再看 FA。
很多卡開啟 FA 後 pp512 會漲得更明顯，但 tg128 不一定同步大漲，所以不能只看單個最高分。

一句話總結

同樣是 llama.cpp 跑分，pp512、tg128、Q4_0、FA、CUDA / ROCm / Vulkan 分別代表完全不同的維度。先把口徑分清，再看數字，榜單才有意義。

如果你只想記一個最短結論，那就是：

CUDA 目前整體最強
ROCm 在高階 AMD 卡上已經很能打
Vulkan 覆蓋最廣，老卡、核顯、Intel Arc、Apple Asahi 都能找到可比條目
tg128 比 pp512 更接近日常真實體感

原始來源

CUDA discussion #15013: https://github.com/ggml-org/llama.cpp/discussions/15013
Apple Silicon discussion #4167: https://github.com/ggml-org/llama.cpp/discussions/4167
ROCm discussion #15021: https://github.com/ggml-org/llama.cpp/discussions/15021
Vulkan discussion #10879: https://github.com/ggml-org/llama.cpp/discussions/10879

顯卡推理速度測試的常用指標具體含義：FA、pp512、tg128、Q4_0 都是什麼意思

Thu, 23 Apr 2026 00:15:00 +0800

只要你開始看本地大模型或顯卡推理速度測試，很快就會遇到一堆縮寫：FA、pp512、tg128、Q4_0。它們看起來都像是效能指標，但如果沒有上下文，確實很容易看得一頭霧水。

例如你可能會看到這樣一行：

`1`	`CUDA Scoreboard for Llama 2 7B, Q4_0 (no FA)`

再往下看，又會看到像這樣的欄位：

1
2

pp512 t/s
tg128 t/s

如果不把這些詞拆開理解，你很難真正看懂這類速度測試到底在測什麼，也很難知道兩張不同顯示卡的成績到底該怎麼比。

這篇文章不打算討論「哪張卡更值得買」，而是專門把顯卡推理速度測試裡最常見的幾個指標拆開講清楚。

先看整行標題到底在說什麼

像 CUDA Scoreboard for Llama 2 7B, Q4_0 (no FA) 這樣一行，其實已經把測試背景交代得差不多了。

它至少包含四層資訊：

CUDA：說明跑分是在 NVIDIA GPU 的 CUDA 路徑上完成的
Llama 2 7B：說明測試對象是 Llama 2 的 7B 參數版本
Q4_0：說明模型用了 4-bit 量化格式
no FA：說明這次測試關閉了 Flash Attention

也就是說，這種標題的完整意思通常是：

「在 NVIDIA 顯示卡上，執行某個量化版本的大模型，並測量它在特定推理路徑下的速度表現。」

FA 是什麼：Flash Attention

這裡的 FA，指的是 Flash Attention。

它是大模型推理和訓練中非常關鍵的一類加速技術，主要目標是優化注意力機制的計算方式。因為在 Transformer 模型裡，注意力計算本來就是最耗時、最吃顯存頻寬的部分之一。

傳統注意力實作的一個問題是：

需要頻繁讀寫顯存
中間結果很多
資料會在顯存和片上快取之間來回搬運
上下文一長，開銷會非常明顯

Flash Attention 做的事情，可以簡單理解成：

重新組織計算順序
減少中間結果落到顯存的次數
讓更多操作留在更快的快取裡完成

所以它的典型效果通常有三點：

更快
更省顯存
在數學上和普通注意力等價，不是「犧牲精度換速度」

這也是為什麼今天很多推理框架、訓練框架都把它當成非常重要的優化項。

no FA 是什麼意思

既然 FA 是 Flash Attention，那麼 no FA 就很好理解了：這次測試沒有啟用 Flash Attention。

也就是說，跑分用的是更傳統的注意力實作。

之所以很多跑分表會特地把 no FA 標出來，通常是為了下面幾件事：

做對照組，方便看出開啟 FA 後到底提升了多少
相容某些不支援 FA 的硬體或軟體環境
避免不同測試項混在一起，導致資料不可比

所以你看到 no FA 時，不要把它理解成「這張卡不行」，更準確的理解是：

「這個成績是在沒有開啟 Flash Attention 優化的前提下測出來的。」

Q4_0 是什麼：量化格式

Q4_0 指的是一種 4-bit 量化格式。

大模型原始權重通常不是這種低精度格式，直接載入時體積會非常大。量化做的事情，本質上就是把原本更高精度的權重壓縮成更低位寬的表示方式，讓模型更容易在消費級顯示卡上運行。

你可以先把它粗略理解成：

Q：Quantization，量化
4：4-bit
_0：某一種具體量化方案的標識

它的重要意義在於：

減少模型體積
降低顯存需求
讓本來裝不下的模型變得能跑起來

所以 Llama 2 7B, Q4_0 的意思，不是「一個普通的 7B 模型」，而是「一個已經經過 4-bit 量化壓縮的 7B 模型」。

pp512 t/s 是什麼意思

pp512 一般指的是：

Prompt Processing 512 tokens

它衡量的是模型處理輸入提示詞時的速度，單位通常是 t/s，也就是 tokens per second。

這裡的 512，表示測試時輸入的提示詞長度是 512 token。

這個指標測的不是「吐字速度」，而是模型在開始回答之前，對輸入內容做編碼和計算的速度。你可以把它理解成模型在「先把你說的話讀完」的階段有多快。

這個階段通常有一個很重要的特點：並行度比較高。

因為輸入序列可以成批處理，所以 GPU 在這個階段往往能把算力壓得很滿。也正因如此，pp512 的數值經常會非常高，看起來甚至高得有點誇張。

所以如果你看到：

`1`	`pp512 ≈ 14000 t/s`

不要驚訝，這測的是「輸入處理吞吐量」，不是模型一邊一邊吐字的速度。

tg128 t/s 是什麼意思

tg128 一般指的是：

Text Generation 128 tokens

它測的是模型連續生成 128 token 時的平均生成速度，單位同樣是 t/s。

這個指標更接近我們平時對「模型回答快不快」的直覺感受，因為它真的在測輸出階段。

但它和 pp512 最大的不同在於：文本生成通常是自回歸的。

簡單說就是：

要先算出第一個 token
才能繼續算第二個 token
再繼續算第三個 token

所以這個階段沒法像輸入處理那樣大規模並行，速度天然會慢很多。

這也是為什麼你經常會看到：

pp512 是上萬 t/s
tg128 卻只有幾百 t/s

這不是跑分出錯，而是它們本來就在測兩種完全不同的工作負載。

為什麼 pp512 和 tg128 會差這麼多

這是很多人第一次看 scoreboard 時最困惑的一點。

原因可以概括成一句話：

pp512 更像在測並行吞吐，tg128 更像在測逐 token 生成能力。`

再展開一點說：

輸入階段更容易並行
輸出階段更依賴逐步遞推
生成階段通常更吃顯存頻寬和快取效率
所以生成速度遠低於輸入處理速度是正常現象

也正因為這樣，很多時候兩張卡的表現會出現一種很有意思的情況：

在 pp512 上，一張卡更強
在 tg128 上，另一張卡反而略快

這並不矛盾。因為一個更偏算力峰值，一個更偏實際生成路徑下的頻寬和延遲表現。

t/s 到底怎麼理解

這裡的 t/s，就是 tokens per second。

它表示模型每秒能處理或生成多少個 token。

但需要注意，token 不是「字」，也不是「單詞」，它是模型分詞器切出來的單位。不同模型、不同語言環境下，一個 token 對應的文本長度可能差別很大。

所以在實際閱讀跑分時，t/s 更適合用來做：

同模型下不同顯示卡對比
同環境下不同參數設定對比
同一框架裡開啟或關閉某個優化項前後的對比

而不太適合直接拿來跨模型、跨框架、跨分詞器硬比「誰絕對更快」。

看 scoreboard 時，最該先抓住哪幾個點

如果你不想每次都被一堆縮寫淹沒，可以先抓這幾個核心問題：

1. 測試模型是什麼

比如是不是 Llama 2 7B，是不是同一個量化版本，例如 Q4_0。模型不同、量化不同，成績直接橫比意義不大。

2. 有沒有開啟關鍵優化

最常見的就是 FA。如果一個測試開了 Flash Attention，另一個沒開，那兩邊成績不能簡單直接對讀。

3. 看的是輸入速度還是輸出速度

pp512 和 tg128 分別在測不同階段。一個更像「讀題速度」，一個更像「回答速度」。

4. 關注的是吞吐還是體感

如果你更在意長提示詞載入速度，pp512 更有參考價值；如果你更在意模型回答時的流暢程度，tg128 往往更貼近真實體感。

一個更實用的理解方式

如果要把這些指標壓縮成一句最容易記住的話，可以這樣理解：

Q4_0：模型被壓縮成了 4-bit 量化版本
FA：是不是啟用了 Flash Attention 加速
pp512：處理 512 token 輸入時有多快
tg128：生成 128 token 輸出時有多快
t/s：速度單位，每秒多少 token

只要先把這五件事分清楚，再看類似的 CUDA Scoreboard 時，就更容易判斷「這個分數到底是在測什麼」。

結語

很多 GPU 跑分表看起來複雜，不是因為指標本身特別神祕，而是因為它把模型、量化、優化項和不同階段的吞吐都壓縮進了很短的幾行縮寫裡。

一旦把 FA、Q4_0、pp512、tg128 這些詞拆開，你會發現這類 scoreboard 其實並不難讀。

真正重要的，不是只記住某張卡跑了多少分，而是知道：

這個分數是在什麼模型下測的
有沒有開關鍵優化
它測的是輸入，還是輸出
它更反映算力，還是更接近實際生成體驗

這樣你以後再看類似跑分表時，就更容易判斷這些結果分別對應什麼測試條件和性能含義。

Ollama 多顯卡使用筆記：顯存疊加、GPU 選擇和常見誤區

Sun, 19 Apr 2026 00:18:00 +0800

折騰 Ollama 本地推理時，經常會遇到類似問題：我現在有一張顯卡，主機板還有空 PCIe 槽，再加幾張 GPU 對 Ollama 有幫助嗎？多顯卡是否必須同型號？顯存能不能疊加？會不會像訓練框架那樣多卡並行加速？

這篇整理一下 Ollama 多顯卡的實際行為。重點先說結論：

Ollama 支援多 GPU。
多 GPU 最大價值通常是讓更大的模型放進總顯存，而不是線性提升 token/s。
預設策略下，如果模型能完整放進某一張 GPU，Ollama 傾向於放在單卡上。
如果模型無法完整放進單張 GPU，Ollama 會把模型分布到可用 GPU 上。
不同型號 GPU 可以被 Ollama 看到並使用，但效能和分配效果不一定理想。
不需要 SLI / NVLink 才能用多卡。
想限制 Ollama 使用哪些 GPU，需要用 CUDA_VISIBLE_DEVICES、ROCR_VISIBLE_DEVICES 或 GGML_VK_VISIBLE_DEVICES。

官方行為：先單卡，放不下再多卡

Ollama FAQ 裡對多 GPU 載入邏輯說得比較直接：載入新模型時，Ollama 會估算模型所需 VRAM，並和目前可用顯存比較。如果模型能完整放進某一張 GPU，它會載入到那張 GPU 上；如果單張 GPU 放不下，才會分布到所有可用 GPU 上。

這個策略的原因是效能。單卡載入通常能減少推理時跨 PCIe 匯流排的資料傳輸，因此往往更快。

所以不要把 Ollama 的多 GPU 理解成「有幾張卡就自動幾倍加速」。更準確的理解是：

小模型能進單卡：通常單卡跑。
大模型單卡放不下：跨多卡分層載入。
顯存仍不夠：一部分會落到系統記憶體，速度會明顯下降。

可以用下面命令確認模型到底載入到了哪裡：

`1`	`ollama ps`

輸出裡的 PROCESSOR 會顯示類似：

1
2
3

100% GPU
48%/52% CPU/GPU
100% CPU

如果看到 48%/52% CPU/GPU，說明已經有一部分在系統記憶體裡了。此時多加 GPU 或換更大顯存的卡，通常比繼續依賴 CPU/RAM 更有意義。

多 GPU 不是簡單疊算力

本地大模型推理和遊戲裡的 SLI 不是一回事。Ollama 多卡時，更常見的是把模型的不同層或張量放到不同裝置上。這樣可以用多張卡的顯存裝下更大的模型，但推理過程中仍然可能需要裝置之間傳遞資料。

因此，多 GPU 帶來的收益通常分兩種：

顯存收益：更容易裝下大模型，或者避免落到 CPU/RAM。
效能收益：只有在原本單卡裝不下或嚴重混 CPU 時，提升才會很明顯。

如果一個 8B 或 14B 模型本來就能完整放進單張 3090，強行拆到兩張卡不一定更快，甚至可能因為跨卡傳輸變慢。Ollama 官方預設「能單卡就單卡」的策略，就是為了避免這類不必要的跨 PCIe 開銷。

不需要 SLI 或 NVLink

Ollama 多 GPU 不依賴 SLI。多張普通 PCIe GPU 只要驅動和 Ollama 能識別，就可以被調度。

NVLink 或更高 PCIe 頻寬可能對某些跨卡場景有幫助，但它不是 Ollama 多 GPU 的前提條件。很多二手 GPU 伺服器或工作站，靠普通 PCIe 多卡也能跑。

真正要注意的是 PCIe 頻寬。x1、x4、x8、x16 的差異會影響模型載入到顯存的速度；如果頻繁切換大模型，PCIe 鏈路會更容易成為瓶頸。模型載入完成後，生成階段受 PCIe 的影響通常會小一些，但跨卡分層仍然可能帶來額外開銷。

比較穩的建議是：

能用 x16 / x8 就不要用礦卡 x1 轉接。
大模型頻繁切換時，PCIe 頻寬更重要。
如果模型長期常駐顯存，PCIe 頻寬瓶頸會相對不明顯。
多卡機器要重點看主機板 PCIe 拓撲和 CPU 直連通道。

如何限制 Ollama 使用哪些 NVIDIA GPU

NVIDIA 多卡環境下，用 CUDA_VISIBLE_DEVICES 控制 Ollama 能看到哪些卡。

臨時執行：

`1`	`CUDA_VISIBLE_DEVICES=0,1 ollama serve`

只讓 Ollama 用第二張卡：

`1`	`CUDA_VISIBLE_DEVICES=1 ollama serve`

強制不用 NVIDIA GPU，可以給一個無效 ID：

`1`	`CUDA_VISIBLE_DEVICES=-1 ollama serve`

官方文件提醒，數字 ID 的順序可能變化，更可靠的是用 GPU UUID。先查看 UUID：

`1`	`nvidia-smi -L`

輸出類似：

1
2

GPU 0: NVIDIA GeForce RTX 3090 (UUID: GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx)
GPU 1: NVIDIA GeForce RTX 3070 (UUID: GPU-yyyyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy)

然後指定 UUID：

`1`	`CUDA_VISIBLE_DEVICES=GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx ollama serve`

如果 Ollama 是 Linux systemd 服務安裝的，需要寫到服務環境變數裡：

`1`	`sudo systemctl edit ollama.service`

加入：

1
2

[Service]
Environment="CUDA_VISIBLE_DEVICES=0,1"

然後重載並重啟：

1
2

sudo systemctl daemon-reload
sudo systemctl restart ollama

AMD 和 Vulkan 的選擇變數

AMD ROCm 環境下，用 ROCR_VISIBLE_DEVICES 控制可見 GPU：

`1`	`ROCR_VISIBLE_DEVICES=0,1 ollama serve`

如果要強制不用 ROCm GPU，也可以用無效 ID：

`1`	`ROCR_VISIBLE_DEVICES=-1 ollama serve`

Ollama 官方 GPU 文件還提到，如果用實驗性的 Vulkan 支援，可以透過 GGML_VK_VISIBLE_DEVICES 選擇 Vulkan GPU：

`1`	`OLLAMA_VULKAN=1 GGML_VK_VISIBLE_DEVICES=0 ollama serve`

如果 Vulkan 裝置有問題，可以停用：

`1`	`GGML_VK_VISIBLE_DEVICES=-1 ollama serve`

AMD 多卡比 NVIDIA 更容易遇到驅動、ROCm 版本、GFX 版本支援的問題。官方文件中也提到 Linux 下 ROCm 驅動版本、HSA_OVERRIDE_GFX_VERSION 等相容性處理。多張不同代 AMD 卡混用時，先確認每張卡是否單獨可用，再考慮多卡。

Docker 裡怎麼暴露多張 GPU

如果用 Docker 跑 Ollama，NVIDIA 環境通常需要先安裝 nvidia-container-toolkit，然後用 --gpus 暴露裝置。

暴露全部 GPU：

docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

只暴露指定 GPU：

docker run -d \
  --gpus '"device=0,1"' \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

也可以結合環境變數：

docker run -d \
  --gpus=all \
  -e CUDA_VISIBLE_DEVICES=0,1 \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

如果容器裡 nvidia-smi 看不到卡，Ollama 也不可能用到 GPU。先排查 Docker GPU passthrough，再排查 Ollama。

`OLLAMA_SCHED_SPREAD` 是什麼

在一些多 GPU 配置討論裡，會看到 OLLAMA_SCHED_SPREAD=1 或 OLLAMA_SCHED_SPREAD=true。它和 Ollama 的調度策略有關，常被用於希望模型或請求更分散地利用多張 GPU 的場景。

可以這樣設定：

`1`	`OLLAMA_SCHED_SPREAD=1 ollama serve`

或者 systemd：

1
2

[Service]
Environment="OLLAMA_SCHED_SPREAD=true"

不過它不是萬能開關。開啟後並不等於 token/s 線性增長，也可能因為多個模型同時載入、顯存估算、上下文長度和 KV cache 增長導致 OOM。官方 FAQ 的核心策略仍然是：如果單 GPU 能完整容納模型，單 GPU 通常更高效；單 GPU 放不下時才跨多 GPU。

所以建議把 OLLAMA_SCHED_SPREAD 當成進階調度實驗項，而不是多卡必開項。先理解預設行為，再根據實際 ollama ps、日誌和 nvidia-smi 觀察結果調整。

怎麼觀察多卡是否真的用上

常用觀察命令：

`1`	`ollama ps`

`1`	`watch -n 0.5 nvidia-smi`

查看 Ollama 服務日誌：

`1`	`journalctl -u ollama -f`

如果使用 Docker：

`1`	`docker logs -f ollama`

你需要關注：

Ollama 是否發現相容 GPU。
模型是否顯示 100% GPU 或 CPU/GPU 混合。
每張卡顯存是否有占用。
載入模型時是否多卡顯存同時增長。
生成時 token/s 是否比 CPU/RAM 混跑明顯改善。
是否頻繁 OOM 或卸載模型。

如果只看 GPU 利用率，很容易誤判。LLM 推理時 GPU 利用率不一定長期滿載，尤其是多卡、低 batch、小上下文、慢 CPU 或慢 PCIe 環境下。

常見誤區

誤區 1：兩張 12GB 顯卡等於一張 24GB 顯卡

不完全等價。多卡可以讓模型跨裝置放置，但跨卡存取有額外開銷。它能解決「放不下」的問題，不一定等價於單張大顯存卡的速度和穩定性。

誤區 2：不同型號顯卡不能混用

不一定。只要驅動、計算能力和執行庫都支援，Ollama 可以看到多張 GPU。但混用時，速度通常受較慢卡、較小顯存和 PCIe 拓撲影響。最穩的多卡配置仍然是同型號、同顯存、同代驅動支援良好的卡。

誤區 3：多卡一定比單卡快

不一定。如果模型能完整放進單張快卡，單卡可能更快。多卡主要適合大模型、長上下文、單卡顯存不夠的情況。

誤區 4：必須有 NVLink / SLI

不需要。普通 PCIe 多卡也能被 Ollama 使用。NVLink 不是前提。

誤區 5：加 GPU 後不用重啟服務

不一定。Linux systemd 服務、Windows 背景應用、Docker 容器都可能需要重啟，才能重新識別裝置和環境變數。

選卡建議

如果目標是 Ollama 本地推理，優先級大致是：

單卡顯存越大越省心。
同型號多卡比混合多卡更容易排錯。
PCIe 通道越完整，載入大模型越舒服。
老卡要先確認 CUDA compute capability 或 ROCm 支援。
多卡電源、散熱和機箱風道要提前算清楚。

對於預算有限的二手平台：

雙 3090 仍然是很常見的大顯存方案。
P40 / M40 這類老 Tesla 顯存大，但功耗、散熱、驅動和效能都要權衡。
4070 / 4070 Ti 這類新卡能效好，但單卡顯存容量限制更明顯。
多張 8GB 老卡能折騰，但不建議為了大模型長期使用。

小結

Ollama 多顯卡支援可以理解成「顯存擴展優先，效能加速其次」。如果模型能完整放進一張 GPU，預設單卡通常更快；如果單卡放不下，多卡可以把模型分布到多張 GPU 上，避免大量落到 CPU/RAM，從而讓大模型變得可用。

實際配置時，先用 ollama ps 看模型載入位置，再用 nvidia-smi 或 ROCm 工具觀察顯存占用。需要限制 GPU 時，NVIDIA 用 CUDA_VISIBLE_DEVICES，AMD ROCm 用 ROCR_VISIBLE_DEVICES，Vulkan 用 GGML_VK_VISIBLE_DEVICES。如果在 Docker 中執行，先確保容器層面能看到 GPU。

多卡不是魔法。它能幫你裝下更大的模型，但不保證線性加速。真正穩定好用的路線，仍然是盡量選大顯存單卡或同型號多卡，並把驅動、PCIe、電源、散熱和模型量化一起考慮。

參考連結

Ollama FAQ：How does Ollama load models on multiple GPUs?：https://github.com/ollama/ollama/blob/main/docs/faq.mdx
Ollama GPU 文件：Hardware support / GPU Selection：https://github.com/ollama/ollama/blob/main/docs/gpu.mdx
Ollama Docker Hub：https://hub.docker.com/r/ollama/ollama
NVIDIA Container Toolkit：https://github.com/NVIDIA/nvidia-container-toolkit

CUDA on KnightLi的博客

Ubuntu 26.04 LTS 的 GPU 與硬體支援更新：CUDA、ROCm、DPC++ 和更多平台變化

1. Intel DPC++ 與相關元件進入 Ubuntu Archive

2. NVIDIA CUDA toolkit 現在也能直接 apt install

3. AMD ROCm 7.1.0 進入 Universe

4. 這一輪真正的重點，是三家 GPU 生態都在落地

5. NVIDIA Dynamic Boost 預設啟用

6. Intel 新一代內顯與獨顯支援持續往前推進

7. Nvidia 桌機的掛起恢復也更穩定了

8. ARM、樹莓派、RISC-V 和 IBM Z 也有硬性門檻變化

ARM64 桌面平台

Raspberry Pi 新開機配置

Raspberry Pi 桌面映像改用 desktop-minimal

樹莓派 swap 改由 cloud-init 處理

RISC-V 門檻上調

IBM Z 最低要求提高到 z15

9. 哪些人更適合先看這篇

10. 一句話總結

NVIDIA nvbandwidth 是什麼：GPU 頻寬測試工具怎麼用

1. nvbandwidth 是做什麼的

2. 它測的不是單一分數

3. CE 和 SM 兩類拷貝怎麼理解

4. 執行它需要什麼環境

5. 單機版怎麼編譯和執行

6. 多節點支援是它比較特別的地方

7. 新版 v0.9 更新了什麼

8. 什麼時候適合用它

9. 可以怎麼理解它的價值

相關連結

llama.cpp ollama 顯卡性能天梯：CUDA、ROCm、Vulkan

先看懂這些參數

Q4_0 是什麼

pp512 是什麼

tg128 是什麼

FA 是什麼

t/s 怎麼看

先說結論

CUDA 完整榜單

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

Apple Silicon 參考口徑

ROCm / HIP 完整榜單

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

Vulkan 完整榜單

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, FA enabled

這些表格該怎麼用

一句話總結

原始來源

顯卡推理速度測試的常用指標具體含義：FA、pp512、tg128、Q4_0 都是什麼意思

先看整行標題到底在說什麼

FA 是什麼：Flash Attention

no FA 是什麼意思

Q4_0 是什麼：量化格式

pp512 t/s 是什麼意思

tg128 t/s 是什麼意思

為什麼 pp512 和 tg128 會差這麼多

t/s 到底怎麼理解

看 scoreboard 時，最該先抓住哪幾個點

1. 測試模型是什麼

2. 有沒有開啟關鍵優化

3. 看的是輸入速度還是輸出速度

4. 關注的是吞吐還是體感

一個更實用的理解方式

結語

Ollama 多顯卡使用筆記：顯存疊加、GPU 選擇和常見誤區

官方行為：先單卡，放不下再多卡

多 GPU 不是簡單疊算力

不需要 SLI 或 NVLink

如何限制 Ollama 使用哪些 NVIDIA GPU

AMD 和 Vulkan 的選擇變數

Docker 裡怎麼暴露多張 GPU

OLLAMA_SCHED_SPREAD 是什麼

怎麼觀察多卡是否真的用上

常見誤區

誤區 1：兩張 12GB 顯卡等於一張 24GB 顯卡

誤區 2：不同型號顯卡不能混用

誤區 3：多卡一定比單卡快

誤區 4：必須有 NVLink / SLI

2. NVIDIA CUDA toolkit 現在也能直接 `apt install`

1. `nvbandwidth` 是做什麼的

3. `CE` 和 `SM` 兩類拷貝怎麼理解

7. 新版 `v0.9` 更新了什麼

`Q4_0` 是什麼

`pp512` 是什麼

`tg128` 是什麼

`FA` 是什麼

`t/s` 怎麼看

`OLLAMA_SCHED_SPREAD` 是什麼