CUDA on KnightLi的博客

Ubuntu 26.04 LTS 的 GPU 与硬件支持更新：CUDA、ROCm、DPC++ 和更多平台变化

Sun, 26 Apr 2026 19:35:57 +0800

如果上一篇更像是 Ubuntu 26.04 LTS 的桌面总览，那这篇可以看作是它的硬件和算力补充版。官方在 26.04 这一轮里，把不少和 AI、GPU 计算、平台兼容性直接相关的内容都推进了主仓库或正式支持范围里。

先说结论：这次最值得关注的，不只是桌面和内核升级，而是 Ubuntu 正在把 Intel、NVIDIA、AMD 三家的 GPU 计算栈都更系统地纳入发行版生态。

1. Intel DPC++ 与相关组件进入 Ubuntu Archive

从 26.04 开始，Intel 开源的 oneAPI DPC++ 编译器已经可以直接从 Ubuntu Archive 获取，用来构建 SYCL 代码。运行时里也包含了面向 Intel GPU 的适配器。

同时进入 Ubuntu 仓库的，还有两个相关组件：

oneDPL，也就是 DPC++ library，提供更高生产力的开发接口
oneDNN，并且是基于 dpclang-6 构建，可在 Intel GPU 上运行

这意味着，如果你本身就在看 SYCL、异构计算或者 Intel GPU 上的 AI 工作负载，Ubuntu 现在给出的路径更直接了，不用再完全依赖单独维护的一套外部环境。

官方还特别提醒了一点：如果要实际调用这些 Intel GPU 相关能力，用户需要在 render 组里。

2. NVIDIA CUDA toolkit 现在也能直接 `apt install`

对很多开发者和运维来说，这可能是这份更新里最实用的一条。

从 26.04 开始，NVIDIA CUDA toolkit 已经可以直接通过 Ubuntu Archive 安装。命令就是：

`1`	`sudo apt install cuda-toolkit`

这背后的意义，不只是“少输几条命令”。

对面向 Ubuntu 分发软件的开发者来说，新的模式意味着可以直接声明对 CUDA runtime 的依赖，后续安装与兼容性由 Ubuntu 在发行版层面处理。这会让 CUDA 在 Ubuntu 上的可获得性更高，也更接近系统原生能力，而不是额外叠一层单独维护的外部软件栈。

3. AMD ROCm 7.1.0 进入 Universe

AMD 这边，Ubuntu Universe 里现在已经包含 ROCm 7.1.0。

这套库主要提供的是：

面向 AMD GPU 的 AI 训练与推理后端能力
机器学习与高性能计算相关的软件基础设施

官方还提到，Canonical 在自己的 CI/CD 流程里会持续测试 ROCm 相关组件，除了 autopkgtests，还覆盖了一些用户态应用，包括：

llama.cpp
pytorch
Blender
Lemonade Server

这条信息其实很关键，因为它说明 Ubuntu 不是单纯“把包放进仓库”，而是在按一个可维护的软件栈去验证它。

4. 这一轮的重点，其实是三家 GPU 生态都在落地

把 DPC++、CUDA 和 ROCm 放在一起看，会更容易理解 26.04 的方向：

Intel：推进 SYCL / oneAPI 相关能力进入官方仓库
NVIDIA：让 CUDA toolkit 具备发行版级的安装路径
AMD：把 ROCm 7.1.0 纳入 Universe，并做持续测试

如果你平时会在 Ubuntu 上碰这些场景，这一轮更新会比较有感：

本地大模型推理
GPU 加速训练或微调
Blender、科学计算、HPC
需要在多种 GPU 平台之间切换的开发环境

换句话说，Ubuntu 现在不只是“能装显卡驱动”，而是开始更完整地承接 AI 和 GPU 计算所需的用户态软件栈。

5. NVIDIA Dynamic Boost 默认启用

从 25.04 开始，支持的 NVIDIA 笔记本已经默认启用 Dynamic Boost。

这个功能的逻辑很直接：系统会根据当前负载，在 CPU 和 GPU 之间动态分配功耗。对游戏场景来说，常见收益就是在需要的时候把更多功率给 GPU，以换取更高性能。

不过它有两个前提：

设备接着交流电
GPU 负载足够高

在电池供电状态下，它不会介入。

6. Intel 新一代核显和独显支持继续往前走

Ubuntu 这一轮也把对新 Intel GPU 的支持继续往前推，重点包括：

集成显卡：

Intel Core Ultra Xe2
Intel Core Ultra Xe3

独立显卡：

Intel Arc 5 B570
Intel Arc 5 B580
Intel Arc Pro B50
Intel Arc Pro B60
Intel Arc Pro B65
Intel Arc Pro B70

围绕这批设备，官方还列出了一些已经到位的特性：

基于 Intel Embree 的 GPU 和 CPU 光线追踪渲染性能提升，像 Blender 4.2+ 这类应用可受益
“Battlemage” 设备支持 AVC、JPEG、HEVC 和 AV1 的硬件视频编码
Intel Compute Runtime 引入新的 CCS 优化
Intel Xe GPU 调试支持已启用

如果你更关注后续版本，25.10 还会继续把一些新能力带进来，例如：

借助 Linux kernel 6.17 初步支持代号 Panther Lake 的下一代 Intel 客户端平台
改进 IOMMU、PCIe 子系统和多 GPU 支持
Mesa 25.2.3 为 Battlemage 和 Panther Lake 打开 VK_KHR_shader_bfloat16
intel-media-driver 25.3.0 增加 Panther Lake 解码和 VP9 编码支持
intel-compute-runtime 25.31 调整 Level Zero 的 USM 池和本地显存事件分配策略
level-zero 1.24 与 level-zero-raytracing 1.1.0 带来更完整的规范与 RTAS 扩展支持

7. Nvidia 桌面机的挂起恢复也更稳了

从 25.10 开始，Ubuntu 在专有 Nvidia 驱动里启用了挂起恢复支持，以减少桌面机唤醒后的损坏和卡死问题。

这类改动不算“看得见的新功能”，但对实际日用稳定性很重要，尤其是长期开机、经常挂起恢复的桌面环境。

8. ARM、树莓派、RISC-V 和 IBM Z 也有硬门槛变化

除了 GPU 软件栈，这份发布说明里还有几条平台层面的变化很值得单独记一下。

ARM64 桌面平台

从 25.10 开始，linux-generic 的 ARM64 内核会提供更广泛的桌面兼容性，覆盖那些使用 UEFI 启动的 ARM64 桌面平台。

Raspberry Pi 新启动布局

25.10 引入、26.04 继续调整的一个变化，是树莓派启动分区的新布局。

它的目标是提升启动可靠性：新写入的启动资源会先被“测试”，确认没问题后才会提交为新的 “known good” 集合。

这里最需要注意的是固件时间要求：

Pi 3 / 3+ / CM3+ / Zero 2W：不需要额外操作，固件在镜像内
Pi 4 / 400 / CM4：启动固件日期不得早于 2022-11-25
Pi 5 / 500 / CM5：启动固件日期不得早于 2025-02-11

检查命令是：

`1`	`sudo rpi-eeprom-update`

如果固件太旧，并且你使用的是 Ubuntu 24.04 LTS 或更新版本，可以这样更新：

1
2

sudo rpi-eeprom-update -a
sudo reboot

Raspberry Pi 桌面镜像转向 desktop-minimal

从 25.10 开始，树莓派版 Ubuntu Desktop 镜像改为基于 desktop-minimal，而不是完整的 desktop seed。

官方给出的收益很明确：默认预装应用更少，未压缩镜像和实际系统都能节省大约 777MB 空间。

如果升级后想批量移除这批默认应用，可以使用：

`1`	`sudo apt purge ubuntu-desktop --autoremove`

如果你想保留其中某些应用，先用 apt 把它们标记为手动安装即可。

树莓派 swap 交给 cloud-init

从 25.10 开始，树莓派桌面镜像里的 swap 文件创建改由 cloud-init 负责。
如果你想在首次启动前自定义 swap 大小，可以直接修改启动分区上的 user-data。

RISC-V 门槛上调

从 25.10 开始，Ubuntu 26.04 LTS 的 RISC-V 版本要求硬件实现 RVA23S64 ISA profile。

不满足这个要求的设备，已经不能运行 Ubuntu 26.04 LTS。如果你手里还是较早的 RVA20 处理器板卡，那还得继续留在 Ubuntu 24.04 LTS 这一代支持线上。

按照官方说明，截至 2026 年 4 月，现实里还没有可用的 RVA23S64 硬件，因此当前唯一受支持的平台，其实是基于 QEMU 并使用 -cpu rva23s64 配置的虚拟化环境。

IBM Z 最低要求提升到 z15

从 26.04 开始，s390x 架构最低要求提升到 z15。

这意味着：

z14 / LinuxONE II 以及更早平台，已经不能安装 Ubuntu 26.04 LTS
z15 / LinuxONE III 及更新平台，会得到更好的性能表现

9. 这篇内容更适合哪些人先看

如果你属于下面这些场景，这篇比桌面总览更值得优先看：

在 Ubuntu 上做 CUDA、ROCm、SYCL 或本地 AI 推理
用 Intel、NVIDIA、AMD GPU 做开发或计算任务
维护 Raspberry Pi、ARM64、RISC-V、IBM Z 等非标准 x86 平台
对升级后的驱动、运行时、仓库可用性和平台门槛更敏感

10. 一句话总结

Ubuntu 26.04 LTS 在硬件和 AI 软件栈上的重点，不是某一家显卡单独增强了什么，而是 Intel 的 DPC++、NVIDIA 的 CUDA、AMD 的 ROCm 都开始以更官方、更多仓库内、也更可维护的方式进入 Ubuntu 生态。

如果你过去把 Ubuntu 当作“先装系统，再自己拼 GPU 环境”的底座，那从 26.04 开始，它已经更像一个愿意主动承接 AI 与异构计算工作负载的发行版了。

NVIDIA nvbandwidth 是什么：GPU 带宽测试工具怎么用

Fri, 24 Apr 2026 14:41:35 +0800

如果你最近在排查多张 NVIDIA GPU 之间的互联性能，或者想确认 PCIe、NVLink、主机内存到显存之间的实际带宽，NVIDIA/nvbandwidth 是一个很值得知道的小工具。

它不是通用跑分软件，也不是大模型框架里的隐藏命令，而是 NVIDIA 开源出来、专门用于测量 GPU 相关内存拷贝带宽与延迟的工具。相比只看理论带宽，nvbandwidth 更适合回答一个实际问题：这台机器当前这组 GPU 和互联链路，真实能跑到多少带宽。

1. `nvbandwidth` 是做什么的

从官方 README 的定位看，nvbandwidth 是一个用于测量 NVIDIA GPU 带宽的命令行工具。

它重点关注的是各种 memcpy 模式下的传输表现，例如：

GPU -> GPU
CPU -> GPU
GPU -> CPU
多节点 GPU 之间的传输

这类测试对下面几种场景尤其有用：

排查多卡训练或推理时的互联瓶颈
验证 NVLink、PCIe、C2C 等链路的实际表现
对比不同服务器、不同拓扑、不同驱动或 CUDA 版本下的传输差异
做集群部署前的基础硬件验收

简单说，nvbandwidth 看的不是模型吞吐，而是更底层的“数据搬运能力”。

2. 它测的不是一个单点数字

很多人会把“带宽测试”理解成最后只得到一个分数，但 nvbandwidth 实际输出的信息更细。

它会按测试类型给出矩阵结果。比如在 device_to_device_memcpy_write_ce 这类测试里，输出会按 GPU 行列展示每一对设备之间的带宽。这样你不只知道“这台机器大概有多快”，还可以看出：

哪两张卡之间速度特别高
哪些卡之间明显受限于 PCIe
某些 GPU 对之间是否存在异常低带宽
多卡拓扑是否和预期一致

如果你在看八卡服务器、双路平台或者跨节点系统，这类矩阵结果会比单一平均值更有参考意义。

3. `CE` 和 `SM` 两类拷贝怎么理解

官方文档里把测试分成两类：

CE：基于 memcpy API 的 copy engine 拷贝
SM：基于 kernel 的拷贝

这两类结果不一定完全相同，因为它们代表的是不同拷贝路径。
如果你只是想看设备之间常规数据搬运的表现，通常会先关注 CE；如果你要研究更细的执行路径，再继续看 SM 会更合适。

此外，README 也说明了带宽结果默认取多次测试的中位数；新版还补充了统计波动信息，这对判断结果是否稳定会更有帮助。

4. 运行它需要什么环境

nvbandwidth 不是一个“下载即用”的纯二进制小工具，它需要标准的 CUDA 开发环境。

官方 README 当前给出的基本要求包括：

CUDA Toolkit 11.x 或更高版本
支持 C++17 的编译器
CMake 3.20+，更推荐 3.24+
Boost program_options
可用的 CUDA 设备与兼容驱动

如果你要跑多节点版本，要求会更高。当前 README 明确写到：

多节点构建需要 CUDA Toolkit 12.3
驱动需要 550 或更高
需要 MPI
需要配置 nvidia-imex 服务

所以它更像面向 Linux GPU 服务器和集群环境的工程工具，而不是给普通桌面用户随手装着玩的。

5. 单机版怎么编译和运行

单机版构建流程很直接：

1
2

cmake .
make

在 Ubuntu / Debian 上，官方还提供了一个 debian_install.sh 脚本，用来安装通用依赖并构建项目。

编译完成后，可以先看帮助：

`1`	`./nvbandwidth -h`

几个比较常用的参数包括：

-l：列出可用测试
-t：按测试名或索引运行指定测试
-p：按前缀批量运行测试
-b：设置 memcpy buffer 大小，默认 512 MiB
-i：设置测试迭代次数
-j：输出 JSON
-H：启用 huge pages 的主机内存分配

如果只是想先跑一轮默认测试，直接执行：

`1`	`./nvbandwidth`

如果只想测一个具体项目，例如某个设备到设备的拷贝：

`1`	`./nvbandwidth -t device_to_device_memcpy_read_ce`

6. 多节点支持是它比较特别的地方

nvbandwidth 不只是单机多卡测试工具，它还支持多节点场景。

从 README 看，多节点版本的构建方式是：

1
2

cmake -DMULTINODE=1 .
make

运行时通常要配合 mpirun，并按“每张 GPU 一个进程”的方式启动。
官方文档还要求所有参与测试的 rank 处在同一个 multinode clique 内，并建议在 MPI 环境里主要运行带 multinode 前缀的测试。

这一点说明它的定位明显偏向高性能计算和大规模 GPU 系统，而不只是工作站自测。

如果你手上是 NVLink 多节点部署、GB200/Grace Hopper 一类更复杂的系统，nvbandwidth 的价值会比普通消费级显卡环境大很多。

7. 新版 `v0.9` 更新了什么

截至 2026 年 4 月 24 日，GitHub Releases 页面显示 nvbandwidth 的最新版本是 v0.9，发布时间是 2026 年 4 月 8 日。

这版比较值得注意的更新主要有：

为带宽输出增加波动统计信息
增加 host memory huge pages 支持（Windows 不启用）
为设备到设备测试增加 pair sampling 选项
补充 troubleshooting guide
统一单机与多节点执行路径

另外还有两点工程层面的变化也很实用：

改进 CUDA 架构检测，减少对实际 GPU 访问的依赖
对 CUDA Toolkit 13.0+ 场景弃用 Volta（sm_70 / sm_72）支持

如果你之前只看过旧版资料，现在再回来看，v0.9 已经不只是“测一下带宽”的初始版本，而是朝着更适合自动化、排障和大规模系统测试的方向继续推进了。

8. 什么时候适合用它

nvbandwidth 最适合下面这些情况：

你想确认多张 NVIDIA GPU 之间的真实互联带宽
你怀疑某张卡被插在了受限的 PCIe 槽位
你想比较 NVLink 和非 NVLink 路径的差异
你在做多节点 GPU 集群部署，需要验证链路是否正常
你想把测试结果接进自动化流程，输出 JSON

但如果你的目标只是看“训练快不快”或“推理 tokens/s 有多少”，那它不是直接答案。
这时你还需要配合训练框架、推理引擎或具体 workload 的实测一起看。

9. 可以怎么理解它的价值

很多 GPU 性能问题，本质都不是“算力不够”，而是数据没搬好。

比如：

GPU 之间没有走到预期链路
跨 NUMA 节点访问导致速度下降
某些卡对之间带宽异常
跨节点通信配置不完整

这类问题如果只看 nvidia-smi、只看模型吞吐，往往不容易定位。
而 nvbandwidth 这种更底层、矩阵化的测试工具，恰好能把“链路层发生了什么”暴露出来。

所以你可以把它理解成：给 NVIDIA GPU 系统做带宽体检的命令行工具。

llama.cpp ollama 显卡性能天梯：CUDA、ROCm、Vulkan

Thu, 23 Apr 2026 09:58:11 +0800

先看懂这些参数

`Q4_0` 是什么

Q4_0 是一种 4-bit 量化格式。它的意义不是“模型更强”，而是“模型更小、更省显存、更容易塞进更多设备里”。这些榜单大多统一用 Llama 2 7B, Q4_0，核心目的是减少变量，让不同 GPU 的成绩更容易横向比较。

`pp512` 是什么

pp512 一般可以理解为 prompt processing 512 tokens，也就是处理 512 个输入 token 时的吞吐。

pp = prompt processing
512 = 输入长度是 512 token
t/s = tokens per second

它更像“吃提示词的速度”，通常能并行得更充分，所以数字往往很高。

`tg128` 是什么

tg128 一般可以理解为 text generation 128 tokens，也就是连续生成 128 个 token 时的速度。

tg = text generation
128 = 连续生成 128 token
t/s = tokens per second

它更接近我们平时感受到的“模型回答快不快”。因为生成阶段是逐 token 递推，所以通常明显低于 pp512。

`FA` 是什么

FA 是 Flash Attention。简单理解就是注意力计算的一种优化开关。

with FA 表示启用了 Flash Attention
no FA 表示关闭 Flash Attention

在不少卡上，FA 对 pp512 的提升比对 tg128 更明显；但不同后端、不同驱动和不同架构之间，提升幅度并不一致，个别设备甚至会出现 PP 升、TG 变化很小，或者 PP 反而下降的情况。

`t/s` 怎么看

t/s 就是 tokens per second。它不是帧率，也不是 FLOPS，而是模型吞吐表现的直接结果。

读榜单时最重要的一点是：先确认你在比的是不是同一种测试。

不要把 pp512 和 tg128 直接混着比
不要把 no FA 和 with FA 混着比
不要把 CUDA、ROCm、Vulkan 的结果当成完全等价的同一条曲线

先说结论

从这几条讨论串当前可见的数据看，大致可以先记住这几个结论：

CUDA 仍然是目前 llama.cpp GPU 跑分里最强、样本也最密集的一条线，特别是高端 Nvidia 卡在 pp512 上优势很大。
ROCm 在高端 AMD 卡和 Instinct 卡上已经能给出非常像样的成绩，MI300X、7900 XTX、W7900 这些条目都不弱。
Vulkan 的优点不是“绝对最快”，而是覆盖面最广，Nvidia、AMD、Intel、Apple Asahi / MoltenVK，甚至很多老卡和核显都能找到条目。
tg128 往往更接近日常体感，pp512 更适合看吞吐能力。很多“榜一”卡，在两项里领先幅度并不完全一样。

CUDA 完整榜单

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14073.41 ± 115.16	290.02 ± 1.10	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	14854.63 ± 22.73	274.20 ± 0.14	79c1160	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	9918.34 ± 176.97	267.81 ± 1.54	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	4849.53 ± 8.94	190.88 ± 0.33	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	10293.86 ± 134.72	189.33 ± 0.19	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	11992.70 ± 107.99	186.21 ± 0.13	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	8297.36 ± 9.50	181.99 ± 0.42	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	6952.38 ± 13.73	176.85 ± 0.07	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	9229.23 ± 101.78	176.07 ± 0.26	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6567.49 ± 20.30	171.19 ± 3.98	9c35706	@slaren
RTX 3090	24 GB / GDDR6X / 384 bit	5174.69 ± 21.83	158.16 ± 0.21	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	8870.49 ± 378.76	152.01 ± 0.28	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	8125.15 ± 41.05	148.33 ± 0.20	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	8031.64 ± 26.49	142.49 ± 0.16	20638e4	@Ristovski
RTX 3080	10 GB / GDDR6X / 320 bit	5013.86 ± 24.80	139.65 ± 0.99	9c35706	@slaren
RTX A6000	48 GB / GDDR6 / 384 bit	4913.93 ± 6.79	138.73 ± 2.75	4795c91	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	6924.53 ± 13.87	132.26 ± 0.16	9c35706	@Ristovski
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	4992.83 ± 113.52	131.66 ± 0.20	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4028.16 ± 19.14	130.07 ± 2.74	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	3042.64 ± 40.71	129.08 ± 0.05	51f5a45	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5184.75 ± 18.70	127.54 ± 0.46	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	4609.01 ± 10.67	124.11 ± 0.17	3470a5c	@Hedede
A30	24 GB / HBM2e / 3072 bit	2767.10 ± 1.88	124.81 ± 0.16	583cb83	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2617.46 ± 2.10	108.79 ± 0.05	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	2890.66 ± 2.42	107.51 ± 0.21	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	2751.18 ± 19.43	102.77 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	2709.95 ± 3.35	102.68 ± 0.03	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	2827.20 ± 66.43	97.32 ± 2.80	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	3737.25 ± 6.79	90.94 ± 0.02	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2088.34 ± 1.94	88.06 ± 0.28	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2684.06 ± 15.28	83.77 ± 0.37	65349f2	@TinyServal
Titan Xp	12 GB / GDDR5X / 384 bit	1154.96 ± 1.46	76.08 ± 0.08	c4510dc	@Hedede
RTX 3060	12 GB / GDDR6 / 192 bit	2137.50 ± 10.12	75.57 ± 0.07	baa9255	@QuantiusBenignus
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1536.89 ± 0.90	65.62 ± 0.62	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3394.63 ± 7.44	63.86 ± 0.01	89d1029	@mike-llamacpp
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1084.41 ± 3.01	62.49 ± 0.06	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	2779.77 ± 9.91	61.83 ± 0.04	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1420.24 ± 1.95	60.04 ± 0.01	5c0eb5e	@ggerganov
Tesla P100	16 GB / HBM2 / 4096 bit	760.80 ± 2.92	58.35 ± 0.00	b8372ee	@Hedede
DGX Spark	128 GB / LPDDR5x	3062.31 ± 11.02	57.21 ± 0.06	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1007.42 ± 1.23	54.74 ± 0.07	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	1956.22 ± 7.74	50.62 ± 0.04	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1219.06 ± 4.18	46.38 ± 0.73	d32e03f	@pt13762104
RTX 4050 Laptop	6 GB / GDDR6 / 96 bit	1725.85 + 17.85	43.72 + 0.41	d79d8f3	@TimCabbage
GTX 1660	6 GB / GDDR5 / 192 bit	148.91 ± 0.01	41.35 ± 0.02	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	282.65 ± 0.15	38.04 ± 0.02	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	714.44 ± 2.04	37.82 ± 0.02	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	991.31 ± 1.15	33.58 ± 0.14	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	514.53 ± 3.06	33.29 ± 0.00	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	406.94 ± 0.25	30.40 ± 0.02	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	416.85 ± 1.75	27.79 ± 0.02	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	79.44 ± 0.01	27.82 ± 0.18	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	309.30 ± 0.05	23.63 ± 0.00	baa9255	@TinyServal
Quadro P1000	4 GB / GDDR5 / 128 bit	183.40 ± 0.11	13.99 ± 0.13	1e74897	@aleksyx
Tesla K80	12 GB / GDDR5 / 384 bit	133.14 ± 0.55	13.80 ± 0.02	32732f2	@pebaryan

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14970.15 ± 381.06	300.40 ± 0.28	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	16618.98 ± 20.66	281.11 ± 0.41	5143fa8	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	11263.29 ± 98.34	280.74 ± 1.17	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	5285.96 ± 6.58	200.90 ± 0.12	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	12506.97 ± 11.51	191.57 ± 0.03	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	14770.63 ± 102.93	188.96 ± 0.05	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	9487.70 ± 21.89	184.68 ± 0.05	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	8419.56 ± 35.50	182.43 ± 0.09	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	10576.85 ± 530.21	179.47 ± 0.32	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6924.01 ± 10.76	172.26 ± 1.31	9c35706	@slaren
RTX PRO 4500 Blackwell	32 GB / GDDR7 / 256 bit	7251.66 ± 92.40	168.90 ± 0.20	becc481	@Hedede
RTX 3090	24 GB / GDDR6X / 384 bit	5560.06 ± 16.28	161.89 ± 0.18	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	10097.64 ± 671.22	153.76 ± 0.12	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	9439.01 ± 56.75	147.48 ± 1.41	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	9205.93 ± 22.31	143.47 ± 0.02	20638e4	@Ristovski
RTX A6000	48 GB / GDDR6 / 384 bit	5662.39 ± 13.87	144.87 ± 0.18	4795c91	@Hedede
RTX 3080	10 GB / GDDR6X / 320 bit	5569.56 ± 14.04	139.95 ± 0.95	9c35706	@slaren
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	5674.44 ± 139.53	136.38 ± 0.13	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4552.15 ± 9.68	135.83 ± 0.11	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	2973.78 ± 3.62	134.76 ± 0.02	51f5a45	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	7612.32 ± 37.35	132.85 ± 0.31	9c35706	@Ristovski
A30	24 GB / HBM2e / 3072 bit	3068.72 ± 0.63	131.93 ± 0.18	583cb83	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5783.44 ± 36.95	128.21 ± 2.52	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	5256.38 ± 19.39	126.24 ± 0.06	3470a5c	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2481.25 ± 1.31	112.17 ± 0.01	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	3107.61 ± 4.34	109.17 ± 0.07	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	3053.96 ± 1.37	104.38 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	3052.35 ± 5.64	103.63 ± 0.02	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	3453.10 ± 49.19	103.00 ± 0.25	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	4195.53 ± 1.98	93.46 ± 0.01	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2293.29 ± 5.91	87.71 ± 0.29	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2807.83 ± 52.44	85.17 ± 0.66	65349f2	@TinyServal
RTX 3060	12 GB / GDDR6 / 192 bit	2407.67 ± 3.73	76.92 ± 0.03	baa9255	@QuantiusBenignus
Titan Xp	12 GB / GDDR5X / 384 bit	1218.12 ± 1.82	73.84 ± 0.04	c4510dc	@Hedede
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1662.80 ± 2.04	67.62 ± 0.67	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3803.45 ± 70.80	64.03 ± 0.53	89d1029	@mike-llamacpp
Tesla P100	16 GB / HBM2 / 4096 bit	787.36 ± 3.27	61.99 ± 0.00	b8372ee	@Hedede
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1138.14 ± 2.02	61.38 ± 0.03	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	3171.86 ± 4.34	61.37 ± 0.01	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1563.77 ± 0.51	61.13 ± 0.05	5c0eb5e	@ggerganov
DGX Spark	128 GB / LPDDR5x	3661.37 ± 38.66	56.74 ± 0.03	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1079.66 ± 0.18	53.73 ± 0.05	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	2250.14 ± 5.91	50.71 ± 0.01	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1309.73 ± 1.02	44.03 ± 0.57	d32e03f	@pt13762104
GTX 1660	6 GB / GDDR5 / 192 bit	154.45 ± 0.52	41.43 ± 0.01	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	290.17 ± 0.11	39.98 ± 0.01	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	790.52 ± 2.39	37.87 ± 0.00	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	1171.96 ± 4.70	35.88 ± 0.18	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	529.53 ± 2.12	33.12 ± 0.03	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	438.49 ± 0.38	30.64 ± 0.06	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	446.19 ± 0.81	28.18 ± 0.01	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	27.46 ± 0.23	27.46 ± 0.23	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	311.55 ± 0.19	23.76 ± 0.01	baa9255	@TinyServal
Tesla K80	12 GB / GDDR5 / 384 bit	133.36 ± 0.60	14.27 ± 0.32	32732f2	@pebaryan
Quadro P1000	4 GB / GDDR5 / 128 bit	173.82 ± 0.02	13.65 ± 0.14	1e74897	@aleksyx

Apple Silicon 参考口径

#4167 这条讨论和后三条最大的区别，是它更早建立了统一口径，除了 Q4_0，还会顺带放 F16 和 Q8_0。它对理解 PP / TG / t/s 很有帮助。

讨论里直接给出的说明是：

PP 表示 prompt processing
TG 表示 text-generation
t/s 表示 tokens per second

文中可见的一个时间对比样例，是 M2 Ultra 在同一台机器上随着版本和 FA 演进后的成绩：

时间	设备	版本/说明	带宽 GB/s	GPU 核心	F16 PP	F16 TG	Q8_0 PP	Q8_0 TG	Q4_0 PP	Q4_0 TG
2023-11-21	M2 Ultra	8e672ef	800	76	1401.85	41.02	1248.59	66.64	1238.48	94.27
2024-11-12	M2 Ultra	86ed72d + FA	800	76	1525.95	43.15	1368.18	73.11	1391.78	108.80
2025-08-02	M2 Ultra	5c0eb5e + FA	800	76	1561.35	43.24	1386.97	73.35	1412.42	109.41

讨论正文前部还给了几台 Apple Silicon 设备的统一样例：

设备	Q4_0 PP	Q4_0 TG	Q8_0 PP	Q8_0 TG	F16 PP	F16 TG
M1 Pro 16 GPU	266.25	36.41	270.37	22.34	302.14	12.75
M2 Ultra 76 GPU	1238.48	94.27	1248.59	66.64	1401.85	41.02
M3 Max 40 GPU	690.99	65.85	749.37	43.00	794.26	25.27

Apple 这条线这里不展开全文搬运，后面重点看你指定的三类独显后端榜单。

ROCm / HIP 完整榜单

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11476.40 ± 72.79	232.92 ± 0.53	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3552.27 ± 101.96	167.11 ± 0.50	2f0c2db	@Diablo-D3
Instinct MI210	64 GB / HBM2e / 4096 bit	2486.22 ± 9.58	124.51 ± 0.04	8160b38	@65a
Pro W7900	48 GB / GDDR6 / 384 bit	3213.17 ± 80.47	121.18 ± 0.06	8160b38	@65a
RX 7900 XT	20 GB / GDDR6 / 320 bit	3098.38 ± 24.02	116.15 ± 0.06	1e15bfd	@AdamNiederer
RX 9070	16 GB / GDDR6 / 256 bit	2381.77 ± 3.68	114.48 ± 0.60	d0660f2	@andj1210
Instinct MI100	32 GB / HBM2 / 4096 bit	2732.83 ± 1.98	110.48 ± 0.14	9c35706	@firefox42
RX 9070 XT	16 GB / GDDR6 / 256 bit	5055.19 ± 109.58	101.27 ± 0.27	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2151.81 + 17.94	100.94 + 0.10	00131d6	@olegshulyakov
Instinct MI50	32 GB / HBM2 / 4096 bit	1057.24 ± 0.53	98.95 ± 0.25	97d5117	@wtarreau
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1456.98 ± 12.39	96.07 ± 0.10	6fa3b55	@MihaiBojescu
AI PRO R9700	32 GB / GDDR6 / 256 bit	4443.54 ± 339.25	93.84 ± 0.26	bd4ef13	@gogich77
Instinct MI60	32 GB / HBM2 / 4096 bit	1289.11 ± 0.62	91.46 ± 0.13	504af20	@Said-Akbar
RX 6900 XT	16 GB / GDDR6 / 256 bit	1889.84 ± 31.21	88.49 ± 0.00	a972fae	@notgood
Pro VII	16 GB / HBM2 / 4096 bit	1064.99 ± 1.18	87.45 ± 0.04	2739a71	@8XXD8
RX 6800 XT	16 GB / GDDR6 / 256 bit	1447.07 ± 1.36	83.92 ± 0.03	79c1160	@MrLavender
Pro V620	32 GB / GDDR6 / 256 bit	1803.65 ± 2.54	74.66 ± 0.01	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1419.67 ± 3.64	67.58 ± 0.24	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	354.17 ± 0.18	67.55 ± 0.04	c05e8c9	@daniandtheweb
Instinct MI25	16 GB / HBM2 / 2048 bit	409.83 ± 0.23	63.94 ± 0.06	2739a71	@8XXD8
AI Max+ 395	128 GB / LPDDR5	911.36 ± 1.79	50.01 ± 0.07	e60f241	@firefox42
RX 7600 XT	16 GB / GDDR6 / 128 bit	1099.64 ± 2.05	48.58 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	240.68 ± 0.09	48.46 ± 0.09	ec428b0	@davispuh
Radeon 8060S	System Shared / DDR5	351.36 ± 0.67	47.97 ± 0.33	1d0125b	@hspak
Radeon 880M	System Shared / DDR5	163.25 ± 13.86	12.97 ± 1.63	c55d53a	@Hedede

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11945.97 ± 54.29	218.53 ± 0.09	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3874.25 ± 11.92	170.12 ± 0.56	2f0c2db	@Diablo-D3
Pro W7900	48 GB / GDDR6 / 384 bit	3472.86 ± 52.86	127.43 ± 0.12	8160b38	@65a
Instinct MI210	64 GB / HBM2e / 4096 bit	2571.82 ± 2.89	130.18 ± 0.06	8160b38	@65a
RX 9070	16 GB / GDDR6 / 256 bit	2452.68 ± 1.33	115.32 ± 0.52	d0660f2	@andj1210
RX 7900 XT	20 GB / GDDR6 / 320 bit	3261.75 ± 9.09	112.30 ± 0.06	1e15bfd	@AdamNiederer
Instinct MI50	32 GB / HBM2 / 4096 bit	1129.43 ± 0.15	105.82 ± 0.07	97d5117	@wtarreau
Instinct MI100	32 GB / HBM2 / 4096 bit	2755.00 ± 3.68	104.71 ± 0.10	9c35706	@firefox42
AI PRO R9700	32 GB / GDDR6 / 256 bit	4773.07 ± 49.30	97.98 ± 0.13	bd4ef13	@gogich77
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1598.79 ± 11.48	97.53 ± 0.06	6fa3b55	@MihaiBojescu
RX 9070 XT	16 GB / GDDR6 / 256 bit	4903.51 ± 96.36	97.28 ± 0.13	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2304.63 + 2.85	95.99 + 0.21	00131d6	@olegshulyakov
RX 6900 XT	16 GB / GDDR6 / 256 bit	1948.31 ± 13.51	85.04 ± 0.02	a972fae	@notgood
Pro V620	32 GB / GDDR6 / 256 bit	1256.86 ± 0.55	70.83 ± 0.02	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1479.27 ± 0.71	65.42 ± 0.19	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	314.17 ± 0.29	62.02 ± 0.05	c05e8c9	@daniandtheweb
AI Max+ 395	128 GB / LPDDR5	1003.53 ± 2.91	49.87 ± 0.02	e60f241	@firefox42
Radeon 8060S	System Shared / DDR5	366.08 ± 1.44	48.97 ± 0.15	1d0125b	@hspak
RX 7600 XT	16 GB / GDDR6 / 128 bit	1199.16 ± 1.07	47.65 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	153.17 ± 0.72	42.46 ± 0.40	ec428b0	@davispuh
Radeon 880M	System Shared / DDR5	213.31 ± 14.05	16.16 ± 1.41	c55d53a	@Hedede

Vulkan 完整榜单

Llama 2 7B, Q4_0, no FA

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	10381.64 ± 508.84	263.63 ± 0.91	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3531.93 ± 31.74	191.28 ± 0.20	2f0c2db
Nvidia RTX 4090	9452.03 ± 187.70	187.97 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 5080	7444.99 ± 20.11	185.10 ± 0.54	f6b533d	coopmat2
Nvidia A100	6389.86 ± 4.83	160.78 ± 0.16	2257758	coopmat2
Nvidia RTX 3090	4298.97 ± 10.59	160.13 ± 0.25	4ae88d0	coopmat2
Nvidia RTX 4080 Super	7101.18 ± 269.79	147.13 ± 5.64	81086cd	coopmat2
Nvidia RTX 3080	4287.11 ± 55.50	139.15 ± 0.05	7c7d6ce	coopmat2
Nvidia RTX A5000	3641.55 ± 9.05	139.89 ± 0.69	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	5036.04 ± 88.16	137.11 ± 0.02	e9fd8dc
Nvidia RTX 5070 Ti	6213.63 ± 27.72	135.63 ± 0.18	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4036.04 ± 34.58	130.19 ± 0.39	3191462
Nvidia Tesla V100	1391.39 ± 1.19	129.58 ± 0.58	7d77f07
Nvidia RTX 4070 Ti Super	6099.18 ± 154.30	129.45 ± 0.18	4ae88d0	coopmat2
AMD Radeon RX 7900 XT	2941.58 ± 17.17	123.18 ± 0.40	71e74a3
AMD Radeon RX 9070	3164.10 ± 66.84	119.71 ± 3.40	21c17b5
AMD Radeon RX 7800 XT	2017.33 ± 19.30	118.27 ± 0.27	4fdbc1e
AMD Radeon RX 7900 GRE	2336.31 ± 7.52	116.11 ± 0.26	4b2a477
Apple M3 Ultra	1116.83 ± 0.55	115.54 ± 0.78	2d451c8	MoltenVK
Intel Arc Pro B70	3379.00 ± 47.92	112.02 ± 1.08	b863507
Nvidia Titan V	984.36 ± 4.13	108.86 ± 0.28	e56abd2
AMD Radeon Pro VII	1078.54 ± 0.86	107.82 ± 0.14	N/A
AMD Radeon RX 6900 XT	1837.21 ± 25.44	104.60 ± 0.30	a972fae
Intel Arc Pro A60	2261.11 ± 9.53	104.25 ± 0.07	97d5117
AMD Radeon RX 6800 XT	1752.92 ± 1.71	100.32 ± 0.97	N/A
AMD Radeon VII	1059.14 ± 0.56	101.19 ± 0.53	77d6ae4
Nvidia RTX 2080 Ti	1888.24 ± 9.20	97.58 ± 6.60	N/A
AMD Radeon RX 6800	1698.69 ± 0.80	95.61 ± 0.19	4b385bf
AMD Radeon Pro W6800X Duo	687.71 ± 4.33	94.82 ± 0.12	N/A
Nvidia RTX 5060 Ti	3460.92 ± 7.16	93.51 ± 0.15	89f10ba	coopmat2
Nvidia RTX 4070	3179.37 ± 46.16	92.29 ± 0.28	9a48399
AMD Radeon Pro W6800X	510.80 ± 0.13	86.47 ± 0.46	13b4548	MoltenVK
AMD Radeon RX 6700 XT	1051.20 ± 0.98	83.88 ± 0.08	6d75883
AMD Radeon RX 6750 XT	1040.58 ± 0.35	81.98 ± 0.03	228f34c
AMD Radeon Pro V620	1595.32 ± 1.59	81.78 ± 0.06	03d4698
Nvidia RTX 3070	2113.02 ± 7.38	78.71 ± 0.13	1b8fb81
AMD Radeon Instinct MI60	369.26 ± 2.48	78.16 ± 1.40	504af20
Nvidia RTX 3060	1815.70 ± 5.85	75.94 ± 0.80	92c0b38	coopmat2
Apple M4 Max	724.77 ± 20.93	75.02 ± 0.14	1ece0cb6
Nvidia Tesla T10	1692.70 ± 2.05	75.01 ± 0.21	7f76692	coopmat2
Nvidia RTX A4000	2248.14 ± 7.59	73.74 ± 0.08	f5245b5	coopmat2
AMD Radeon RX 5700 XT	529.69 ± 0.26	70.73 ± 0.04	4fdbc1e
AMD Radeon RX 9060 XT	2141.67 ± 6.87	70.54 ± 0.74	ed52f36
Intel Arc B580	620.94 ± 15.33	70.14 ± 0.28	7f76692
AMD Radeon Pro V540	583.88 ± 6.56	69.64 ± 0.24	9da3dcd
AMD Radeon Pro W5700	449.85 ± 0.46	68.55 ± 0.15	23bc779
Intel Arc Pro B60	522.36 ± 3.60	68.55 ± 0.01	516a4ca
Nvidia GTX 1080 Ti	540.69 ± 0.71	64.99 ± 0.08	360d653
Nvidia RTX 2070 Super	1199.13 ± 7.70	64.64 ± 0.20	b7552cf
Nvidia RTX 3070 Mobile	1689.40 ± 19.57	63.64 ± 0.39	ceff6bb	coopmat2
Nvidia Tesla P100	678.14 ± 1.40	63.16 ± 0.06	eec1e33
AMD BC-250	370.66 ± 0.04	62.32 ± 0.32	5886f4f
AMD Radeon RX 6650 XT	1029.52 ± 1.21	62.14 ± 0.02	dbb852b
Nvidia RTX 4060 Mobile	2135.66 ± 23.18	59.53 ± 0.03	a5c07dc	coopmat2
Nvidia Tesla P40	488.06 ± 0.27	59.36 ± 0.16	N/A
Nvidia GTX 1660 Ti Mobile	511.67 ± 2.85	56.60 ± 0.07	b43556e
AMD Radeon Instinct MI25	439.42 ± 0.34	54.69 ± 0.03	2739a71
AMD Radeon RX 6600 XT	574.65 ± 0.86	53.92 ± 0.11	091592d
AMD Ryzen AI Max+ 395	1288.96 ± 6.49	53.59 ± 0.38	7f76692
AMD Radeon RX 7600 XT	840.85 ± 3.02	53.02 ± 0.01	01d8eaa
Intel Arc A770	1073.85 + 29.68	52.56 + 0.11	a69d54f
Nvidia GB10	2737.79 ± 19.56	52.28 ± 0.03	b9da444	coopmat2
AMD FirePro S9300 x2	247.26 ± 0.43	51.86 ± 0.11	eec1e33	Split across two GPUs
AMD Radeon RX 6600	761.89 ± 1.76	50.63 ± 0.02	b1c70e2
AMD Radeon RX Vega 56	439.87 ± 0.61	50.23 ± 0.14	92c0b38
Intel Arc B570	913.95 ± 0.90	49.64 ± 0.03	7f76692
Nvidia RTX 3060 Mobile	1059.76 ± 3.54	49.03 ± 0.13	dbb3a47
AMD Radeon RX 6800M	861.99 ± 7.67	48.71 ± 0.71	8e6f8bc
AMD Radeon RX 6600M	605.59 ± 0.65	48.21 ± 0.07	fe5b78c
Intel Arc A770M	875.92 ± 2.16	47.69 ± 0.16	eeee367
Nvidia P104-100	311.90 ± 0.22	46.18 ± 0.05	eec1e33
AMD Radeon RX Vega 64	356.08 ± 0.09	45.73 ± 0.18	ec428b0
Nvidia RTX A2000	1245.19 ± 8.76	45.52 ± 0.54	b1afcab	coopmat2
AMD Radeon RX 7600M XT	459.39 ± 2.34	45.28 ± 0.10	b9ab0a4	eGPU
AMD Radeon Pro V340	375.41 ± 0.24	45.16 ± 0.06	9da3dcd	Split across two GPUs
Nvidia GTX 1070 Ti	297.50 ± 0.54	42.86 ± 1.20	860a9e4	eGPU
Intel Arc A750	1075.94 ± 13.89	42.66 ± 0.18	c1b1876
Nvidia RTX 4050 Mobile	1154.28 + 15.76	41.89 + 0.10	d79d8f3
Nvidia GTX 1070	321.57 ± 0.93	41.48 ± 0.09	eec1e33
Intel Arc Pro B50	193.50 ± 0.24	39.99 ± 0.10	7b43f55
Nvidia Tesla M40	92.48 ± 0.02	39.35 ± 1.22	b8372ee
AMD Radeon RX 580	258.03 ± 0.71	39.32 ± 0.03	de4c07f
AMD Radeon RX 470	218.07 ± 0.56	38.63 ± 0.21	e288693
AMD Radeon Pro W5500	315.39 ± 3.76	36.82 ± 0.38	860a9e4
AMD Radeon RX 480	248.66 ± 0.28	34.71 ± 0.14	3b15924
Apple M2 Ultra	205.98 ± 0.02	34.34 ± 0.12	dbb852b	Asahi Linux
Nvidia GTX 980	186.24 ± 0.09	33.90 ± 0.51	860a9e4
Nvidia P106-100	183.78 ± 0.26	29.77 ± 0.04	23bc779
AMD FirePro W8100	155.22 ± 0.17	29.52 ± 0.05	4536363
Nvidia Tesla P4	265.54 ± 0.21	28.03 ± 0.14	24d2ee0
AMD Radeon RX 6500 XT	255.25 ± 0.35	27.81 ± 0.10	g9fdfcd
Apple M3	263.70 ± 0.02	26.39 ± 0.14	b9ab0a4	MoltenVK
AMD FirePro S10000	94.78 ± 0.02	25.32 ± 0.02	914a82d	Split across two GPUs
Nvidia Quadro P2000	169.55 ± 0.17	23.05 ± 0.03	63f8fe0
Intel Core Ultra 200 Series	544.95 ± 4.15	22.49 ± 0.09	cea560f
AMD Ryzen AI 9 300 Series	479.07 ± 0.41	22.41 ± 0.18	N/A
AMD Ryzen 6000 Series	240.89 ± 0.52	21.26 ± 0.08	ee09828
Apple M2 Pro	62.70 ± 0.03	20.95 ± 0.11	1fe0029	Asahi Linux
Nvidia GTX 1050 Ti	136.42 ± 0.67	20.96 ± 0.21	2f0c2db
AMD Ryzen 8000 Series	266.19 ± 1.36	20.53 ± 0.08	a5c07dc
AMD Ryzen 7000 Series	281.62 ± 1.56	19.91 ± 0.07	ebce03e
AMD Ryzen Z1 Extreme	199.36 ± 7.02	18.77 ± 0.02	53ff6b9
AMD FirePro D700	69.95 ± 0.04	16.62 ± 0.01	d3bd719	MoltenVK, running in FP16 mode on FP32 only chip
AMD Radeon Pro WX 4100	78.79 ± 0.10	16.05 ± 0.07	860a9e4
Apple M2	50.79 ± 0.16	13.50 ± 0.02	8c0d6bb	Asahi Linux
Apple M1	38.29 ± 0.00	12.47 ± 0.03	2370665	Asahi Linux
AMD Ryzen 5000 Series	90.55 ± 0.08	10.98 ± 0.07	d84635b
Intel Core 1100 Series	187.20 ± 1.78	10.39 ± 0.04	abb9f3c
AMD Radeon RX 550	52.66 ± 0.49	10.20 ± 0.01	N/A
AMD Ryzen 4000 Series	103.87 ± 0.02	9.63 ± 0.01	4b385bf
Nvidia Tesla K80	89.46 ± 0.10	9.39 ± 0.06	5d46bab	Running on single GPU
Nvidia Tesla K40	64.37 ± 0.09	9.30 ± 0.19	eec1e33
MediaTek Dimensity 9400	38.36 ± 15.15	8.92 ± 0.06	b9ab0a4	GPU supports coopmat but pp512 is faster with it turned off
Intel Core Ultra 100 Series	185.51 ± 0.22	8.21 ± 0.07	1d72c84
AMD Ryzen 3000 Series	48.63 ± 0.10	8.49 ± 0.01	1fe0029
CIX CD8180	2.80 ± 0.01	5.51 ± 0.00	4dca015
Intel Core 1000 Series	25.58 ± 0.00	4.25 ± 0.18	N/A
Intel Core 8000 Series	25.43 ± 0.17	3.35 ± 0.03	c4df49a
Intel N150	28.84 ± 0.02	2.93 ± 0.00	4f63cd7

Llama 2 7B, Q4_0, FA enabled

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	11796.38 ± 601.36	273.68 ± 0.52	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3332.90 ± 11.47	195.30 ± 0.23	2f0c2db
Nvidia RTX 5080	8054.59 ± 35.68	192.17 ± 0.21	f6b533d	coopmat2
Nvidia RTX 4090	10830.41 ± 36.25	190.10 ± 0.31	4ae88d0	coopmat2
Nvidia A100	7064.40 ± 1.63	170.56 ± 0.02	2257758	coopmat2
Nvidia RTX 3090	4732.33 ± 4.80	162.28 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 4080 Super	8007.37 ± 46.03	150.20 ± 0.26	81086cd	coopmat2
Nvidia RTX 3080	4913.83 ± 21.52	145.74 ± 0.16	7c7d6ce	coopmat2
Nvidia Tesla V100	1411.25 ± 2.12	142.13 ± 0.03	7d77f07
Nvidia RTX A5000	4071.22 ± 13.13	140.43 ± 0.22	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	4911.74 ± 28.52	138.20 ± 0.18	e9fd8dc
Nvidia RTX 5070 Ti	6764.53 ± 11.95	135.65 ± 0.02	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4333.83 ± 29.36	130.90 ± 0.12	3191462
AMD Radeon RX 7900 XT	3043.93 ± 10.42	124.20 ± 0.09	71e74a3
AMD Radeon RX 7800 XT	2094.64 ± 14.38	119.63 ± 0.13	4fdbc1e
AMD Radeon RX 9070	3277.24 ± 18.17	119.55 ± 0.06	21c17b5
AMD Radeon RX 7900 GRE	2402.07 ± 22.50	116.77 ± 0.08	4b2a477
Apple M3 Ultra	1115.55 ± 0.75	115.99 ± 0.12	2d451c8	MoltenVK
Intel Arc Pro B70	3314.53 ± 17.95	111.63 ± 0.05	b863507
Nvidia Titan V	792.74 ± 4.30	109.21 ± 0.72	e56abd2
AMD Radeon Pro VII	783.94 ± 0.77	108.45 ± 0.48	N/A
AMD Radeon RX 6900 XT	1761.93 ± 4.75	106.15 ± 0.04	a972fae
Nvidia RTX 2080 Ti	1936.25 ± 32.08	100.99 ± 0.24	N/A
AMD Radeon RX 6800 XT	1704.79 ± 0.71	100.50 ± 0.06	N/A
AMD Radeon Pro W6800X Duo	795.28 ± 0.72	100.08 ± 0.02	N/A
Nvidia RTX 5060 Ti	3912.65 ± 5.86	97.01 ± 0.14	89f10ba	coopmat2
AMD Radeon RX 6800	1749.46 ± 3.36	96.65 ± 0.48	4b385bf
Nvidia RTX 4070	4293.57 ± 27.70	91.49 ± 0.89	9a48399	coopmat2
AMD Radeon RX 6750 XT	997.05 ± 0.45	82.29 ± 0.06	228f34c
AMD Radeon RX 6700 XT	1010.90 ± 12.89	81.86 ± 0.19	6d75883
Nvidia RTX 3060	2012.88 ± 10.12	80.59 ± 0.02	92c0b38	coopmat2
AMD Radeon Pro V620	1556.31 ± 2.82	79.24 ± 0.09	03d4698
Nvidia RTX A4000	2482.74 ± 26.05	76.07 ± 0.08	f5245b5	coopmat2
Nvidia Tesla T10	1840.14 ± 1.22	76.05 ± 0.13	7f76692	coopmat2
AMD Radeon RX 5700 XT	538.31 ± 0.35	74.43 ± 0.03	4fdbc1e
Intel Arc B580	419.49 ± 3.37	72.00 ± 0.24	7f76692
Apple M4 Max	557.46 ± 26.87	71.79 ± 4.16	1ece0cb6
AMD Radeon Pro W5700	446.98 ± 0.39	71.30 ± 0.24	23bc779
Intel Arc Pro B60	274.76 ± 0.27	70.54 ± 0.03	516a4ca
AMD Radeon RX 9060 XT	1915.41 ± 7.90	70.52 ± 0.16	ed52f36
Nvidia Tesla P100	685.51 ± 0.88	66.48 ± 0.02	eec1e33
AMD Radeon RX 6650 XT	1088.90 ± 0.40	64.53 ± 0.75	dbb852b
Nvidia GTX 1080 Ti	529.96 ± 0.38	64.63 ± 0.10	360d653
AMD BC-250	356.87 ± 1.24	63.14 ± 0.09	5886f4f
Nvidia RTX 3070 Mobile	1832.07 ± 57.14	62.92 ± 0.37	ceff6bb	coopmat2
Nvidia RTX 4060 Mobile	2358.03 ± 12.17	60.01 ± 0.08	a5c07dc	coopmat2
Nvidia Tesla P40	484.37 ± 0.27	59.22 ± 0.15	N/A
Nvidia GTX 1660 Ti Mobile	514.34 ± 0.88	57.30 ± 0.42	b43556e
AMD Radeon RX 7600 XT	1024.38 ± 7.56	56.11 ± 0.02	01d8eaa
AMD FirePro S9300 x2	243.33 ± 0.22	55.64 ± 0.06	eec1e33	Split across two GPUs
Nvidia GB10	3279.89 ± 26.78	53.64 ± 0.05	b9da444	coopmat2
AMD Radeon RX 6600	808.76 ± 0.15	53.24 ± 0.03	b1c70e2
Intel Arc A770	1119.68 + 30.25	53.07 + 0.09	a69d54f
AMD Ryzen AI Max+ 395	1357.07 ± 10.94	53.00 ± 0.13	7f76692
AMD Radeon RX Vega 56	428.54 ± 0.50	52.66 ± 0.03	92c0b38
Intel Arc B570	288.51 ± 0.09	50.49 ± 0.05	7f76692
Nvidia P104-100	325.30 ± 0.25	48.64 ± 0.04	eec1e33
AMD Radeon Pro V340	360.23 ± 0.74	47.54 ± 0.06	9da3dcd	Split across two GPUs
AMD Radeon RX 6800M	784.16 ± 2.76	49.06 ± 0.34	8e6f8bc
AMD Radeon RX Vega 64	320.12 ± 0.22	47.06 ± 0.01	ec428b0
Nvidia RTX A2000	1361.85 ± 3.26	45.69 ± 0.20	b1afcab	coopmat2
Intel Arc A770M	384.74 ± 0.78	45.68 ± 0.06	eeee367
Intel Arc A750	303.37 ± 1.44	43.96 ± 0.03	c1b1876
Nvidia GTX 1070 Ti	292.85 ± 0.23	43.42 ± 0.34	860a9e4	eGPU
Nvidia GTX 1070	330.84 ± 1.02	43.33 ± 0.06	360d653
Nvidia Tesla M40	93.35 ± 0.01	41.68 ± 0.01	b8372ee
Intel Arc Pro B50	132.48 ± 0.04	41.02 ± 0.04	7b43f55
AMD Radeon RX 470	197.26 ± 0.27	37.28 ± 0.11	3769fe6
AMD Radeon RX 480	194.52 ± 0.61	37.23 ± 0.09	0bcb40b
Apple M2 Ultra	198.83 ± 0.85	198.83 ± 0.85	dbb852b	Asahi Linux
Nvidia GTX 980	180.97 ± 0.74	34.16 ± 0.10	860a9e4
Nvidia P106-100	183.40 ± 0.34	30.79 ± 0.32	23bc779
AMD FirePro W8100	140.52 ± 0.34	29.28 ± 0.14	4536363
Nvidia Tesla P4	287.14 ± 0.29	28.37 ± 0.24	24d2ee0
Nvidia Quadro P2000	181.71 ± 0.12	23.77 ± 0.02	63f8fe0
Intel Core Ultra 200 Series	536.48 ± 1.27	23.05 ± 0.04	cea560f
AMD Ryzen AI 9 300 Series	532.59 ± 3.55	22.31 ± 0.06	N/A
AMD Ryzen 6000 Series	277.91 ± 0.37	21.15 ± 0.09	ee09828
Apple M2 Pro	58.86 ± 0.02	20.97 ± 0.03	1fe0029	Asahi Linux
AMD Ryzen 8000 Series	297.39 ± 1.22	20.59 ± 0.38	a5c07dc
AMD Ryzen 7000 Series	312.85 ± 2.51	20.09 ± 0.35	835b2b9
Nvidia GTX 1050 Ti	127.54 ± 1.03	20.08 ± 0.17	2f0c2db
AMD Radeon Pro WX 4100	75.59 ± 0.19	16.56 ± 0.04	860a9e4
Apple M1	35.93 ± 0.00	12.85 ± 0.02	2370665	Asahi Linux
Apple M2	46.81 ± 0.08	12.25 ± 2.30	8c0d6bb	Asahi Linux
AMD Ryzen 5000 Series	79.06 ± 0.01	10.75 ± 0.00	5d195f1
Intel Core 1100 Series	174.77 ± 4.47	10.58 ± 0.03	abb9f3c
Nvidia Tesla K40	64.37 ± 0.02	9.92 ± 0.06	eec1e33
AMD Ryzen 4000 Series	113.32 ± 0.01	9.87 ± 0.01	4b385bf
Nvidia Tesla K80	88.26 ± 0.19	9.49 ± 0.01	5d46bab	Running on single GPU
AMD Ryzen 5 3000 Series	47.41 ± 0.14	8.47 ± 0.01	1fe0029
Intel Core Ultra 100 Series	77.66 ± 2.75	7.75 ± 0.05	2e89f76
Intel Core 8000 Series	25.55 ± 0.04	3.35 ± 0.02	c4df49a
Intel N150	25.59 ± 0.00	2.91 ± 0.00	4f63cd7

这些表格该怎么用

如果你只是想买卡或者看手里机器大概在哪个档位，最实用的读法其实是这三步：

先看你关心的是 tg128 还是 pp512。
日常对话、写代码、聊天体感，优先看 tg128；长上下文吞吐、批处理、服务端压 prompt，更应该看 pp512。
再看你实际跑的后端。
Nvidia 通常看 CUDA 更贴近真实上限；AMD 机器更应该先对照 ROCm 和 Vulkan；跨平台兼容场景则更适合参考 Vulkan。
最后再看 FA。
很多卡开启 FA 后 pp512 会涨得更明显，但 tg128 不一定同步大涨，所以不能只看单个最高分。

一句话总结

同样是 llama.cpp 跑分，pp512、tg128、Q4_0、FA、CUDA / ROCm / Vulkan 分别代表的是完全不同的维度。把口径先分清，再看数字，榜单才有意义。

如果你只想记一个最短结论，那就是：

CUDA 目前整体最强
ROCm 在高端 AMD 卡上已经很能打
Vulkan 覆盖最广，老卡、核显、Intel Arc、Apple Asahi 都能找到可比条目
tg128 比 pp512 更接近日常真实体感

原始来源

CUDA discussion #15013: https://github.com/ggml-org/llama.cpp/discussions/15013
Apple Silicon discussion #4167: https://github.com/ggml-org/llama.cpp/discussions/4167
ROCm discussion #15021: https://github.com/ggml-org/llama.cpp/discussions/15021
Vulkan discussion #10879: https://github.com/ggml-org/llama.cpp/discussions/10879

显卡推理速度测试的常用指标具体含义：FA、pp512、tg128、Q4_0 都是什么意思

Thu, 23 Apr 2026 00:15:00 +0800

看显卡推理速度测试时，最容易把人看晕的不是分数本身，而是这些缩写：

1
2
3

CUDA Scoreboard for Llama 2 7B, Q4_0 (no FA)
pp512 t/s
tg128 t/s

下面直接按最常见的问题拆开解释。

这行标题整体是什么意思

CUDA Scoreboard for Llama 2 7B, Q4_0 (no FA) 通常包含四层信息：

CUDA：说明跑分是在 NVIDIA GPU 的 CUDA 路径上完成的
Llama 2 7B：说明测试对象是 Llama 2 的 7B 参数版本
Q4_0：说明模型用了 4-bit 量化格式
no FA：说明这次测试关闭了 Flash Attention

一句话理解：这是某个量化版模型在 NVIDIA 显卡上的推理速度测试，而且没有开启 Flash Attention。

FA 是什么：Flash Attention

FA 就是 Flash Attention，它是注意力计算的加速技术。核心作用可以直接记成三点：

更快
更省显存
在数学上和普通注意力等价，不是“牺牲精度换速度”

no FA 是什么意思

no FA 就是没开 Flash Attention。它通常出现在跑分表里，主要是为了：

做对照组，方便看出开启 FA 后到底提升了多少
兼容某些不支持 FA 的硬件或软件环境
避免不同测试项混在一起，导致数据不可比

Q4_0 是什么：量化格式

Q4_0 是一种 4-bit 量化格式，可以先这样记：

Q：Quantization，量化
4：4-bit
_0：某一种具体量化方案的标识

它的作用是：

减少模型体积
降低显存需求
让本来装不下的模型变得能跑起来

pp512 t/s 是什么意思

pp512 一般是 Prompt Processing 512 tokens，测的是输入处理速度。

pp：prompt processing
512：测试输入长度是 512 token
t/s：每秒多少 token

它测的不是模型吐字速度，而是模型“先把输入读完”的速度。这个阶段并行度高，所以数值通常会很大，比如：

`1`	`pp512 ≈ 14000 t/s`

tg128 t/s 是什么意思

tg128 一般是 Text Generation 128 tokens，测的是输出生成速度。

tg：text generation
128：测试连续生成 128 token
t/s：每秒多少 token

它更接近我们平时感受到的“模型回答快不快”。因为生成是逐 token 递推的，所以它通常会明显低于 pp512，例如：

pp512 是上万 t/s
tg128 却只有几百 t/s

为什么 pp512 和 tg128 会差这么多

核心原因就一句话：

pp512 测的是并行吞吐，tg128 测的是逐 token 生成。`

具体来说：

输入阶段更容易并行
输出阶段更依赖逐步递推
生成阶段通常更吃显存带宽和缓存效率
所以生成速度远低于输入处理速度是正常现象

t/s 到底怎么理解

t/s 就是 tokens per second。它表示模型每秒能处理或生成多少 token。

但 token 不是“字”也不是“单词”，所以 t/s 更适合做这些对比：

同模型下不同显卡对比
同环境下不同参数设置对比
同一框架里开启或关闭某个优化项前后的对比

一页记住

Q4_0：模型被压缩成了 4-bit 量化版本
FA：是不是启用了 Flash Attention 加速
pp512：处理 512 token 输入时有多快
tg128：生成 128 token 输出时有多快
t/s：速度单位，每秒多少 token

结语

看这类显卡推理速度测试时，最重要的不是只看分高不高，而是先分清：

模型和量化格式
有没有开 FA
测的是输入处理还是文本生成
单位是不是 t/s

把这几件事分清楚，绝大多数 scoreboard 都不会太难读。

Ollama 多显卡使用笔记：显存叠加、GPU 选择和常见误区

Sun, 19 Apr 2026 00:18:00 +0800

折腾 Ollama 本地推理时，经常会遇到类似问题：我现在有一张显卡，主板还有空 PCIe 槽，再加几张 GPU 对 Ollama 有帮助吗？多显卡是否必须同型号？显存能不能叠加？会不会像训练框架那样多卡并行加速？

这篇整理一下 Ollama 多显卡的实际行为。重点先说结论：

Ollama 支持多 GPU。
多 GPU 最大价值通常是让更大的模型放进总显存，而不是线性提升 token/s。
默认策略下，如果模型能完整放进某一张 GPU，Ollama 倾向于放在单卡上。
如果模型无法完整放进单张 GPU，Ollama 会把模型分布到可用 GPU 上。
不同型号 GPU 可以被 Ollama 看到并使用，但性能和分配效果不一定理想。
不需要 SLI / NVLink 才能用多卡。
想限制 Ollama 使用哪些 GPU，需要用 CUDA_VISIBLE_DEVICES、ROCR_VISIBLE_DEVICES 或 GGML_VK_VISIBLE_DEVICES。

官方行为：先单卡，放不下再多卡

Ollama FAQ 里对多 GPU 加载逻辑说得比较直接：加载新模型时，Ollama 会估算模型所需 VRAM，并和当前可用显存比较。如果模型能完整放进某一张 GPU，它会加载到那张 GPU 上；如果单张 GPU 放不下，才会分布到所有可用 GPU 上。

这个策略的原因是性能。单卡加载通常能减少推理时跨 PCIe 总线的数据传输，因此往往更快。

所以不要把 Ollama 的多 GPU 理解成“有几张卡就自动几倍加速”。更准确的理解是：

小模型能进单卡：通常单卡跑。
大模型单卡放不下：跨多卡分层加载。
显存仍不够：一部分会落到系统内存，速度会明显下降。

可以用下面命令确认模型到底加载到了哪里：

`1`	`ollama ps`

输出里的 PROCESSOR 会显示类似：

1
2
3

100% GPU
48%/52% CPU/GPU
100% CPU

如果看到 48%/52% CPU/GPU，说明已经有一部分在系统内存里了。此时多加 GPU 或换更大显存的卡，通常比继续依赖 CPU/RAM 更有意义。

多 GPU 不是简单叠算力

本地大模型推理和游戏里的 SLI 不是一回事。Ollama 多卡时，更常见的是把模型的不同层或张量放到不同设备上。这样可以用多张卡的显存装下更大的模型，但推理过程中仍然可能需要设备之间传递数据。

因此，多 GPU 带来的收益通常分两种：

显存收益：更容易装下大模型，或者避免落到 CPU/RAM。
性能收益：只有在原本单卡装不下或严重混 CPU 时，提升才会很明显。

如果一个 8B 或 14B 模型本来就能完整放进单张 3090，强行拆到两张卡不一定更快，甚至可能因为跨卡传输变慢。Ollama 官方默认“能单卡就单卡”的策略，就是为了避免这类不必要的跨 PCIe 开销。

不需要 SLI 或 NVLink

Ollama 多 GPU 不依赖 SLI。多张普通 PCIe GPU 只要驱动和 Ollama 能识别，就可以被调度。

NVLink 或更高 PCIe 带宽可能对某些跨卡场景有帮助，但它不是 Ollama 多 GPU 的前提条件。很多二手 GPU 服务器或工作站，靠普通 PCIe 多卡也能跑。

真正要注意的是 PCIe 带宽。x1、x4、x8、x16 的差异会影响模型加载到显存的速度；如果频繁切换大模型，PCIe 链路会更容易成为瓶颈。模型加载完成后，生成阶段受 PCIe 的影响通常会小一些，但跨卡分层仍然可能带来额外开销。

比较稳的建议是：

能用 x16 / x8 就不要用矿卡 x1 转接。
大模型频繁切换时，PCIe 带宽更重要。
如果模型长期常驻显存，PCIe 带宽瓶颈会相对不明显。
多卡机器要重点看主板 PCIe 拓扑和 CPU 直连通道。

如何限制 Ollama 使用哪些 NVIDIA GPU

NVIDIA 多卡环境下，用 CUDA_VISIBLE_DEVICES 控制 Ollama 能看到哪些卡。

临时运行：

`1`	`CUDA_VISIBLE_DEVICES=0,1 ollama serve`

只让 Ollama 用第二张卡：

`1`	`CUDA_VISIBLE_DEVICES=1 ollama serve`

强制不用 NVIDIA GPU，可以给一个无效 ID：

`1`	`CUDA_VISIBLE_DEVICES=-1 ollama serve`

官方文档提醒，数字 ID 的顺序可能变化，更可靠的是用 GPU UUID。先查看 UUID：

`1`	`nvidia-smi -L`

输出类似：

1
2

GPU 0: NVIDIA GeForce RTX 3090 (UUID: GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx)
GPU 1: NVIDIA GeForce RTX 3070 (UUID: GPU-yyyyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy)

然后指定 UUID：

`1`	`CUDA_VISIBLE_DEVICES=GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx ollama serve`

如果 Ollama 是 Linux systemd 服务安装的，需要写到服务环境变量里：

`1`	`sudo systemctl edit ollama.service`

加入：

1
2

[Service]
Environment="CUDA_VISIBLE_DEVICES=0,1"

然后重载并重启：

1
2

sudo systemctl daemon-reload
sudo systemctl restart ollama

AMD 和 Vulkan 的选择变量

AMD ROCm 环境下，用 ROCR_VISIBLE_DEVICES 控制可见 GPU：

`1`	`ROCR_VISIBLE_DEVICES=0,1 ollama serve`

如果要强制不用 ROCm GPU，也可以用无效 ID：

`1`	`ROCR_VISIBLE_DEVICES=-1 ollama serve`

Ollama 官方 GPU 文档还提到，如果用实验性的 Vulkan 支持，可以通过 GGML_VK_VISIBLE_DEVICES 选择 Vulkan GPU：

`1`	`OLLAMA_VULKAN=1 GGML_VK_VISIBLE_DEVICES=0 ollama serve`

如果 Vulkan 设备有问题，可以禁用：

`1`	`GGML_VK_VISIBLE_DEVICES=-1 ollama serve`

AMD 多卡比 NVIDIA 更容易遇到驱动、ROCm 版本、GFX 版本支持的问题。官方文档中也提到 Linux 下 ROCm 驱动版本、HSA_OVERRIDE_GFX_VERSION 等兼容性处理。多张不同代 AMD 卡混用时，先确认每张卡是否单独可用，再考虑多卡。

Docker 里怎么暴露多张 GPU

如果用 Docker 跑 Ollama，NVIDIA 环境通常需要先安装 nvidia-container-toolkit，然后用 --gpus 暴露设备。

暴露全部 GPU：

docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

只暴露指定 GPU：

docker run -d \
  --gpus '"device=0,1"' \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

也可以结合环境变量：

docker run -d \
  --gpus=all \
  -e CUDA_VISIBLE_DEVICES=0,1 \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

如果容器里 nvidia-smi 看不到卡，Ollama 也不可能用到 GPU。先排查 Docker GPU passthrough，再排查 Ollama。

`OLLAMA_SCHED_SPREAD` 是什么

在一些多 GPU 配置讨论里，会看到 OLLAMA_SCHED_SPREAD=1 或 OLLAMA_SCHED_SPREAD=true。它和 Ollama 的调度策略有关，常被用于希望模型或请求更分散地利用多张 GPU 的场景。

可以这样设置：

`1`	`OLLAMA_SCHED_SPREAD=1 ollama serve`

或者 systemd：

1
2

[Service]
Environment="OLLAMA_SCHED_SPREAD=true"

不过它不是万能开关。开启后并不等于 token/s 线性增长，也可能因为多个模型同时加载、显存估算、上下文长度和 KV cache 增长导致 OOM。官方 FAQ 的核心策略仍然是：如果单 GPU 能完整容纳模型，单 GPU 通常更高效；单 GPU 放不下时才跨多 GPU。

所以建议把 OLLAMA_SCHED_SPREAD 当成高级调度实验项，而不是多卡必开项。先理解默认行为，再根据实际 ollama ps、日志和 nvidia-smi 观察结果调整。

怎么观察多卡是否真的用上

常用观察命令：

`1`	`ollama ps`

`1`	`watch -n 0.5 nvidia-smi`

查看 Ollama 服务日志：

`1`	`journalctl -u ollama -f`

如果使用 Docker：

`1`	`docker logs -f ollama`

你需要关注：

Ollama 是否发现兼容 GPU。
模型是否显示 100% GPU 或 CPU/GPU 混合。
每张卡显存是否有占用。
加载模型时是否多卡显存同时增长。
生成时 token/s 是否比 CPU/RAM 混跑明显改善。
是否频繁 OOM 或卸载模型。

如果只看 GPU 利用率，很容易误判。LLM 推理时 GPU 利用率不一定长期满载，尤其是多卡、低 batch、小上下文、慢 CPU 或慢 PCIe 环境下。

常见误区

误区 1：两张 12GB 显卡等于一张 24GB 显卡

不完全等价。多卡可以让模型跨设备放置，但跨卡访问有额外开销。它能解决“放不下”的问题，不一定等价于单张大显存卡的速度和稳定性。

误区 2：不同型号显卡不能混用

不一定。只要驱动、计算能力和运行库都支持，Ollama 可以看到多张 GPU。但混用时，速度通常受较慢卡、较小显存和 PCIe 拓扑影响。最稳的多卡配置仍然是同型号、同显存、同代驱动支持良好的卡。

误区 3：多卡一定比单卡快

不一定。如果模型能完整放进单张快卡，单卡可能更快。多卡主要适合大模型、长上下文、单卡显存不够的情况。

误区 4：必须有 NVLink / SLI

不需要。普通 PCIe 多卡也能被 Ollama 使用。NVLink 不是前提。

误区 5：加 GPU 后不用重启服务

不一定。Linux systemd 服务、Windows 后台应用、Docker 容器都可能需要重启，才能重新识别设备和环境变量。

选卡建议

如果目标是 Ollama 本地推理，优先级大致是：

单卡显存越大越省心。
同型号多卡比混合多卡更容易排错。
PCIe 通道越完整，加载大模型越舒服。
老卡要先确认 CUDA compute capability 或 ROCm 支持。
多卡电源、散热和机箱风道要提前算清楚。

对于预算有限的二手平台：

双 3090 仍然是很常见的大显存方案。
P40 / M40 这类老 Tesla 显存大，但功耗、散热、驱动和性能都要权衡。
4070 / 4070 Ti 这类新卡能效好，但单卡显存容量限制更明显。
多张 8GB 老卡能折腾，但不建议为了大模型长期使用。

小结

Ollama 多显卡支持可以理解成“显存扩展优先，性能加速其次”。如果模型能完整放进一张 GPU，默认单卡通常更快；如果单卡放不下，多卡可以把模型分布到多张 GPU 上，避免大量落到 CPU/RAM，从而让大模型变得可用。

实际配置时，先用 ollama ps 看模型加载位置，再用 nvidia-smi 或 ROCm 工具观察显存占用。需要限制 GPU 时，NVIDIA 用 CUDA_VISIBLE_DEVICES，AMD ROCm 用 ROCR_VISIBLE_DEVICES，Vulkan 用 GGML_VK_VISIBLE_DEVICES。如果在 Docker 中运行，先确保容器层面能看到 GPU。

多卡不是魔法。它能帮你装下更大的模型，但不保证线性加速。真正稳定好用的路线，仍然是尽量选大显存单卡或同型号多卡，并把驱动、PCIe、电源、散热和模型量化一起考虑。

参考链接

Ollama FAQ：How does Ollama load models on multiple GPUs?：https://github.com/ollama/ollama/blob/main/docs/faq.mdx
Ollama GPU 文档：Hardware support / GPU Selection：https://github.com/ollama/ollama/blob/main/docs/gpu.mdx
Ollama Docker Hub：https://hub.docker.com/r/ollama/ollama
NVIDIA Container Toolkit：https://github.com/NVIDIA/nvidia-container-toolkit

CUDA on KnightLi的博客

Ubuntu 26.04 LTS 的 GPU 与硬件支持更新：CUDA、ROCm、DPC++ 和更多平台变化

1. Intel DPC++ 与相关组件进入 Ubuntu Archive

2. NVIDIA CUDA toolkit 现在也能直接 apt install

3. AMD ROCm 7.1.0 进入 Universe

4. 这一轮的重点，其实是三家 GPU 生态都在落地

5. NVIDIA Dynamic Boost 默认启用

6. Intel 新一代核显和独显支持继续往前走

7. Nvidia 桌面机的挂起恢复也更稳了

8. ARM、树莓派、RISC-V 和 IBM Z 也有硬门槛变化

ARM64 桌面平台

Raspberry Pi 新启动布局

Raspberry Pi 桌面镜像转向 desktop-minimal

树莓派 swap 交给 cloud-init

RISC-V 门槛上调

IBM Z 最低要求提升到 z15

9. 这篇内容更适合哪些人先看

10. 一句话总结

NVIDIA nvbandwidth 是什么：GPU 带宽测试工具怎么用

1. nvbandwidth 是做什么的

2. 它测的不是一个单点数字

3. CE 和 SM 两类拷贝怎么理解

4. 运行它需要什么环境

5. 单机版怎么编译和运行

6. 多节点支持是它比较特别的地方

7. 新版 v0.9 更新了什么

8. 什么时候适合用它

9. 可以怎么理解它的价值

相关链接

llama.cpp ollama 显卡性能天梯：CUDA、ROCm、Vulkan

先看懂这些参数

Q4_0 是什么

pp512 是什么

tg128 是什么

FA 是什么

t/s 怎么看

先说结论

CUDA 完整榜单

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

Apple Silicon 参考口径

ROCm / HIP 完整榜单

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

Vulkan 完整榜单

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, FA enabled

这些表格该怎么用

一句话总结

原始来源

显卡推理速度测试的常用指标具体含义：FA、pp512、tg128、Q4_0 都是什么意思

这行标题整体是什么意思

FA 是什么：Flash Attention

no FA 是什么意思

Q4_0 是什么：量化格式

pp512 t/s 是什么意思

tg128 t/s 是什么意思

为什么 pp512 和 tg128 会差这么多

t/s 到底怎么理解

一页记住

结语

Ollama 多显卡使用笔记：显存叠加、GPU 选择和常见误区

官方行为：先单卡，放不下再多卡

多 GPU 不是简单叠算力

不需要 SLI 或 NVLink

如何限制 Ollama 使用哪些 NVIDIA GPU

AMD 和 Vulkan 的选择变量

Docker 里怎么暴露多张 GPU

OLLAMA_SCHED_SPREAD 是什么

怎么观察多卡是否真的用上

常见误区

误区 1：两张 12GB 显卡等于一张 24GB 显卡

误区 2：不同型号显卡不能混用

误区 3：多卡一定比单卡快

误区 4：必须有 NVLink / SLI

误区 5：加 GPU 后不用重启服务

选卡建议

小结

参考链接

2. NVIDIA CUDA toolkit 现在也能直接 `apt install`

1. `nvbandwidth` 是做什么的

3. `CE` 和 `SM` 两类拷贝怎么理解

7. 新版 `v0.9` 更新了什么

`Q4_0` 是什么

`pp512` 是什么

`tg128` 是什么

`FA` 是什么

`t/s` 怎么看

`OLLAMA_SCHED_SPREAD` 是什么