GPU on KnightLi的博客

Ubuntu 26.04 LTS 的 GPU 与硬件支持更新：CUDA、ROCm、DPC++ 和更多平台变化

Sun, 26 Apr 2026 19:35:57 +0800

如果上一篇更像是 Ubuntu 26.04 LTS 的桌面总览，那这篇可以看作是它的硬件和算力补充版。官方在 26.04 这一轮里，把不少和 AI、GPU 计算、平台兼容性直接相关的内容都推进了主仓库或正式支持范围里。

先说结论：这次最值得关注的，不只是桌面和内核升级，而是 Ubuntu 正在把 Intel、NVIDIA、AMD 三家的 GPU 计算栈都更系统地纳入发行版生态。

1. Intel DPC++ 与相关组件进入 Ubuntu Archive

从 26.04 开始，Intel 开源的 oneAPI DPC++ 编译器已经可以直接从 Ubuntu Archive 获取，用来构建 SYCL 代码。运行时里也包含了面向 Intel GPU 的适配器。

同时进入 Ubuntu 仓库的，还有两个相关组件：

oneDPL，也就是 DPC++ library，提供更高生产力的开发接口
oneDNN，并且是基于 dpclang-6 构建，可在 Intel GPU 上运行

这意味着，如果你本身就在看 SYCL、异构计算或者 Intel GPU 上的 AI 工作负载，Ubuntu 现在给出的路径更直接了，不用再完全依赖单独维护的一套外部环境。

官方还特别提醒了一点：如果要实际调用这些 Intel GPU 相关能力，用户需要在 render 组里。

2. NVIDIA CUDA toolkit 现在也能直接 `apt install`

对很多开发者和运维来说，这可能是这份更新里最实用的一条。

从 26.04 开始，NVIDIA CUDA toolkit 已经可以直接通过 Ubuntu Archive 安装。命令就是：

`1`	`sudo apt install cuda-toolkit`

这背后的意义，不只是“少输几条命令”。

对面向 Ubuntu 分发软件的开发者来说，新的模式意味着可以直接声明对 CUDA runtime 的依赖，后续安装与兼容性由 Ubuntu 在发行版层面处理。这会让 CUDA 在 Ubuntu 上的可获得性更高，也更接近系统原生能力，而不是额外叠一层单独维护的外部软件栈。

3. AMD ROCm 7.1.0 进入 Universe

AMD 这边，Ubuntu Universe 里现在已经包含 ROCm 7.1.0。

这套库主要提供的是：

面向 AMD GPU 的 AI 训练与推理后端能力
机器学习与高性能计算相关的软件基础设施

官方还提到，Canonical 在自己的 CI/CD 流程里会持续测试 ROCm 相关组件，除了 autopkgtests，还覆盖了一些用户态应用，包括：

llama.cpp
pytorch
Blender
Lemonade Server

这条信息其实很关键，因为它说明 Ubuntu 不是单纯“把包放进仓库”，而是在按一个可维护的软件栈去验证它。

4. 这一轮的重点，其实是三家 GPU 生态都在落地

把 DPC++、CUDA 和 ROCm 放在一起看，会更容易理解 26.04 的方向：

Intel：推进 SYCL / oneAPI 相关能力进入官方仓库
NVIDIA：让 CUDA toolkit 具备发行版级的安装路径
AMD：把 ROCm 7.1.0 纳入 Universe，并做持续测试

如果你平时会在 Ubuntu 上碰这些场景，这一轮更新会比较有感：

本地大模型推理
GPU 加速训练或微调
Blender、科学计算、HPC
需要在多种 GPU 平台之间切换的开发环境

换句话说，Ubuntu 现在不只是“能装显卡驱动”，而是开始更完整地承接 AI 和 GPU 计算所需的用户态软件栈。

5. NVIDIA Dynamic Boost 默认启用

从 25.04 开始，支持的 NVIDIA 笔记本已经默认启用 Dynamic Boost。

这个功能的逻辑很直接：系统会根据当前负载，在 CPU 和 GPU 之间动态分配功耗。对游戏场景来说，常见收益就是在需要的时候把更多功率给 GPU，以换取更高性能。

不过它有两个前提：

设备接着交流电
GPU 负载足够高

在电池供电状态下，它不会介入。

6. Intel 新一代核显和独显支持继续往前走

Ubuntu 这一轮也把对新 Intel GPU 的支持继续往前推，重点包括：

集成显卡：

Intel Core Ultra Xe2
Intel Core Ultra Xe3

独立显卡：

Intel Arc 5 B570
Intel Arc 5 B580
Intel Arc Pro B50
Intel Arc Pro B60
Intel Arc Pro B65
Intel Arc Pro B70

围绕这批设备，官方还列出了一些已经到位的特性：

基于 Intel Embree 的 GPU 和 CPU 光线追踪渲染性能提升，像 Blender 4.2+ 这类应用可受益
“Battlemage” 设备支持 AVC、JPEG、HEVC 和 AV1 的硬件视频编码
Intel Compute Runtime 引入新的 CCS 优化
Intel Xe GPU 调试支持已启用

如果你更关注后续版本，25.10 还会继续把一些新能力带进来，例如：

借助 Linux kernel 6.17 初步支持代号 Panther Lake 的下一代 Intel 客户端平台
改进 IOMMU、PCIe 子系统和多 GPU 支持
Mesa 25.2.3 为 Battlemage 和 Panther Lake 打开 VK_KHR_shader_bfloat16
intel-media-driver 25.3.0 增加 Panther Lake 解码和 VP9 编码支持
intel-compute-runtime 25.31 调整 Level Zero 的 USM 池和本地显存事件分配策略
level-zero 1.24 与 level-zero-raytracing 1.1.0 带来更完整的规范与 RTAS 扩展支持

7. Nvidia 桌面机的挂起恢复也更稳了

从 25.10 开始，Ubuntu 在专有 Nvidia 驱动里启用了挂起恢复支持，以减少桌面机唤醒后的损坏和卡死问题。

这类改动不算“看得见的新功能”，但对实际日用稳定性很重要，尤其是长期开机、经常挂起恢复的桌面环境。

8. ARM、树莓派、RISC-V 和 IBM Z 也有硬门槛变化

除了 GPU 软件栈，这份发布说明里还有几条平台层面的变化很值得单独记一下。

ARM64 桌面平台

从 25.10 开始，linux-generic 的 ARM64 内核会提供更广泛的桌面兼容性，覆盖那些使用 UEFI 启动的 ARM64 桌面平台。

Raspberry Pi 新启动布局

25.10 引入、26.04 继续调整的一个变化，是树莓派启动分区的新布局。

它的目标是提升启动可靠性：新写入的启动资源会先被“测试”，确认没问题后才会提交为新的 “known good” 集合。

这里最需要注意的是固件时间要求：

Pi 3 / 3+ / CM3+ / Zero 2W：不需要额外操作，固件在镜像内
Pi 4 / 400 / CM4：启动固件日期不得早于 2022-11-25
Pi 5 / 500 / CM5：启动固件日期不得早于 2025-02-11

检查命令是：

`1`	`sudo rpi-eeprom-update`

如果固件太旧，并且你使用的是 Ubuntu 24.04 LTS 或更新版本，可以这样更新：

1
2

sudo rpi-eeprom-update -a
sudo reboot

Raspberry Pi 桌面镜像转向 desktop-minimal

从 25.10 开始，树莓派版 Ubuntu Desktop 镜像改为基于 desktop-minimal，而不是完整的 desktop seed。

官方给出的收益很明确：默认预装应用更少，未压缩镜像和实际系统都能节省大约 777MB 空间。

如果升级后想批量移除这批默认应用，可以使用：

`1`	`sudo apt purge ubuntu-desktop --autoremove`

如果你想保留其中某些应用，先用 apt 把它们标记为手动安装即可。

树莓派 swap 交给 cloud-init

从 25.10 开始，树莓派桌面镜像里的 swap 文件创建改由 cloud-init 负责。
如果你想在首次启动前自定义 swap 大小，可以直接修改启动分区上的 user-data。

RISC-V 门槛上调

从 25.10 开始，Ubuntu 26.04 LTS 的 RISC-V 版本要求硬件实现 RVA23S64 ISA profile。

不满足这个要求的设备，已经不能运行 Ubuntu 26.04 LTS。如果你手里还是较早的 RVA20 处理器板卡，那还得继续留在 Ubuntu 24.04 LTS 这一代支持线上。

按照官方说明，截至 2026 年 4 月，现实里还没有可用的 RVA23S64 硬件，因此当前唯一受支持的平台，其实是基于 QEMU 并使用 -cpu rva23s64 配置的虚拟化环境。

IBM Z 最低要求提升到 z15

从 26.04 开始，s390x 架构最低要求提升到 z15。

这意味着：

z14 / LinuxONE II 以及更早平台，已经不能安装 Ubuntu 26.04 LTS
z15 / LinuxONE III 及更新平台，会得到更好的性能表现

9. 这篇内容更适合哪些人先看

如果你属于下面这些场景，这篇比桌面总览更值得优先看：

在 Ubuntu 上做 CUDA、ROCm、SYCL 或本地 AI 推理
用 Intel、NVIDIA、AMD GPU 做开发或计算任务
维护 Raspberry Pi、ARM64、RISC-V、IBM Z 等非标准 x86 平台
对升级后的驱动、运行时、仓库可用性和平台门槛更敏感

10. 一句话总结

Ubuntu 26.04 LTS 在硬件和 AI 软件栈上的重点，不是某一家显卡单独增强了什么，而是 Intel 的 DPC++、NVIDIA 的 CUDA、AMD 的 ROCm 都开始以更官方、更多仓库内、也更可维护的方式进入 Ubuntu 生态。

如果你过去把 Ubuntu 当作“先装系统，再自己拼 GPU 环境”的底座，那从 26.04 开始，它已经更像一个愿意主动承接 AI 与异构计算工作负载的发行版了。

解决 Ollama 使用 CPU 而不使用 GPU 运算的问题

Fri, 24 Apr 2026 18:30:00 +0800

本地跑大模型时，最让人困惑的一类问题就是：机器明明有显卡，Ollama 却还是主要吃 CPU，速度也慢得离谱。

先说结论，这类问题通常不是单一原因。最常见的几类分别是：

Ollama 根本没有识别到可用 GPU
驱动、ROCm 或 CUDA 环境没装对
Ollama 服务启动时没有继承正确环境变量
模型太大，实际已经退回到 CPU 或 CPU/GPU 混合加载
AMD 平台存在额外兼容性问题，比如 ROCm 版本、gfx 代号或设备可见性设置不对

下面按最省时间的顺序排查。

1. 先确认是不是“真的没用 GPU”

最直接的方法是看：

`1`	`ollama ps`

重点看 PROCESSOR 一列。

100% GPU：说明模型完整跑在显卡上
100% CPU：说明完全没用上显卡
48%/52% CPU/GPU 这类结果：说明模型部分进显存、部分落到系统内存

如果你看到的是 100% CPU，后面就该重点查环境和服务配置。
如果看到的是混合加载，那不一定是“显卡没生效”，更可能是显存不够。

2. 先排除最常见的误区：模型装不进显存

很多人以为只要装了 GPU，Ollama 就一定会全显卡推理。实际上不是。

如果模型太大、上下文太长，或者机器上已经有别的模型占着显存，Ollama 很可能会退回到：

部分 GPU + 部分 CPU
直接 100% CPU

这时候可以先做两个最简单的验证：

换一个更小的模型测试
比如先用 4B、7B 这类小模型，而不是一上来就跑更大的参数量。
卸载其他已加载模型后再试
先看 ollama ps，确认没有别的模型占着显存。

如果小模型能上 GPU，大模型不行，问题往往就不在驱动，而在显存容量。

3. 检查显卡驱动和底层环境是不是可用

如果连小模型都只能跑 CPU，下一步就该看底层环境。

NVIDIA 方向

先确认驱动正常，系统能看到显卡。常见检查方式包括：

`1`	`nvidia-smi`

如果这里都报错，Ollama 基本不可能正常使用 GPU。

AMD / ROCm 方向

如果你是 AMD GPU，尤其是 ROCm 环境，重点先看：

1
2

rocminfo
rocm-smi

如果这些工具都不能正常列出设备，说明问题还在 Ollama 之前，先不要继续折腾应用层。

对 AMD 来说，最常见的问题不是“有没有装驱动”，而是：

ROCm 版本和系统版本不匹配
当前 GPU 架构支持不完整
设备虽然存在，但运行环境没有正确暴露给 Ollama

4. 重启 Ollama 服务，不要只重开终端

这是非常高频的坑。

很多人装完驱动、改完环境变量、补完 ROCm 之后，只是重新开了一个终端，然后直接继续 ollama run。但如果 Ollama 是以后台服务方式运行，它很可能还在用旧环境。

所以更稳的做法是：

完整重启 Ollama 服务
必要时直接重启系统

如果你是在 Linux 上以服务方式运行，通常要确认服务进程已经重新拉起，而不是沿用之前的旧进程。

5. 检查服务环境变量有没有真正传进去

这一步在 AMD ROCm 环境尤其重要。

有些机器在终端里手动执行命令没问题，但 Ollama 服务还是只跑 CPU，原因是服务进程没有拿到你在 shell 里设置的变量。

常见需要关注的变量包括：

1
2

ROCR_VISIBLE_DEVICES
HSA_OVERRIDE_GFX_VERSION

其中：

ROCR_VISIBLE_DEVICES 用来限制或指定 ROCm 能看到哪些 GPU
HSA_OVERRIDE_GFX_VERSION 常见于某些 AMD 平台兼容性处理

如果你只是在当前终端里临时 export 了变量，但 Ollama 是 systemd、桌面后台服务或其他守护进程启动的，这些变量未必会生效。

也就是说，终端里“看起来已经设置好了”，不代表 Ollama 真的拿到了。

6. AMD 平台重点看 ROCm 兼容性

从公开页面信息看，这个问题对应的视频主题本身就落在 AMD Max+ 395、strix halo、AMD ROCm 这条线上。
这类环境里，Ollama 不走 GPU，往往比 NVIDIA 平台更依赖版本匹配。

可以优先排查下面几项：

ROCm 版本是否适合当前系统和当前显卡
当前 GPU 是否属于 ROCm 支持较好的架构范围
是否需要补 HSA_OVERRIDE_GFX_VERSION
是否是旧版 Ollama 或旧版底层推理库导致兼容问题

如果你已经确认 rocminfo 正常、GPU 也能被系统识别，但 Ollama 仍然只跑 CPU，那大概率要回到版本组合上重新检查，而不是继续盲目调模型参数。

7. Docker、WSL 或远程环境要额外检查设备映射

如果你不是直接在裸机跑，而是在下面这些环境里运行：

Docker
WSL
远程容器
虚拟化环境

那还要多看一层：GPU 设备有没有真正暴露进去。

典型现象是：

宿主机能看到 GPU
容器里 Ollama 却只能跑 CPU

这时要先确认不是 Ollama 本身的问题，而是容器或子系统根本没拿到 GPU 访问权限。

8. 最后再看日志，而不是一开始就瞎猜

如果前面都查过了，最有效的做法不是继续反复重装，而是直接看 Ollama 启动日志和运行日志。

重点看两类信息：

有没有识别到 GPU
有没有出现驱动、库加载、设备初始化失败之类的报错

只要日志里明确出现类似“未找到兼容 GPU”或“初始化 ROCm/CUDA 失败”，排查方向就会立刻清晰很多。

排查顺序

如果你只想记最短路径，可以按这个顺序来：

ollama ps 看现在到底是 GPU、CPU 还是混合加载
换一个更小的模型，排除显存不够
用 nvidia-smi、rocminfo、rocm-smi 先确认底层环境正常
完整重启 Ollama 服务
检查服务环境变量，尤其是 AMD 的 ROCR_VISIBLE_DEVICES、HSA_OVERRIDE_GFX_VERSION
如果是 Docker / WSL，再检查设备映射
最后看日志定位具体报错

NVIDIA nvbandwidth 是什么：GPU 带宽测试工具怎么用

Fri, 24 Apr 2026 14:41:35 +0800

如果你最近在排查多张 NVIDIA GPU 之间的互联性能，或者想确认 PCIe、NVLink、主机内存到显存之间的实际带宽，NVIDIA/nvbandwidth 是一个很值得知道的小工具。

它不是通用跑分软件，也不是大模型框架里的隐藏命令，而是 NVIDIA 开源出来、专门用于测量 GPU 相关内存拷贝带宽与延迟的工具。相比只看理论带宽，nvbandwidth 更适合回答一个实际问题：这台机器当前这组 GPU 和互联链路，真实能跑到多少带宽。

1. `nvbandwidth` 是做什么的

从官方 README 的定位看，nvbandwidth 是一个用于测量 NVIDIA GPU 带宽的命令行工具。

它重点关注的是各种 memcpy 模式下的传输表现，例如：

GPU -> GPU
CPU -> GPU
GPU -> CPU
多节点 GPU 之间的传输

这类测试对下面几种场景尤其有用：

排查多卡训练或推理时的互联瓶颈
验证 NVLink、PCIe、C2C 等链路的实际表现
对比不同服务器、不同拓扑、不同驱动或 CUDA 版本下的传输差异
做集群部署前的基础硬件验收

简单说，nvbandwidth 看的不是模型吞吐，而是更底层的“数据搬运能力”。

2. 它测的不是一个单点数字

很多人会把“带宽测试”理解成最后只得到一个分数，但 nvbandwidth 实际输出的信息更细。

它会按测试类型给出矩阵结果。比如在 device_to_device_memcpy_write_ce 这类测试里，输出会按 GPU 行列展示每一对设备之间的带宽。这样你不只知道“这台机器大概有多快”，还可以看出：

哪两张卡之间速度特别高
哪些卡之间明显受限于 PCIe
某些 GPU 对之间是否存在异常低带宽
多卡拓扑是否和预期一致

如果你在看八卡服务器、双路平台或者跨节点系统，这类矩阵结果会比单一平均值更有参考意义。

3. `CE` 和 `SM` 两类拷贝怎么理解

官方文档里把测试分成两类：

CE：基于 memcpy API 的 copy engine 拷贝
SM：基于 kernel 的拷贝

这两类结果不一定完全相同，因为它们代表的是不同拷贝路径。
如果你只是想看设备之间常规数据搬运的表现，通常会先关注 CE；如果你要研究更细的执行路径，再继续看 SM 会更合适。

此外，README 也说明了带宽结果默认取多次测试的中位数；新版还补充了统计波动信息，这对判断结果是否稳定会更有帮助。

4. 运行它需要什么环境

nvbandwidth 不是一个“下载即用”的纯二进制小工具，它需要标准的 CUDA 开发环境。

官方 README 当前给出的基本要求包括：

CUDA Toolkit 11.x 或更高版本
支持 C++17 的编译器
CMake 3.20+，更推荐 3.24+
Boost program_options
可用的 CUDA 设备与兼容驱动

如果你要跑多节点版本，要求会更高。当前 README 明确写到：

多节点构建需要 CUDA Toolkit 12.3
驱动需要 550 或更高
需要 MPI
需要配置 nvidia-imex 服务

所以它更像面向 Linux GPU 服务器和集群环境的工程工具，而不是给普通桌面用户随手装着玩的。

5. 单机版怎么编译和运行

单机版构建流程很直接：

1
2

cmake .
make

在 Ubuntu / Debian 上，官方还提供了一个 debian_install.sh 脚本，用来安装通用依赖并构建项目。

编译完成后，可以先看帮助：

`1`	`./nvbandwidth -h`

几个比较常用的参数包括：

-l：列出可用测试
-t：按测试名或索引运行指定测试
-p：按前缀批量运行测试
-b：设置 memcpy buffer 大小，默认 512 MiB
-i：设置测试迭代次数
-j：输出 JSON
-H：启用 huge pages 的主机内存分配

如果只是想先跑一轮默认测试，直接执行：

`1`	`./nvbandwidth`

如果只想测一个具体项目，例如某个设备到设备的拷贝：

`1`	`./nvbandwidth -t device_to_device_memcpy_read_ce`

6. 多节点支持是它比较特别的地方

nvbandwidth 不只是单机多卡测试工具，它还支持多节点场景。

从 README 看，多节点版本的构建方式是：

1
2

cmake -DMULTINODE=1 .
make

运行时通常要配合 mpirun，并按“每张 GPU 一个进程”的方式启动。
官方文档还要求所有参与测试的 rank 处在同一个 multinode clique 内，并建议在 MPI 环境里主要运行带 multinode 前缀的测试。

这一点说明它的定位明显偏向高性能计算和大规模 GPU 系统，而不只是工作站自测。

如果你手上是 NVLink 多节点部署、GB200/Grace Hopper 一类更复杂的系统，nvbandwidth 的价值会比普通消费级显卡环境大很多。

7. 新版 `v0.9` 更新了什么

截至 2026 年 4 月 24 日，GitHub Releases 页面显示 nvbandwidth 的最新版本是 v0.9，发布时间是 2026 年 4 月 8 日。

这版比较值得注意的更新主要有：

为带宽输出增加波动统计信息
增加 host memory huge pages 支持（Windows 不启用）
为设备到设备测试增加 pair sampling 选项
补充 troubleshooting guide
统一单机与多节点执行路径

另外还有两点工程层面的变化也很实用：

改进 CUDA 架构检测，减少对实际 GPU 访问的依赖
对 CUDA Toolkit 13.0+ 场景弃用 Volta（sm_70 / sm_72）支持

如果你之前只看过旧版资料，现在再回来看，v0.9 已经不只是“测一下带宽”的初始版本，而是朝着更适合自动化、排障和大规模系统测试的方向继续推进了。

8. 什么时候适合用它

nvbandwidth 最适合下面这些情况：

你想确认多张 NVIDIA GPU 之间的真实互联带宽
你怀疑某张卡被插在了受限的 PCIe 槽位
你想比较 NVLink 和非 NVLink 路径的差异
你在做多节点 GPU 集群部署，需要验证链路是否正常
你想把测试结果接进自动化流程，输出 JSON

但如果你的目标只是看“训练快不快”或“推理 tokens/s 有多少”，那它不是直接答案。
这时你还需要配合训练框架、推理引擎或具体 workload 的实测一起看。

9. 可以怎么理解它的价值

很多 GPU 性能问题，本质都不是“算力不够”，而是数据没搬好。

比如：

GPU 之间没有走到预期链路
跨 NUMA 节点访问导致速度下降
某些卡对之间带宽异常
跨节点通信配置不完整

这类问题如果只看 nvidia-smi、只看模型吞吐，往往不容易定位。
而 nvbandwidth 这种更底层、矩阵化的测试工具，恰好能把“链路层发生了什么”暴露出来。

所以你可以把它理解成：给 NVIDIA GPU 系统做带宽体检的命令行工具。

如何检查 Tesla V100 是否存在 ECC 错误

Thu, 23 Apr 2026 11:50:21 +0800

如果你手上有一张 Tesla V100，想先做最基础的健康检查，ECC 状态是很值得优先看的项目。

最直接的方法就是用 nvidia-smi 查看显卡详细信息。

1
2
3

nvidia-smi -q
# 查询第 0 块 GPU
nvidia-smi -q -i 0

重点看 ECC Errors 这一段。

一张状态正常的卡，ECC Errors 下面常见的 4 段统计都应该是 0 或 N/A。如果这里已经出现非零值，就说明这张卡曾经出现过对应类型的 ECC 异常，需要继续判断是否适合继续使用。

参考输出如下：

nvidia-smi -q
    ECC Mode
        Current                          : Enabled
        Pending                          : Enabled
    ECC Errors
        Volatile
            Single Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : N/A
                Total                    : 0
            Double Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : 0
                Total                    : 0
        Aggregate
            Single Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : N/A
                Total                    : 0
            Double Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : 0
                Total                    : 0
    Retired Pages

可以简单这样理解：

Volatile 是本次上电周期内的错误统计
Aggregate 是累计错误统计
Single Bit 是可纠正错误
Double Bit 是不可纠正错误，风险更高

如果你只是想做快速筛查，先记住一个实用标准：

大部分项目应为 0
某些不适用项目显示 N/A 也正常
如果 Double Bit 或总数不是 0，就不要只看卖家口头描述，最好继续做更完整的压力测试和稳定性验证

这一步不能代替完整验卡，但足够作为 V100 到手后的第一轮排查。

特斯拉 V100 现在还能买吗：选购、ECC 检查、散热改造与 DIY 避坑

Thu, 23 Apr 2026 10:58:03 +0800

如果你最近在看二手 Tesla V100，很容易碰到两种声音：

一种说它现在依然能打，性价比很高
另一种说这类卡水很深，DIY 玩家一不小心就会翻车

这两种说法其实都对。

V100 不是不能买，而是不能按普通消费级显卡的思路去买。你要看的重点，不只是能不能点亮，也不只是卖家口中的“全新”“原厂拆机”，而是这张卡有没有被动过手脚、ECC 状态怎么样、散热和供电方案是不是靠谱。

这篇文章提炼出几条对实际买卡和上机最有帮助的判断标准。

先说结论

如果你只想看最短版，可以先记住下面这几条：

V100 大致是从 2017 年生产到 2021 年停产，16G 版本里 2021 年卡并不多见
光看“全零 ECC”“原厂拆机”都不够，很多关键数据和外观状态都有可能被做过手脚
真正危险的，往往不是买到一张老卡，而是买到一张被拆过、刷过、散热方案有硬伤的卡
对 DIY 玩家来说，V100 最大的坑不是核心本身，而是转接板、供电、热点温度和底板散热

一、先看年份和批次，对不上就要警惕

一个很实用的判断思路是：先看芯片年份，再看周边器件年份是否对得上。例如芯片表面出现 1828，通常可以理解为：

18 代表 2018 年
28 代表第 28 周

也就是说，这是一颗 2018 年第 28 周生产的芯片。

除了芯片本体，周边电感上往往也能看到对应年份标记。如果芯片年份和电感年份相差非常大，比如：

芯片是 2017
电感却是 2020

那就需要提高警惕。这不一定百分之百说明有问题，但至少说明它不再是那种“原始状态非常完整”的卡。

相反，如果年份大体能对应上，比如：

2018 芯片对应 2018 年周边料件
2019 年末芯片配到 2020 年周边

这种就更正常一些。

二、外观检查别只看芯片，要看电感、弹簧和框架

外观检查可以拆成几步来看，这部分很值得参考。

1. 先摸电感

用手轻轻摸一圈电感，正常情况下不应该有任何一个是松动的。

如果有电感已经晃动，通常意味着：

焊接状态不正常
使用中问题可能继续扩大

这种卡即使现在能亮，也不建议轻易碰。

2. 再看固定弹簧有没有被拆过

这里有一个很实用的判断逻辑：

如果卖家强调这是“原厂拆机”
那固定弹簧理论上不应该被轻易拆过

因为正常服务器原厂环境，通常不会专门去拆这个弹簧。

如果你轻轻一撬，弹簧就非常容易下来，那大概率说明这张卡之前已经被拆过。要是卖家同时还强调“原厂拆机、未动过”，那可信度就要打个问号。

3. 框架太好拆，也不正常

中间框架拆掉后，如果整个结构轻轻一拿就分离，通常也说明卡已经被反复拆装过。

对二手 V100 来说，这一点很关键，因为很多后续刷写、改造、检修动作，都会留下这些“拆过”的痕迹。

三、底板如果太容易分离，要怀疑刷过 VBIOS 或动过手脚

这里有一个很重要的点：PCB 下层有一块金属背板，它不只是防护件，也承担辅助散热作用。

正常原装状态下，这块底板通常并不好拆。原因包括：

胶固定
结构结合紧
本来就不是设计成让人反复拆装的

如果稍微一用力，底板就和 PCB 很轻易地分开，那基本就要怀疑：

之前被拆过
里面可能刷过 VBIOS
可能做过二次处理

这并不等于它一定不能用，但如果你买的是“原装无拆”的口径，这类现象显然就不对。

四、`ECC` 怎么看：最重要的不是“是不是零”，而是增不增加

很多人买 V100 时最关心 ECC，这部分也需要单独拆开看。

常见查看方法是用 nvidia-smi 的详细查询，把 ECC Errors 相关信息拉出来看。

1. 实时错误最危险

上面那部分可以理解为“实时错误”。

如果在运行过程中，这部分数字持续增加，那通常就不是小问题了，往往意味着这张卡已经处在明显不稳定状态。

简单说：

跑起来不报错，比静态全零更重要
一压测就涨错误，比历史累计数字更可怕

2. 生命周期累计错误不一定可怕

另一部分是全生命周期累计错误，也就是这张卡从生产到现在累积发生过多少次纠错或异常。

这类数字如果只是：

个位数
十几次

未必就是大问题。

只要实际运行时，上面的实时错误不继续增加，很多时候仍然可以正常使用。

3. 屏蔽页更值得看

更值得重点关注的是下面那部分“屏蔽页”信息，也就是某些显存块因为不可纠正错误而被屏蔽掉。

大致可以这样理解：

单精度和双精度分别可能有被屏蔽的块
两边加起来如果超过 10，这张卡就开始进入需要谨慎的区间

虽然不是说完全不能用，但意味着它实际可用显存和长期稳定性都已经受影响。

五、别迷信“全零 ECC”，因为数据本身也可能被刷

这里有一个很现实的提醒：

ECC 数据并不是天然绝对可信。

也就是说，一张卡如果：

数据看起来特别漂亮
但外观拆装痕迹又很重
结构状态也明显被动过

那就不能只凭“ECC 全零”这一个点下判断。

可以用一个很形象的比喻来理解：就像一辆老车，到了很多年后突然里程为 0、轮胎磨损几乎没有，你很难不去怀疑是不是里程表被动过。

放到 V100 上也是一样：

数据太完美，不一定是好事
更重要的是数据、外观、压力测试结果能不能互相对得上

六、压力测试不能省，但只测核心也不够

可以用 gpu-burn 之类的工具做压力测试，先压个几分钟到十几分钟，观察：

是否稳定
是否掉卡
是否出现新的 ECC 错误

但有一点也要特别注意：

只测核心，不代表整张卡就真的没问题。

因为 V100 的很多翻车，并不是核心先死，而是：

供电部分温度太高
底板区域散热不足
热点温度过高
转接板和散热系统长期处在危险边缘

所以压力测试只能说明“这张卡当下能跑”，不能单独证明“这套 DIY 方案能长期稳定用”。

七、DIY 玩家最容易翻车的，不是买卡，而是散热和供电

这大概也是全文里最值得记住的部分。

核心观点很明确：

对 DIY 玩家来说，自己随便拼一个底板、再压个普通水冷头上去，并不是一个稳妥方案。

问题在于 V100 不是普通消费卡，它是一个：

功耗高
发热大
热分布复杂

的服务器加速卡。

除了核心本体发热，底板、供电区域、连接器区域同样会发热，而且温度并不低。

1. 不要只盯着 GPU 平均温度

很多监控软件显示的是整卡平均温度，但真正更危险的，往往是 hot spot。

也就是说：

你看到表面温度只有六十几度
但局部热点可能早就到了一百多度

这也是为什么很多看起来“温度还行”的 DIY V100，最后还是会突然报废。

2. 底板散热一定要考虑

底板和供电区域散热不能忽略。

如果只是给核心上了个散热器，但：

MOS 没照顾到
底板没导热
背面没有足够的散热设计

那整套方案依然是不完整的。

3. 低价拼装水冷方案风险很高

对那种“随便找个转接底板，再上个便宜一体水冷”的方案，显然要持保留态度。

原因不是它一定马上坏，而是它经常存在这些问题：

水道覆盖不均匀
供电区散热不完整
热点区域没有真正压住
长期运行后寿命不可控

八、如果一定要 DIY，至少注意这几件事

比较核心的建议包括：

优先选成熟一点、口碑更稳定的底板方案
不要只看核心散热，背面供电区和底板导热也要做
水冷头要看覆盖和均热能力，不是随便能压上去就行
压力测试后要继续看温度、热点和长期稳定性
电源质量也会影响啸叫和长期稳定

换句话说，DIY V100 真正难的不是“装上去能亮”，而是“装上去以后还能长期稳定地活”。

九、啸叫和转接板个体差异，也都是现实问题

最后还有两个经常被忽略的点：

1. 啸叫不一定能彻底消除

它和卡本身体质、电感、电容、供电状态都有关系，不是换一根线或者加一个小配件就一定能百分之百解决。

2. 转接板个体差异很大

这也是为什么有些卖家即使愿意卖裸卡，也会强调：

先上机测试
记录序列号
做压力测试
全程录像

因为很多纠纷未必出在芯片本体，而是出在后续搭配的转接板和散热方案上。

结语

Tesla V100 现在还能不能买？答案是：能，但前提是你知道自己在买什么，也知道自己后面要怎么用。

如果只是看：

能不能点亮
ECC 是否全零
卖家有没有说“原厂拆机”

那远远不够。

真正更值得看的，是这几件事：

年份和批次是否对得上
外观拆装痕迹是否异常
底板和结构是否被明显动过
压力测试时错误是否增长
你的散热和供电方案是否真的靠谱

尤其对 DIY 玩家来说，V100 最危险的地方，往往不是“买到老卡”，而是“低估了这种卡对散热、供电和改造质量的要求”。

llama.cpp ollama 显卡性能天梯：CUDA、ROCm、Vulkan

Thu, 23 Apr 2026 09:58:11 +0800

先看懂这些参数

`Q4_0` 是什么

Q4_0 是一种 4-bit 量化格式。它的意义不是“模型更强”，而是“模型更小、更省显存、更容易塞进更多设备里”。这些榜单大多统一用 Llama 2 7B, Q4_0，核心目的是减少变量，让不同 GPU 的成绩更容易横向比较。

`pp512` 是什么

pp512 一般可以理解为 prompt processing 512 tokens，也就是处理 512 个输入 token 时的吞吐。

pp = prompt processing
512 = 输入长度是 512 token
t/s = tokens per second

它更像“吃提示词的速度”，通常能并行得更充分，所以数字往往很高。

`tg128` 是什么

tg128 一般可以理解为 text generation 128 tokens，也就是连续生成 128 个 token 时的速度。

tg = text generation
128 = 连续生成 128 token
t/s = tokens per second

它更接近我们平时感受到的“模型回答快不快”。因为生成阶段是逐 token 递推，所以通常明显低于 pp512。

`FA` 是什么

FA 是 Flash Attention。简单理解就是注意力计算的一种优化开关。

with FA 表示启用了 Flash Attention
no FA 表示关闭 Flash Attention

在不少卡上，FA 对 pp512 的提升比对 tg128 更明显；但不同后端、不同驱动和不同架构之间，提升幅度并不一致，个别设备甚至会出现 PP 升、TG 变化很小，或者 PP 反而下降的情况。

`t/s` 怎么看

t/s 就是 tokens per second。它不是帧率，也不是 FLOPS，而是模型吞吐表现的直接结果。

读榜单时最重要的一点是：先确认你在比的是不是同一种测试。

不要把 pp512 和 tg128 直接混着比
不要把 no FA 和 with FA 混着比
不要把 CUDA、ROCm、Vulkan 的结果当成完全等价的同一条曲线

先说结论

从这几条讨论串当前可见的数据看，大致可以先记住这几个结论：

CUDA 仍然是目前 llama.cpp GPU 跑分里最强、样本也最密集的一条线，特别是高端 Nvidia 卡在 pp512 上优势很大。
ROCm 在高端 AMD 卡和 Instinct 卡上已经能给出非常像样的成绩，MI300X、7900 XTX、W7900 这些条目都不弱。
Vulkan 的优点不是“绝对最快”，而是覆盖面最广，Nvidia、AMD、Intel、Apple Asahi / MoltenVK，甚至很多老卡和核显都能找到条目。
tg128 往往更接近日常体感，pp512 更适合看吞吐能力。很多“榜一”卡，在两项里领先幅度并不完全一样。

CUDA 完整榜单

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14073.41 ± 115.16	290.02 ± 1.10	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	14854.63 ± 22.73	274.20 ± 0.14	79c1160	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	9918.34 ± 176.97	267.81 ± 1.54	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	4849.53 ± 8.94	190.88 ± 0.33	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	10293.86 ± 134.72	189.33 ± 0.19	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	11992.70 ± 107.99	186.21 ± 0.13	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	8297.36 ± 9.50	181.99 ± 0.42	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	6952.38 ± 13.73	176.85 ± 0.07	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	9229.23 ± 101.78	176.07 ± 0.26	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6567.49 ± 20.30	171.19 ± 3.98	9c35706	@slaren
RTX 3090	24 GB / GDDR6X / 384 bit	5174.69 ± 21.83	158.16 ± 0.21	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	8870.49 ± 378.76	152.01 ± 0.28	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	8125.15 ± 41.05	148.33 ± 0.20	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	8031.64 ± 26.49	142.49 ± 0.16	20638e4	@Ristovski
RTX 3080	10 GB / GDDR6X / 320 bit	5013.86 ± 24.80	139.65 ± 0.99	9c35706	@slaren
RTX A6000	48 GB / GDDR6 / 384 bit	4913.93 ± 6.79	138.73 ± 2.75	4795c91	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	6924.53 ± 13.87	132.26 ± 0.16	9c35706	@Ristovski
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	4992.83 ± 113.52	131.66 ± 0.20	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4028.16 ± 19.14	130.07 ± 2.74	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	3042.64 ± 40.71	129.08 ± 0.05	51f5a45	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5184.75 ± 18.70	127.54 ± 0.46	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	4609.01 ± 10.67	124.11 ± 0.17	3470a5c	@Hedede
A30	24 GB / HBM2e / 3072 bit	2767.10 ± 1.88	124.81 ± 0.16	583cb83	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2617.46 ± 2.10	108.79 ± 0.05	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	2890.66 ± 2.42	107.51 ± 0.21	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	2751.18 ± 19.43	102.77 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	2709.95 ± 3.35	102.68 ± 0.03	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	2827.20 ± 66.43	97.32 ± 2.80	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	3737.25 ± 6.79	90.94 ± 0.02	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2088.34 ± 1.94	88.06 ± 0.28	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2684.06 ± 15.28	83.77 ± 0.37	65349f2	@TinyServal
Titan Xp	12 GB / GDDR5X / 384 bit	1154.96 ± 1.46	76.08 ± 0.08	c4510dc	@Hedede
RTX 3060	12 GB / GDDR6 / 192 bit	2137.50 ± 10.12	75.57 ± 0.07	baa9255	@QuantiusBenignus
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1536.89 ± 0.90	65.62 ± 0.62	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3394.63 ± 7.44	63.86 ± 0.01	89d1029	@mike-llamacpp
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1084.41 ± 3.01	62.49 ± 0.06	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	2779.77 ± 9.91	61.83 ± 0.04	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1420.24 ± 1.95	60.04 ± 0.01	5c0eb5e	@ggerganov
Tesla P100	16 GB / HBM2 / 4096 bit	760.80 ± 2.92	58.35 ± 0.00	b8372ee	@Hedede
DGX Spark	128 GB / LPDDR5x	3062.31 ± 11.02	57.21 ± 0.06	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1007.42 ± 1.23	54.74 ± 0.07	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	1956.22 ± 7.74	50.62 ± 0.04	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1219.06 ± 4.18	46.38 ± 0.73	d32e03f	@pt13762104
RTX 4050 Laptop	6 GB / GDDR6 / 96 bit	1725.85 + 17.85	43.72 + 0.41	d79d8f3	@TimCabbage
GTX 1660	6 GB / GDDR5 / 192 bit	148.91 ± 0.01	41.35 ± 0.02	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	282.65 ± 0.15	38.04 ± 0.02	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	714.44 ± 2.04	37.82 ± 0.02	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	991.31 ± 1.15	33.58 ± 0.14	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	514.53 ± 3.06	33.29 ± 0.00	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	406.94 ± 0.25	30.40 ± 0.02	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	416.85 ± 1.75	27.79 ± 0.02	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	79.44 ± 0.01	27.82 ± 0.18	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	309.30 ± 0.05	23.63 ± 0.00	baa9255	@TinyServal
Quadro P1000	4 GB / GDDR5 / 128 bit	183.40 ± 0.11	13.99 ± 0.13	1e74897	@aleksyx
Tesla K80	12 GB / GDDR5 / 384 bit	133.14 ± 0.55	13.80 ± 0.02	32732f2	@pebaryan

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14970.15 ± 381.06	300.40 ± 0.28	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	16618.98 ± 20.66	281.11 ± 0.41	5143fa8	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	11263.29 ± 98.34	280.74 ± 1.17	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	5285.96 ± 6.58	200.90 ± 0.12	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	12506.97 ± 11.51	191.57 ± 0.03	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	14770.63 ± 102.93	188.96 ± 0.05	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	9487.70 ± 21.89	184.68 ± 0.05	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	8419.56 ± 35.50	182.43 ± 0.09	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	10576.85 ± 530.21	179.47 ± 0.32	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6924.01 ± 10.76	172.26 ± 1.31	9c35706	@slaren
RTX PRO 4500 Blackwell	32 GB / GDDR7 / 256 bit	7251.66 ± 92.40	168.90 ± 0.20	becc481	@Hedede
RTX 3090	24 GB / GDDR6X / 384 bit	5560.06 ± 16.28	161.89 ± 0.18	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	10097.64 ± 671.22	153.76 ± 0.12	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	9439.01 ± 56.75	147.48 ± 1.41	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	9205.93 ± 22.31	143.47 ± 0.02	20638e4	@Ristovski
RTX A6000	48 GB / GDDR6 / 384 bit	5662.39 ± 13.87	144.87 ± 0.18	4795c91	@Hedede
RTX 3080	10 GB / GDDR6X / 320 bit	5569.56 ± 14.04	139.95 ± 0.95	9c35706	@slaren
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	5674.44 ± 139.53	136.38 ± 0.13	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4552.15 ± 9.68	135.83 ± 0.11	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	2973.78 ± 3.62	134.76 ± 0.02	51f5a45	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	7612.32 ± 37.35	132.85 ± 0.31	9c35706	@Ristovski
A30	24 GB / HBM2e / 3072 bit	3068.72 ± 0.63	131.93 ± 0.18	583cb83	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5783.44 ± 36.95	128.21 ± 2.52	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	5256.38 ± 19.39	126.24 ± 0.06	3470a5c	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2481.25 ± 1.31	112.17 ± 0.01	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	3107.61 ± 4.34	109.17 ± 0.07	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	3053.96 ± 1.37	104.38 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	3052.35 ± 5.64	103.63 ± 0.02	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	3453.10 ± 49.19	103.00 ± 0.25	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	4195.53 ± 1.98	93.46 ± 0.01	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2293.29 ± 5.91	87.71 ± 0.29	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2807.83 ± 52.44	85.17 ± 0.66	65349f2	@TinyServal
RTX 3060	12 GB / GDDR6 / 192 bit	2407.67 ± 3.73	76.92 ± 0.03	baa9255	@QuantiusBenignus
Titan Xp	12 GB / GDDR5X / 384 bit	1218.12 ± 1.82	73.84 ± 0.04	c4510dc	@Hedede
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1662.80 ± 2.04	67.62 ± 0.67	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3803.45 ± 70.80	64.03 ± 0.53	89d1029	@mike-llamacpp
Tesla P100	16 GB / HBM2 / 4096 bit	787.36 ± 3.27	61.99 ± 0.00	b8372ee	@Hedede
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1138.14 ± 2.02	61.38 ± 0.03	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	3171.86 ± 4.34	61.37 ± 0.01	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1563.77 ± 0.51	61.13 ± 0.05	5c0eb5e	@ggerganov
DGX Spark	128 GB / LPDDR5x	3661.37 ± 38.66	56.74 ± 0.03	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1079.66 ± 0.18	53.73 ± 0.05	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	2250.14 ± 5.91	50.71 ± 0.01	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1309.73 ± 1.02	44.03 ± 0.57	d32e03f	@pt13762104
GTX 1660	6 GB / GDDR5 / 192 bit	154.45 ± 0.52	41.43 ± 0.01	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	290.17 ± 0.11	39.98 ± 0.01	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	790.52 ± 2.39	37.87 ± 0.00	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	1171.96 ± 4.70	35.88 ± 0.18	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	529.53 ± 2.12	33.12 ± 0.03	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	438.49 ± 0.38	30.64 ± 0.06	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	446.19 ± 0.81	28.18 ± 0.01	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	27.46 ± 0.23	27.46 ± 0.23	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	311.55 ± 0.19	23.76 ± 0.01	baa9255	@TinyServal
Tesla K80	12 GB / GDDR5 / 384 bit	133.36 ± 0.60	14.27 ± 0.32	32732f2	@pebaryan
Quadro P1000	4 GB / GDDR5 / 128 bit	173.82 ± 0.02	13.65 ± 0.14	1e74897	@aleksyx

Apple Silicon 参考口径

#4167 这条讨论和后三条最大的区别，是它更早建立了统一口径，除了 Q4_0，还会顺带放 F16 和 Q8_0。它对理解 PP / TG / t/s 很有帮助。

讨论里直接给出的说明是：

PP 表示 prompt processing
TG 表示 text-generation
t/s 表示 tokens per second

文中可见的一个时间对比样例，是 M2 Ultra 在同一台机器上随着版本和 FA 演进后的成绩：

时间	设备	版本/说明	带宽 GB/s	GPU 核心	F16 PP	F16 TG	Q8_0 PP	Q8_0 TG	Q4_0 PP	Q4_0 TG
2023-11-21	M2 Ultra	8e672ef	800	76	1401.85	41.02	1248.59	66.64	1238.48	94.27
2024-11-12	M2 Ultra	86ed72d + FA	800	76	1525.95	43.15	1368.18	73.11	1391.78	108.80
2025-08-02	M2 Ultra	5c0eb5e + FA	800	76	1561.35	43.24	1386.97	73.35	1412.42	109.41

讨论正文前部还给了几台 Apple Silicon 设备的统一样例：

设备	Q4_0 PP	Q4_0 TG	Q8_0 PP	Q8_0 TG	F16 PP	F16 TG
M1 Pro 16 GPU	266.25	36.41	270.37	22.34	302.14	12.75
M2 Ultra 76 GPU	1238.48	94.27	1248.59	66.64	1401.85	41.02
M3 Max 40 GPU	690.99	65.85	749.37	43.00	794.26	25.27

Apple 这条线这里不展开全文搬运，后面重点看你指定的三类独显后端榜单。

ROCm / HIP 完整榜单

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11476.40 ± 72.79	232.92 ± 0.53	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3552.27 ± 101.96	167.11 ± 0.50	2f0c2db	@Diablo-D3
Instinct MI210	64 GB / HBM2e / 4096 bit	2486.22 ± 9.58	124.51 ± 0.04	8160b38	@65a
Pro W7900	48 GB / GDDR6 / 384 bit	3213.17 ± 80.47	121.18 ± 0.06	8160b38	@65a
RX 7900 XT	20 GB / GDDR6 / 320 bit	3098.38 ± 24.02	116.15 ± 0.06	1e15bfd	@AdamNiederer
RX 9070	16 GB / GDDR6 / 256 bit	2381.77 ± 3.68	114.48 ± 0.60	d0660f2	@andj1210
Instinct MI100	32 GB / HBM2 / 4096 bit	2732.83 ± 1.98	110.48 ± 0.14	9c35706	@firefox42
RX 9070 XT	16 GB / GDDR6 / 256 bit	5055.19 ± 109.58	101.27 ± 0.27	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2151.81 + 17.94	100.94 + 0.10	00131d6	@olegshulyakov
Instinct MI50	32 GB / HBM2 / 4096 bit	1057.24 ± 0.53	98.95 ± 0.25	97d5117	@wtarreau
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1456.98 ± 12.39	96.07 ± 0.10	6fa3b55	@MihaiBojescu
AI PRO R9700	32 GB / GDDR6 / 256 bit	4443.54 ± 339.25	93.84 ± 0.26	bd4ef13	@gogich77
Instinct MI60	32 GB / HBM2 / 4096 bit	1289.11 ± 0.62	91.46 ± 0.13	504af20	@Said-Akbar
RX 6900 XT	16 GB / GDDR6 / 256 bit	1889.84 ± 31.21	88.49 ± 0.00	a972fae	@notgood
Pro VII	16 GB / HBM2 / 4096 bit	1064.99 ± 1.18	87.45 ± 0.04	2739a71	@8XXD8
RX 6800 XT	16 GB / GDDR6 / 256 bit	1447.07 ± 1.36	83.92 ± 0.03	79c1160	@MrLavender
Pro V620	32 GB / GDDR6 / 256 bit	1803.65 ± 2.54	74.66 ± 0.01	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1419.67 ± 3.64	67.58 ± 0.24	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	354.17 ± 0.18	67.55 ± 0.04	c05e8c9	@daniandtheweb
Instinct MI25	16 GB / HBM2 / 2048 bit	409.83 ± 0.23	63.94 ± 0.06	2739a71	@8XXD8
AI Max+ 395	128 GB / LPDDR5	911.36 ± 1.79	50.01 ± 0.07	e60f241	@firefox42
RX 7600 XT	16 GB / GDDR6 / 128 bit	1099.64 ± 2.05	48.58 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	240.68 ± 0.09	48.46 ± 0.09	ec428b0	@davispuh
Radeon 8060S	System Shared / DDR5	351.36 ± 0.67	47.97 ± 0.33	1d0125b	@hspak
Radeon 880M	System Shared / DDR5	163.25 ± 13.86	12.97 ± 1.63	c55d53a	@Hedede

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11945.97 ± 54.29	218.53 ± 0.09	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3874.25 ± 11.92	170.12 ± 0.56	2f0c2db	@Diablo-D3
Pro W7900	48 GB / GDDR6 / 384 bit	3472.86 ± 52.86	127.43 ± 0.12	8160b38	@65a
Instinct MI210	64 GB / HBM2e / 4096 bit	2571.82 ± 2.89	130.18 ± 0.06	8160b38	@65a
RX 9070	16 GB / GDDR6 / 256 bit	2452.68 ± 1.33	115.32 ± 0.52	d0660f2	@andj1210
RX 7900 XT	20 GB / GDDR6 / 320 bit	3261.75 ± 9.09	112.30 ± 0.06	1e15bfd	@AdamNiederer
Instinct MI50	32 GB / HBM2 / 4096 bit	1129.43 ± 0.15	105.82 ± 0.07	97d5117	@wtarreau
Instinct MI100	32 GB / HBM2 / 4096 bit	2755.00 ± 3.68	104.71 ± 0.10	9c35706	@firefox42
AI PRO R9700	32 GB / GDDR6 / 256 bit	4773.07 ± 49.30	97.98 ± 0.13	bd4ef13	@gogich77
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1598.79 ± 11.48	97.53 ± 0.06	6fa3b55	@MihaiBojescu
RX 9070 XT	16 GB / GDDR6 / 256 bit	4903.51 ± 96.36	97.28 ± 0.13	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2304.63 + 2.85	95.99 + 0.21	00131d6	@olegshulyakov
RX 6900 XT	16 GB / GDDR6 / 256 bit	1948.31 ± 13.51	85.04 ± 0.02	a972fae	@notgood
Pro V620	32 GB / GDDR6 / 256 bit	1256.86 ± 0.55	70.83 ± 0.02	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1479.27 ± 0.71	65.42 ± 0.19	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	314.17 ± 0.29	62.02 ± 0.05	c05e8c9	@daniandtheweb
AI Max+ 395	128 GB / LPDDR5	1003.53 ± 2.91	49.87 ± 0.02	e60f241	@firefox42
Radeon 8060S	System Shared / DDR5	366.08 ± 1.44	48.97 ± 0.15	1d0125b	@hspak
RX 7600 XT	16 GB / GDDR6 / 128 bit	1199.16 ± 1.07	47.65 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	153.17 ± 0.72	42.46 ± 0.40	ec428b0	@davispuh
Radeon 880M	System Shared / DDR5	213.31 ± 14.05	16.16 ± 1.41	c55d53a	@Hedede

Vulkan 完整榜单

Llama 2 7B, Q4_0, no FA

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	10381.64 ± 508.84	263.63 ± 0.91	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3531.93 ± 31.74	191.28 ± 0.20	2f0c2db
Nvidia RTX 4090	9452.03 ± 187.70	187.97 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 5080	7444.99 ± 20.11	185.10 ± 0.54	f6b533d	coopmat2
Nvidia A100	6389.86 ± 4.83	160.78 ± 0.16	2257758	coopmat2
Nvidia RTX 3090	4298.97 ± 10.59	160.13 ± 0.25	4ae88d0	coopmat2
Nvidia RTX 4080 Super	7101.18 ± 269.79	147.13 ± 5.64	81086cd	coopmat2
Nvidia RTX 3080	4287.11 ± 55.50	139.15 ± 0.05	7c7d6ce	coopmat2
Nvidia RTX A5000	3641.55 ± 9.05	139.89 ± 0.69	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	5036.04 ± 88.16	137.11 ± 0.02	e9fd8dc
Nvidia RTX 5070 Ti	6213.63 ± 27.72	135.63 ± 0.18	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4036.04 ± 34.58	130.19 ± 0.39	3191462
Nvidia Tesla V100	1391.39 ± 1.19	129.58 ± 0.58	7d77f07
Nvidia RTX 4070 Ti Super	6099.18 ± 154.30	129.45 ± 0.18	4ae88d0	coopmat2
AMD Radeon RX 7900 XT	2941.58 ± 17.17	123.18 ± 0.40	71e74a3
AMD Radeon RX 9070	3164.10 ± 66.84	119.71 ± 3.40	21c17b5
AMD Radeon RX 7800 XT	2017.33 ± 19.30	118.27 ± 0.27	4fdbc1e
AMD Radeon RX 7900 GRE	2336.31 ± 7.52	116.11 ± 0.26	4b2a477
Apple M3 Ultra	1116.83 ± 0.55	115.54 ± 0.78	2d451c8	MoltenVK
Intel Arc Pro B70	3379.00 ± 47.92	112.02 ± 1.08	b863507
Nvidia Titan V	984.36 ± 4.13	108.86 ± 0.28	e56abd2
AMD Radeon Pro VII	1078.54 ± 0.86	107.82 ± 0.14	N/A
AMD Radeon RX 6900 XT	1837.21 ± 25.44	104.60 ± 0.30	a972fae
Intel Arc Pro A60	2261.11 ± 9.53	104.25 ± 0.07	97d5117
AMD Radeon RX 6800 XT	1752.92 ± 1.71	100.32 ± 0.97	N/A
AMD Radeon VII	1059.14 ± 0.56	101.19 ± 0.53	77d6ae4
Nvidia RTX 2080 Ti	1888.24 ± 9.20	97.58 ± 6.60	N/A
AMD Radeon RX 6800	1698.69 ± 0.80	95.61 ± 0.19	4b385bf
AMD Radeon Pro W6800X Duo	687.71 ± 4.33	94.82 ± 0.12	N/A
Nvidia RTX 5060 Ti	3460.92 ± 7.16	93.51 ± 0.15	89f10ba	coopmat2
Nvidia RTX 4070	3179.37 ± 46.16	92.29 ± 0.28	9a48399
AMD Radeon Pro W6800X	510.80 ± 0.13	86.47 ± 0.46	13b4548	MoltenVK
AMD Radeon RX 6700 XT	1051.20 ± 0.98	83.88 ± 0.08	6d75883
AMD Radeon RX 6750 XT	1040.58 ± 0.35	81.98 ± 0.03	228f34c
AMD Radeon Pro V620	1595.32 ± 1.59	81.78 ± 0.06	03d4698
Nvidia RTX 3070	2113.02 ± 7.38	78.71 ± 0.13	1b8fb81
AMD Radeon Instinct MI60	369.26 ± 2.48	78.16 ± 1.40	504af20
Nvidia RTX 3060	1815.70 ± 5.85	75.94 ± 0.80	92c0b38	coopmat2
Apple M4 Max	724.77 ± 20.93	75.02 ± 0.14	1ece0cb6
Nvidia Tesla T10	1692.70 ± 2.05	75.01 ± 0.21	7f76692	coopmat2
Nvidia RTX A4000	2248.14 ± 7.59	73.74 ± 0.08	f5245b5	coopmat2
AMD Radeon RX 5700 XT	529.69 ± 0.26	70.73 ± 0.04	4fdbc1e
AMD Radeon RX 9060 XT	2141.67 ± 6.87	70.54 ± 0.74	ed52f36
Intel Arc B580	620.94 ± 15.33	70.14 ± 0.28	7f76692
AMD Radeon Pro V540	583.88 ± 6.56	69.64 ± 0.24	9da3dcd
AMD Radeon Pro W5700	449.85 ± 0.46	68.55 ± 0.15	23bc779
Intel Arc Pro B60	522.36 ± 3.60	68.55 ± 0.01	516a4ca
Nvidia GTX 1080 Ti	540.69 ± 0.71	64.99 ± 0.08	360d653
Nvidia RTX 2070 Super	1199.13 ± 7.70	64.64 ± 0.20	b7552cf
Nvidia RTX 3070 Mobile	1689.40 ± 19.57	63.64 ± 0.39	ceff6bb	coopmat2
Nvidia Tesla P100	678.14 ± 1.40	63.16 ± 0.06	eec1e33
AMD BC-250	370.66 ± 0.04	62.32 ± 0.32	5886f4f
AMD Radeon RX 6650 XT	1029.52 ± 1.21	62.14 ± 0.02	dbb852b
Nvidia RTX 4060 Mobile	2135.66 ± 23.18	59.53 ± 0.03	a5c07dc	coopmat2
Nvidia Tesla P40	488.06 ± 0.27	59.36 ± 0.16	N/A
Nvidia GTX 1660 Ti Mobile	511.67 ± 2.85	56.60 ± 0.07	b43556e
AMD Radeon Instinct MI25	439.42 ± 0.34	54.69 ± 0.03	2739a71
AMD Radeon RX 6600 XT	574.65 ± 0.86	53.92 ± 0.11	091592d
AMD Ryzen AI Max+ 395	1288.96 ± 6.49	53.59 ± 0.38	7f76692
AMD Radeon RX 7600 XT	840.85 ± 3.02	53.02 ± 0.01	01d8eaa
Intel Arc A770	1073.85 + 29.68	52.56 + 0.11	a69d54f
Nvidia GB10	2737.79 ± 19.56	52.28 ± 0.03	b9da444	coopmat2
AMD FirePro S9300 x2	247.26 ± 0.43	51.86 ± 0.11	eec1e33	Split across two GPUs
AMD Radeon RX 6600	761.89 ± 1.76	50.63 ± 0.02	b1c70e2
AMD Radeon RX Vega 56	439.87 ± 0.61	50.23 ± 0.14	92c0b38
Intel Arc B570	913.95 ± 0.90	49.64 ± 0.03	7f76692
Nvidia RTX 3060 Mobile	1059.76 ± 3.54	49.03 ± 0.13	dbb3a47
AMD Radeon RX 6800M	861.99 ± 7.67	48.71 ± 0.71	8e6f8bc
AMD Radeon RX 6600M	605.59 ± 0.65	48.21 ± 0.07	fe5b78c
Intel Arc A770M	875.92 ± 2.16	47.69 ± 0.16	eeee367
Nvidia P104-100	311.90 ± 0.22	46.18 ± 0.05	eec1e33
AMD Radeon RX Vega 64	356.08 ± 0.09	45.73 ± 0.18	ec428b0
Nvidia RTX A2000	1245.19 ± 8.76	45.52 ± 0.54	b1afcab	coopmat2
AMD Radeon RX 7600M XT	459.39 ± 2.34	45.28 ± 0.10	b9ab0a4	eGPU
AMD Radeon Pro V340	375.41 ± 0.24	45.16 ± 0.06	9da3dcd	Split across two GPUs
Nvidia GTX 1070 Ti	297.50 ± 0.54	42.86 ± 1.20	860a9e4	eGPU
Intel Arc A750	1075.94 ± 13.89	42.66 ± 0.18	c1b1876
Nvidia RTX 4050 Mobile	1154.28 + 15.76	41.89 + 0.10	d79d8f3
Nvidia GTX 1070	321.57 ± 0.93	41.48 ± 0.09	eec1e33
Intel Arc Pro B50	193.50 ± 0.24	39.99 ± 0.10	7b43f55
Nvidia Tesla M40	92.48 ± 0.02	39.35 ± 1.22	b8372ee
AMD Radeon RX 580	258.03 ± 0.71	39.32 ± 0.03	de4c07f
AMD Radeon RX 470	218.07 ± 0.56	38.63 ± 0.21	e288693
AMD Radeon Pro W5500	315.39 ± 3.76	36.82 ± 0.38	860a9e4
AMD Radeon RX 480	248.66 ± 0.28	34.71 ± 0.14	3b15924
Apple M2 Ultra	205.98 ± 0.02	34.34 ± 0.12	dbb852b	Asahi Linux
Nvidia GTX 980	186.24 ± 0.09	33.90 ± 0.51	860a9e4
Nvidia P106-100	183.78 ± 0.26	29.77 ± 0.04	23bc779
AMD FirePro W8100	155.22 ± 0.17	29.52 ± 0.05	4536363
Nvidia Tesla P4	265.54 ± 0.21	28.03 ± 0.14	24d2ee0
AMD Radeon RX 6500 XT	255.25 ± 0.35	27.81 ± 0.10	g9fdfcd
Apple M3	263.70 ± 0.02	26.39 ± 0.14	b9ab0a4	MoltenVK
AMD FirePro S10000	94.78 ± 0.02	25.32 ± 0.02	914a82d	Split across two GPUs
Nvidia Quadro P2000	169.55 ± 0.17	23.05 ± 0.03	63f8fe0
Intel Core Ultra 200 Series	544.95 ± 4.15	22.49 ± 0.09	cea560f
AMD Ryzen AI 9 300 Series	479.07 ± 0.41	22.41 ± 0.18	N/A
AMD Ryzen 6000 Series	240.89 ± 0.52	21.26 ± 0.08	ee09828
Apple M2 Pro	62.70 ± 0.03	20.95 ± 0.11	1fe0029	Asahi Linux
Nvidia GTX 1050 Ti	136.42 ± 0.67	20.96 ± 0.21	2f0c2db
AMD Ryzen 8000 Series	266.19 ± 1.36	20.53 ± 0.08	a5c07dc
AMD Ryzen 7000 Series	281.62 ± 1.56	19.91 ± 0.07	ebce03e
AMD Ryzen Z1 Extreme	199.36 ± 7.02	18.77 ± 0.02	53ff6b9
AMD FirePro D700	69.95 ± 0.04	16.62 ± 0.01	d3bd719	MoltenVK, running in FP16 mode on FP32 only chip
AMD Radeon Pro WX 4100	78.79 ± 0.10	16.05 ± 0.07	860a9e4
Apple M2	50.79 ± 0.16	13.50 ± 0.02	8c0d6bb	Asahi Linux
Apple M1	38.29 ± 0.00	12.47 ± 0.03	2370665	Asahi Linux
AMD Ryzen 5000 Series	90.55 ± 0.08	10.98 ± 0.07	d84635b
Intel Core 1100 Series	187.20 ± 1.78	10.39 ± 0.04	abb9f3c
AMD Radeon RX 550	52.66 ± 0.49	10.20 ± 0.01	N/A
AMD Ryzen 4000 Series	103.87 ± 0.02	9.63 ± 0.01	4b385bf
Nvidia Tesla K80	89.46 ± 0.10	9.39 ± 0.06	5d46bab	Running on single GPU
Nvidia Tesla K40	64.37 ± 0.09	9.30 ± 0.19	eec1e33
MediaTek Dimensity 9400	38.36 ± 15.15	8.92 ± 0.06	b9ab0a4	GPU supports coopmat but pp512 is faster with it turned off
Intel Core Ultra 100 Series	185.51 ± 0.22	8.21 ± 0.07	1d72c84
AMD Ryzen 3000 Series	48.63 ± 0.10	8.49 ± 0.01	1fe0029
CIX CD8180	2.80 ± 0.01	5.51 ± 0.00	4dca015
Intel Core 1000 Series	25.58 ± 0.00	4.25 ± 0.18	N/A
Intel Core 8000 Series	25.43 ± 0.17	3.35 ± 0.03	c4df49a
Intel N150	28.84 ± 0.02	2.93 ± 0.00	4f63cd7

Llama 2 7B, Q4_0, FA enabled

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	11796.38 ± 601.36	273.68 ± 0.52	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3332.90 ± 11.47	195.30 ± 0.23	2f0c2db
Nvidia RTX 5080	8054.59 ± 35.68	192.17 ± 0.21	f6b533d	coopmat2
Nvidia RTX 4090	10830.41 ± 36.25	190.10 ± 0.31	4ae88d0	coopmat2
Nvidia A100	7064.40 ± 1.63	170.56 ± 0.02	2257758	coopmat2
Nvidia RTX 3090	4732.33 ± 4.80	162.28 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 4080 Super	8007.37 ± 46.03	150.20 ± 0.26	81086cd	coopmat2
Nvidia RTX 3080	4913.83 ± 21.52	145.74 ± 0.16	7c7d6ce	coopmat2
Nvidia Tesla V100	1411.25 ± 2.12	142.13 ± 0.03	7d77f07
Nvidia RTX A5000	4071.22 ± 13.13	140.43 ± 0.22	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	4911.74 ± 28.52	138.20 ± 0.18	e9fd8dc
Nvidia RTX 5070 Ti	6764.53 ± 11.95	135.65 ± 0.02	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4333.83 ± 29.36	130.90 ± 0.12	3191462
AMD Radeon RX 7900 XT	3043.93 ± 10.42	124.20 ± 0.09	71e74a3
AMD Radeon RX 7800 XT	2094.64 ± 14.38	119.63 ± 0.13	4fdbc1e
AMD Radeon RX 9070	3277.24 ± 18.17	119.55 ± 0.06	21c17b5
AMD Radeon RX 7900 GRE	2402.07 ± 22.50	116.77 ± 0.08	4b2a477
Apple M3 Ultra	1115.55 ± 0.75	115.99 ± 0.12	2d451c8	MoltenVK
Intel Arc Pro B70	3314.53 ± 17.95	111.63 ± 0.05	b863507
Nvidia Titan V	792.74 ± 4.30	109.21 ± 0.72	e56abd2
AMD Radeon Pro VII	783.94 ± 0.77	108.45 ± 0.48	N/A
AMD Radeon RX 6900 XT	1761.93 ± 4.75	106.15 ± 0.04	a972fae
Nvidia RTX 2080 Ti	1936.25 ± 32.08	100.99 ± 0.24	N/A
AMD Radeon RX 6800 XT	1704.79 ± 0.71	100.50 ± 0.06	N/A
AMD Radeon Pro W6800X Duo	795.28 ± 0.72	100.08 ± 0.02	N/A
Nvidia RTX 5060 Ti	3912.65 ± 5.86	97.01 ± 0.14	89f10ba	coopmat2
AMD Radeon RX 6800	1749.46 ± 3.36	96.65 ± 0.48	4b385bf
Nvidia RTX 4070	4293.57 ± 27.70	91.49 ± 0.89	9a48399	coopmat2
AMD Radeon RX 6750 XT	997.05 ± 0.45	82.29 ± 0.06	228f34c
AMD Radeon RX 6700 XT	1010.90 ± 12.89	81.86 ± 0.19	6d75883
Nvidia RTX 3060	2012.88 ± 10.12	80.59 ± 0.02	92c0b38	coopmat2
AMD Radeon Pro V620	1556.31 ± 2.82	79.24 ± 0.09	03d4698
Nvidia RTX A4000	2482.74 ± 26.05	76.07 ± 0.08	f5245b5	coopmat2
Nvidia Tesla T10	1840.14 ± 1.22	76.05 ± 0.13	7f76692	coopmat2
AMD Radeon RX 5700 XT	538.31 ± 0.35	74.43 ± 0.03	4fdbc1e
Intel Arc B580	419.49 ± 3.37	72.00 ± 0.24	7f76692
Apple M4 Max	557.46 ± 26.87	71.79 ± 4.16	1ece0cb6
AMD Radeon Pro W5700	446.98 ± 0.39	71.30 ± 0.24	23bc779
Intel Arc Pro B60	274.76 ± 0.27	70.54 ± 0.03	516a4ca
AMD Radeon RX 9060 XT	1915.41 ± 7.90	70.52 ± 0.16	ed52f36
Nvidia Tesla P100	685.51 ± 0.88	66.48 ± 0.02	eec1e33
AMD Radeon RX 6650 XT	1088.90 ± 0.40	64.53 ± 0.75	dbb852b
Nvidia GTX 1080 Ti	529.96 ± 0.38	64.63 ± 0.10	360d653
AMD BC-250	356.87 ± 1.24	63.14 ± 0.09	5886f4f
Nvidia RTX 3070 Mobile	1832.07 ± 57.14	62.92 ± 0.37	ceff6bb	coopmat2
Nvidia RTX 4060 Mobile	2358.03 ± 12.17	60.01 ± 0.08	a5c07dc	coopmat2
Nvidia Tesla P40	484.37 ± 0.27	59.22 ± 0.15	N/A
Nvidia GTX 1660 Ti Mobile	514.34 ± 0.88	57.30 ± 0.42	b43556e
AMD Radeon RX 7600 XT	1024.38 ± 7.56	56.11 ± 0.02	01d8eaa
AMD FirePro S9300 x2	243.33 ± 0.22	55.64 ± 0.06	eec1e33	Split across two GPUs
Nvidia GB10	3279.89 ± 26.78	53.64 ± 0.05	b9da444	coopmat2
AMD Radeon RX 6600	808.76 ± 0.15	53.24 ± 0.03	b1c70e2
Intel Arc A770	1119.68 + 30.25	53.07 + 0.09	a69d54f
AMD Ryzen AI Max+ 395	1357.07 ± 10.94	53.00 ± 0.13	7f76692
AMD Radeon RX Vega 56	428.54 ± 0.50	52.66 ± 0.03	92c0b38
Intel Arc B570	288.51 ± 0.09	50.49 ± 0.05	7f76692
Nvidia P104-100	325.30 ± 0.25	48.64 ± 0.04	eec1e33
AMD Radeon Pro V340	360.23 ± 0.74	47.54 ± 0.06	9da3dcd	Split across two GPUs
AMD Radeon RX 6800M	784.16 ± 2.76	49.06 ± 0.34	8e6f8bc
AMD Radeon RX Vega 64	320.12 ± 0.22	47.06 ± 0.01	ec428b0
Nvidia RTX A2000	1361.85 ± 3.26	45.69 ± 0.20	b1afcab	coopmat2
Intel Arc A770M	384.74 ± 0.78	45.68 ± 0.06	eeee367
Intel Arc A750	303.37 ± 1.44	43.96 ± 0.03	c1b1876
Nvidia GTX 1070 Ti	292.85 ± 0.23	43.42 ± 0.34	860a9e4	eGPU
Nvidia GTX 1070	330.84 ± 1.02	43.33 ± 0.06	360d653
Nvidia Tesla M40	93.35 ± 0.01	41.68 ± 0.01	b8372ee
Intel Arc Pro B50	132.48 ± 0.04	41.02 ± 0.04	7b43f55
AMD Radeon RX 470	197.26 ± 0.27	37.28 ± 0.11	3769fe6
AMD Radeon RX 480	194.52 ± 0.61	37.23 ± 0.09	0bcb40b
Apple M2 Ultra	198.83 ± 0.85	198.83 ± 0.85	dbb852b	Asahi Linux
Nvidia GTX 980	180.97 ± 0.74	34.16 ± 0.10	860a9e4
Nvidia P106-100	183.40 ± 0.34	30.79 ± 0.32	23bc779
AMD FirePro W8100	140.52 ± 0.34	29.28 ± 0.14	4536363
Nvidia Tesla P4	287.14 ± 0.29	28.37 ± 0.24	24d2ee0
Nvidia Quadro P2000	181.71 ± 0.12	23.77 ± 0.02	63f8fe0
Intel Core Ultra 200 Series	536.48 ± 1.27	23.05 ± 0.04	cea560f
AMD Ryzen AI 9 300 Series	532.59 ± 3.55	22.31 ± 0.06	N/A
AMD Ryzen 6000 Series	277.91 ± 0.37	21.15 ± 0.09	ee09828
Apple M2 Pro	58.86 ± 0.02	20.97 ± 0.03	1fe0029	Asahi Linux
AMD Ryzen 8000 Series	297.39 ± 1.22	20.59 ± 0.38	a5c07dc
AMD Ryzen 7000 Series	312.85 ± 2.51	20.09 ± 0.35	835b2b9
Nvidia GTX 1050 Ti	127.54 ± 1.03	20.08 ± 0.17	2f0c2db
AMD Radeon Pro WX 4100	75.59 ± 0.19	16.56 ± 0.04	860a9e4
Apple M1	35.93 ± 0.00	12.85 ± 0.02	2370665	Asahi Linux
Apple M2	46.81 ± 0.08	12.25 ± 2.30	8c0d6bb	Asahi Linux
AMD Ryzen 5000 Series	79.06 ± 0.01	10.75 ± 0.00	5d195f1
Intel Core 1100 Series	174.77 ± 4.47	10.58 ± 0.03	abb9f3c
Nvidia Tesla K40	64.37 ± 0.02	9.92 ± 0.06	eec1e33
AMD Ryzen 4000 Series	113.32 ± 0.01	9.87 ± 0.01	4b385bf
Nvidia Tesla K80	88.26 ± 0.19	9.49 ± 0.01	5d46bab	Running on single GPU
AMD Ryzen 5 3000 Series	47.41 ± 0.14	8.47 ± 0.01	1fe0029
Intel Core Ultra 100 Series	77.66 ± 2.75	7.75 ± 0.05	2e89f76
Intel Core 8000 Series	25.55 ± 0.04	3.35 ± 0.02	c4df49a
Intel N150	25.59 ± 0.00	2.91 ± 0.00	4f63cd7

这些表格该怎么用

如果你只是想买卡或者看手里机器大概在哪个档位，最实用的读法其实是这三步：

先看你关心的是 tg128 还是 pp512。
日常对话、写代码、聊天体感，优先看 tg128；长上下文吞吐、批处理、服务端压 prompt，更应该看 pp512。
再看你实际跑的后端。
Nvidia 通常看 CUDA 更贴近真实上限；AMD 机器更应该先对照 ROCm 和 Vulkan；跨平台兼容场景则更适合参考 Vulkan。
最后再看 FA。
很多卡开启 FA 后 pp512 会涨得更明显，但 tg128 不一定同步大涨，所以不能只看单个最高分。

一句话总结

同样是 llama.cpp 跑分，pp512、tg128、Q4_0、FA、CUDA / ROCm / Vulkan 分别代表的是完全不同的维度。把口径先分清，再看数字，榜单才有意义。

如果你只想记一个最短结论，那就是：

CUDA 目前整体最强
ROCm 在高端 AMD 卡上已经很能打
Vulkan 覆盖最广，老卡、核显、Intel Arc、Apple Asahi 都能找到可比条目
tg128 比 pp512 更接近日常真实体感

原始来源

CUDA discussion #15013: https://github.com/ggml-org/llama.cpp/discussions/15013
Apple Silicon discussion #4167: https://github.com/ggml-org/llama.cpp/discussions/4167
ROCm discussion #15021: https://github.com/ggml-org/llama.cpp/discussions/15021
Vulkan discussion #10879: https://github.com/ggml-org/llama.cpp/discussions/10879

显卡推理速度测试的常用指标具体含义：FA、pp512、tg128、Q4_0 都是什么意思

Thu, 23 Apr 2026 00:15:00 +0800

看显卡推理速度测试时，最容易把人看晕的不是分数本身，而是这些缩写：

1
2
3

CUDA Scoreboard for Llama 2 7B, Q4_0 (no FA)
pp512 t/s
tg128 t/s

下面直接按最常见的问题拆开解释。

这行标题整体是什么意思

CUDA Scoreboard for Llama 2 7B, Q4_0 (no FA) 通常包含四层信息：

CUDA：说明跑分是在 NVIDIA GPU 的 CUDA 路径上完成的
Llama 2 7B：说明测试对象是 Llama 2 的 7B 参数版本
Q4_0：说明模型用了 4-bit 量化格式
no FA：说明这次测试关闭了 Flash Attention

一句话理解：这是某个量化版模型在 NVIDIA 显卡上的推理速度测试，而且没有开启 Flash Attention。

FA 是什么：Flash Attention

FA 就是 Flash Attention，它是注意力计算的加速技术。核心作用可以直接记成三点：

更快
更省显存
在数学上和普通注意力等价，不是“牺牲精度换速度”

no FA 是什么意思

no FA 就是没开 Flash Attention。它通常出现在跑分表里，主要是为了：

做对照组，方便看出开启 FA 后到底提升了多少
兼容某些不支持 FA 的硬件或软件环境
避免不同测试项混在一起，导致数据不可比

Q4_0 是什么：量化格式

Q4_0 是一种 4-bit 量化格式，可以先这样记：

Q：Quantization，量化
4：4-bit
_0：某一种具体量化方案的标识

它的作用是：

减少模型体积
降低显存需求
让本来装不下的模型变得能跑起来

pp512 t/s 是什么意思

pp512 一般是 Prompt Processing 512 tokens，测的是输入处理速度。

pp：prompt processing
512：测试输入长度是 512 token
t/s：每秒多少 token

它测的不是模型吐字速度，而是模型“先把输入读完”的速度。这个阶段并行度高，所以数值通常会很大，比如：

`1`	`pp512 ≈ 14000 t/s`

tg128 t/s 是什么意思

tg128 一般是 Text Generation 128 tokens，测的是输出生成速度。

tg：text generation
128：测试连续生成 128 token
t/s：每秒多少 token

它更接近我们平时感受到的“模型回答快不快”。因为生成是逐 token 递推的，所以它通常会明显低于 pp512，例如：

pp512 是上万 t/s
tg128 却只有几百 t/s

为什么 pp512 和 tg128 会差这么多

核心原因就一句话：

pp512 测的是并行吞吐，tg128 测的是逐 token 生成。`

具体来说：

输入阶段更容易并行
输出阶段更依赖逐步递推
生成阶段通常更吃显存带宽和缓存效率
所以生成速度远低于输入处理速度是正常现象

t/s 到底怎么理解

t/s 就是 tokens per second。它表示模型每秒能处理或生成多少 token。

但 token 不是“字”也不是“单词”，所以 t/s 更适合做这些对比：

同模型下不同显卡对比
同环境下不同参数设置对比
同一框架里开启或关闭某个优化项前后的对比

一页记住

Q4_0：模型被压缩成了 4-bit 量化版本
FA：是不是启用了 Flash Attention 加速
pp512：处理 512 token 输入时有多快
tg128：生成 128 token 输出时有多快
t/s：速度单位，每秒多少 token

结语

看这类显卡推理速度测试时，最重要的不是只看分高不高，而是先分清：

模型和量化格式
有没有开 FA
测的是输入处理还是文本生成
单位是不是 t/s

把这几件事分清楚，绝大多数 scoreboard 都不会太难读。

大模型常见张量类型入门：FP32、FP16、BF16、TF32 与 FP8

Wed, 22 Apr 2026 22:40:00 +0800

只要你开始接触大模型训练、推理或者部署，很快就会遇到一组高频缩写：FP32、FP16、BF16、TF32、FP8。它们看起来像是参数页上的几个附加标签，但实际影响远不止“写法不同”。

这些类型决定了数字在显存里怎么存、在计算中怎么表示，也直接影响模型训练是否稳定、推理速度如何，以及一张显卡到底能装下多大的模型。

所以如果你想真正理解大模型里的精度取舍，最值得先补的一课，不是某个具体模型的跑分，而是先把这些常见张量类型各自是什么、为什么会这样设计搞清楚。

张量类型到底在决定什么

大模型本质上是海量参数参与的矩阵运算，而张量类型就是这些数字在显存里如何存、在计算中如何表示。

它的核心取舍通常围绕三个维度展开：

精度
显存占用
计算速度

这和图片格式其实很像。无损格式保留细节更多，但体积大、加载慢；压缩格式会丢掉一部分肉眼不敏感的信息，换来更小的体积和更快的处理速度。大模型之所以能接受这种取舍，是因为在极大量参数里，很多微小数值变化并不会明显影响最终输出。

也正因为如此，模型世界里才会出现一整套不同精度的张量格式。

一个数字是怎么被表示的

理解这些格式之前，可以先记住一个非常基础的结构。一个浮点数通常由三部分组成：

符号位：决定正负
指数位：决定数值范围
尾数位：决定数值精细程度

在大模型里，尾数精度当然重要，但很多时候模型更怕的是数值范围不够，也就是指数位太小，导致溢出或者训练不稳定。很多张量格式的设计，本质上就是在“范围”和“细节”之间重新分配有限的 bit 数。

下面这张图可以先帮你建立一个整体印象：

FP32：最稳，但太贵

FP32 是最传统的单精度浮点格式，总共 32 bit，也就是 4 个字节。

它的优点很直接：

数值范围大
精度高
训练最稳

但问题也同样明显：太占显存。

一个非常粗略的估算方式是：

`1`	`显存占用 ≈ 参数量 × 每个参数的字节数`

如果一个 27B 模型完全用 FP32 存权重，那么光权重本身就大约需要：

`1`	`27B × 4 bytes ≈ 108GB`

这还没算激活值、KV Cache、优化器状态和其他运行开销。也就是说，FP32 在今天的大模型推理和训练里，已经不是“默认选择”，而更像是“最稳的基线格式”。

FP16：体积减半，但稳定性一般

FP16 把每个参数压缩到 2 个字节，显存占用相比 FP32 直接减半。

对于同一个 27B 模型，如果只看权重体积：

`1`	`27B × 2 bytes ≈ 54GB`

这就已经能解释为什么很多部署说明里，27B 模型的显存需求会落在 50GB 左右。

FP16 的优势很明显：

显存压力大幅下降
吞吐更高
早期混合精度训练大量使用

但它的问题在于指数位偏小，动态范围不够大。对于大模型训练来说，这会让溢出更容易发生，需要额外依赖 loss scaling 一类技巧来补救，工程上比较麻烦。

所以现在 FP16 仍然常见，但在很多场景里，它已经不再是最舒服的选择。

BF16：大模型时代更实用的半精度

BF16 同样只占 2 个字节，但和 FP16 的设计重点不一样。

它保留了更大的指数范围，让它在动态范围上更接近 FP32，只是牺牲了一部分尾数精度。这种取舍对大模型尤其友好，因为很多时候模型对“范围”更敏感，对尾数少几位反而没那么敏感。

这也是为什么现在很多训练框架、很多大模型论文和大量实际部署方案，都更偏向 BF16。

你可以把它理解成：

显存成本接近 FP16
稳定性体验更接近 FP32

如果一套 27B 部署方案写的是 50GB 左右显存，而另一套经过进一步优化后接近 30GB，前者往往还停留在 FP16/BF16 这一层，后者则通常已经继续向更低精度或量化方向走了。

TF32：不是省显存，而是加速 FP32 工作流

TF32 很容易被误会成“又一种更省的格式”，但它的定位其实不太一样。

从常见理解上看，它可以近似看成一种保留了较大指数范围、但缩短了尾数精度的计算格式。

不过要注意，TF32 更像是一条 Tensor Core 计算路径里的内部计算格式，而不是像 FP16/BF16 那样主要拿来做权重存储。

它主要是 NVIDIA 在较新的 GPU 上提供的一种计算模式，目标不是减少显存占用，而是让原本基于 FP32 的训练流程，在尽量不大改代码的前提下跑得更快。

它的特点可以概括成一句话：

对外看起来还是 FP32 工作流
底层在矩阵乘法时做了更快的近似计算

所以 TF32 主要解决的是“FP32 太慢”的问题，而不是“FP32 太占显存”的问题。如果你关心的是为什么同一个模型部署时显存需求不一样，TF32 不是最主要的答案。

FP8：进一步压缩，但更考验工程能力

再往下走就是 FP8。它把单个数值继续压缩到更少 bit 数，进一步降低显存带宽和存储成本。

它常见的不是单一一种格式，而是两类变体：E4M3 和 E5M2。

但 FP8 的代价也很明显：位数太少以后，你很难同时兼顾范围和精度，因此实际工程里通常会针对不同阶段采用不同变体，分别照顾前向、反向和梯度的稳定性。

这类格式代表的是一种更激进的思路：

愿意牺牲更多精度
换取更低的存储和更高的吞吐
需要更成熟的硬件和训练框架配合

它很有前景，但对普通使用者来说，日常最常碰到的核心分界点，通常还是 FP32、FP16 和 BF16。

为什么理解这些类型很重要

很多人第一次看到这些缩写，会把它们理解成“模型下载页上的一些实现细节”。但实际上，它们会直接改变你对模型训练和部署的理解方式。

比如同样一张显卡：

为什么有些模型训练必须强调数值稳定性
为什么有些推理方案会优先谈量化和低精度
为什么看起来参数量相近的模型，部署门槛却差很多
为什么有些格式适合存权重，有些格式更适合做计算路径

这些问题往下拆，最后几乎都会回到同一个核心：你到底怎么在“精度、范围、显存和速度”之间做取舍。

也正因为这样，理解 FP32、FP16、BF16、TF32 和 FP8，不只是为了看懂术语表，而是为了在面对训练配置、推理引擎和部署门槛时，知道这些数字背后到底在交换什么。

一个实用的理解框架

如果你不想一上来就记一堆格式细节，可以先用下面这个顺序理解：

FP32：最稳、最贵
FP16：更省显存，但范围偏小
BF16：显存接近 FP16，稳定性更适合大模型
TF32：主要解决 FP32 太慢，不主要解决显存
FP8：更激进的压缩和加速路线

当你以后再看到模型下载页里写着 fp16、bf16、fp8，或者看到不同部署教程给出完全不一样的显存门槛时，就不会再觉得那只是“写法不同”。它们背后其实对应的是完全不同的精度预算和工程取舍。

结语

大模型里的张量类型，表面上是在讨论 bit 数，实际上讨论的是一整套工程取舍。

FP32、FP16、BF16、TF32 和 FP8 没有绝对的好坏，它们只是分别站在不同的位置上，帮你在稳定性、范围、精度、显存和速度之间做平衡。

如果把这一层看懂，后面无论你是在读训练论文、调推理参数，还是比较不同部署方案，都会更容易抓住重点。

16G 显卡也能跑 35B 模型：LM Studio 下 MoE 模型的显存压缩思路

Wed, 22 Apr 2026 21:47:34 +0800

很多人对 16G 显存的印象是：本地部署大模型时，差不多也就跑到 12B 到 14B，量化之后再往上就很吃力了。这个判断不算离谱，但也不是 16G 显卡的真正上限。

如果模型选型和参数设置都合适，16G 显卡并不只能停留在“小参数量模型”这一档。围绕这件事，一套比较有代表性的思路是：在 LM Studio 里利用 MoE 模型和合理的卸载策略，把 35B 级模型跑到比较可用的速度。

01 为什么 16G 显卡不一定只能跑 12B 到 14B

这里的核心观点很直接：显存大小固然重要，但模型架构同样重要。

如果你拿一个标准稠密模型去硬塞进 16G 显卡，确实很快就会遇到瓶颈。因为这类模型在推理时通常要参与全部参数计算，显存压力和带宽压力都会直接上来。

但 MoE 模型不一样。它的总参数量可以很大，可是在单次推理时，只会激活其中一部分专家参数。以 35B 级模型为例，虽然总参数规模不小，但单次推理实际参与计算的参数量要小得多，所以它对显存的实际要求没有想象中那么夸张。

也正因为这样，16G 显卡在面对这类模型时，并不是完全没有操作空间。

02 实测重点：35B MoE 模型可以跑得很快

一个重点案例，是 Qwen 3.5 35B A3B 一类的 MoE 模型量化版本。在 16G 显卡配合 LM Studio 做参数调整后，Q6 量化大约能跑到 30 多 tokens/s，此前 Q4 量化甚至能测到更高的速度。

这个结果之所以有参考价值，不只是因为“能跑”，而是因为速度已经进入了“明显可用”的区间。

作为对比，同类大参数量但不是 MoE 的模型，在 16G 显卡上如果直接硬跑，往往会出现爆显存、速度明显掉下来的情况。换句话说，决定结果的不是单纯看参数总量，还要看模型在推理时到底怎么用这些参数。

03 在 LM Studio 里，重点不只一个参数

想在 16G 显卡上把这类模型跑顺，关键不是“碰运气”，而是调对两个参数：

GPU Offload
强制把部分专家层加载到 CPU 内存的参数

第一项比较好理解，GPU Offload 基本就是能拉多高就拉多高，让模型尽量优先使用显卡计算。

第二项才是这里的关键。它的作用不是传统意义上那种“显存爆了以后再借系统内存”，而是主动把一部分专家层放到 CPU 内存里，提前降低显存占用。因为 MoE 模型本来就不是每次都要把所有专家都激活，所以把一部分专家放到内存里，对整体推理速度的影响没有很多人想象中那么夸张。

更稳妥的做法，是先在一个区间里尝试，再根据自己的机器慢慢调：

可以先把相关参数设到 20 到 35 之间
然后结合显存占用和内存压力，逐步微调

本质上，这套方法就是用系统内存去换显存空间。

04 128K 上下文下也能跑，缩小上下文还能继续压显存

还有一个比较有意思的点：测试时把上下文长度拉到了 128K，在这种偏激进的设置下，35B 级 MoE 模型依然能跑出比较高的速度。

这说明一个问题，16G 显卡的瓶颈没有想象中那么死板。尤其在 LM Studio 这种本地推理工具里，很多时候不是“能不能运行”的二选一，而是：

你愿不愿意拿更多内存换显存
你愿不愿意缩短上下文长度
你愿不愿意接受不同量化版本之间的能力差异

如果把上下文从 128K 进一步收缩到 64K 或 32K，显存压力还可以继续下降。也就是说，某些 35B 级 MoE 模型甚至可能在更小显存的显卡上勉强跑起来，只是速度和内存压力要重新权衡。

05 这种方法的代价：对系统内存和虚拟内存要求更高

这类方案并不是白送性能。

需要注意的是，当显存压力被进一步压缩时，系统内存占用会明显上升，虚拟内存的压力也会变大。换句话说，你省下来的不是成本，只是把压力从显卡挪到了内存和磁盘交换空间上。

所以如果你也想照着试，最好先确认几件事：

你的系统内存是否足够
虚拟内存是否留得够大
机器后台是否还有很多占资源的软件在运行

如果这些条件跟不上，最终看到的可能不是“35B 也能飞快跑”，而是整体系统都被拖慢。

06 量化版本也不是越激进越好

这里还有一个实际选择：虽然更低位数的量化通常能进一步节省显存，但不一定是最合适的方案。

作者给出的经验是，某些模型在 Q4 下速度确实更高，但对原始能力的影响也更明显；相对来说，Q6 在速度和能力保留之间更平衡。所以最终不一定要无脑追求最小体积，而是要看你更在意什么：

如果你主要追求速度和塞进显存
或者你更在意模型原有能力的保留

这两种取向，对应的量化选择可能并不一样。

07 哪些模型思路值得试

从这个思路来看，最值得尝试的并不是“盲目追大参数量”，而是优先找适合这种玩法的模型：

MoE 架构模型
在 LM Studio 里支持较好、量化版本较全的模型
对长上下文或指令跟随有明确优势的模型

除了主讲的 35B MoE 模型，这类方案也适合延伸到一些其他方向，比如偏长上下文记忆、指令遵循表现更好的实验性模型，以及一些速度表现不错的轻量量化版本。

这类推荐背后的逻辑其实很统一：先找架构上适合“内存换显存”的模型，再谈参数调优，而不是先看参数量再决定能不能跑。

08 简单总结

如果你手里正好是一张 16G 显卡，觉得本地大模型最多只能玩 12B 到 14B，这种想法可以稍微更新一下。

更准确的说法应该是：

16G 显卡跑大模型并不是完全没戏
稠密模型和 MoE 模型要分开看
LM Studio 里的 GPU Offload 和专家层转移到 CPU 内存的参数，能明显改变显存占用情况
你实际上是在用更高的内存压力，换更大的模型规模和更高的可用速度

这套思路不一定适合所有机器，但它至少说明了一点：本地部署大模型时，显存上限不是唯一限制，模型架构和推理配置同样重要。

Ollama 多显卡使用笔记：显存叠加、GPU 选择和常见误区

Sun, 19 Apr 2026 00:18:00 +0800

折腾 Ollama 本地推理时，经常会遇到类似问题：我现在有一张显卡，主板还有空 PCIe 槽，再加几张 GPU 对 Ollama 有帮助吗？多显卡是否必须同型号？显存能不能叠加？会不会像训练框架那样多卡并行加速？

这篇整理一下 Ollama 多显卡的实际行为。重点先说结论：

Ollama 支持多 GPU。
多 GPU 最大价值通常是让更大的模型放进总显存，而不是线性提升 token/s。
默认策略下，如果模型能完整放进某一张 GPU，Ollama 倾向于放在单卡上。
如果模型无法完整放进单张 GPU，Ollama 会把模型分布到可用 GPU 上。
不同型号 GPU 可以被 Ollama 看到并使用，但性能和分配效果不一定理想。
不需要 SLI / NVLink 才能用多卡。
想限制 Ollama 使用哪些 GPU，需要用 CUDA_VISIBLE_DEVICES、ROCR_VISIBLE_DEVICES 或 GGML_VK_VISIBLE_DEVICES。

官方行为：先单卡，放不下再多卡

Ollama FAQ 里对多 GPU 加载逻辑说得比较直接：加载新模型时，Ollama 会估算模型所需 VRAM，并和当前可用显存比较。如果模型能完整放进某一张 GPU，它会加载到那张 GPU 上；如果单张 GPU 放不下，才会分布到所有可用 GPU 上。

这个策略的原因是性能。单卡加载通常能减少推理时跨 PCIe 总线的数据传输，因此往往更快。

所以不要把 Ollama 的多 GPU 理解成“有几张卡就自动几倍加速”。更准确的理解是：

小模型能进单卡：通常单卡跑。
大模型单卡放不下：跨多卡分层加载。
显存仍不够：一部分会落到系统内存，速度会明显下降。

可以用下面命令确认模型到底加载到了哪里：

`1`	`ollama ps`

输出里的 PROCESSOR 会显示类似：

1
2
3

100% GPU
48%/52% CPU/GPU
100% CPU

如果看到 48%/52% CPU/GPU，说明已经有一部分在系统内存里了。此时多加 GPU 或换更大显存的卡，通常比继续依赖 CPU/RAM 更有意义。

多 GPU 不是简单叠算力

本地大模型推理和游戏里的 SLI 不是一回事。Ollama 多卡时，更常见的是把模型的不同层或张量放到不同设备上。这样可以用多张卡的显存装下更大的模型，但推理过程中仍然可能需要设备之间传递数据。

因此，多 GPU 带来的收益通常分两种：

显存收益：更容易装下大模型，或者避免落到 CPU/RAM。
性能收益：只有在原本单卡装不下或严重混 CPU 时，提升才会很明显。

如果一个 8B 或 14B 模型本来就能完整放进单张 3090，强行拆到两张卡不一定更快，甚至可能因为跨卡传输变慢。Ollama 官方默认“能单卡就单卡”的策略，就是为了避免这类不必要的跨 PCIe 开销。

不需要 SLI 或 NVLink

Ollama 多 GPU 不依赖 SLI。多张普通 PCIe GPU 只要驱动和 Ollama 能识别，就可以被调度。

NVLink 或更高 PCIe 带宽可能对某些跨卡场景有帮助，但它不是 Ollama 多 GPU 的前提条件。很多二手 GPU 服务器或工作站，靠普通 PCIe 多卡也能跑。

真正要注意的是 PCIe 带宽。x1、x4、x8、x16 的差异会影响模型加载到显存的速度；如果频繁切换大模型，PCIe 链路会更容易成为瓶颈。模型加载完成后，生成阶段受 PCIe 的影响通常会小一些，但跨卡分层仍然可能带来额外开销。

比较稳的建议是：

能用 x16 / x8 就不要用矿卡 x1 转接。
大模型频繁切换时，PCIe 带宽更重要。
如果模型长期常驻显存，PCIe 带宽瓶颈会相对不明显。
多卡机器要重点看主板 PCIe 拓扑和 CPU 直连通道。

如何限制 Ollama 使用哪些 NVIDIA GPU

NVIDIA 多卡环境下，用 CUDA_VISIBLE_DEVICES 控制 Ollama 能看到哪些卡。

临时运行：

`1`	`CUDA_VISIBLE_DEVICES=0,1 ollama serve`

只让 Ollama 用第二张卡：

`1`	`CUDA_VISIBLE_DEVICES=1 ollama serve`

强制不用 NVIDIA GPU，可以给一个无效 ID：

`1`	`CUDA_VISIBLE_DEVICES=-1 ollama serve`

官方文档提醒，数字 ID 的顺序可能变化，更可靠的是用 GPU UUID。先查看 UUID：

`1`	`nvidia-smi -L`

输出类似：

1
2

GPU 0: NVIDIA GeForce RTX 3090 (UUID: GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx)
GPU 1: NVIDIA GeForce RTX 3070 (UUID: GPU-yyyyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy)

然后指定 UUID：

`1`	`CUDA_VISIBLE_DEVICES=GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx ollama serve`

如果 Ollama 是 Linux systemd 服务安装的，需要写到服务环境变量里：

`1`	`sudo systemctl edit ollama.service`

加入：

1
2

[Service]
Environment="CUDA_VISIBLE_DEVICES=0,1"

然后重载并重启：

1
2

sudo systemctl daemon-reload
sudo systemctl restart ollama

AMD 和 Vulkan 的选择变量

AMD ROCm 环境下，用 ROCR_VISIBLE_DEVICES 控制可见 GPU：

`1`	`ROCR_VISIBLE_DEVICES=0,1 ollama serve`

如果要强制不用 ROCm GPU，也可以用无效 ID：

`1`	`ROCR_VISIBLE_DEVICES=-1 ollama serve`

Ollama 官方 GPU 文档还提到，如果用实验性的 Vulkan 支持，可以通过 GGML_VK_VISIBLE_DEVICES 选择 Vulkan GPU：

`1`	`OLLAMA_VULKAN=1 GGML_VK_VISIBLE_DEVICES=0 ollama serve`

如果 Vulkan 设备有问题，可以禁用：

`1`	`GGML_VK_VISIBLE_DEVICES=-1 ollama serve`

AMD 多卡比 NVIDIA 更容易遇到驱动、ROCm 版本、GFX 版本支持的问题。官方文档中也提到 Linux 下 ROCm 驱动版本、HSA_OVERRIDE_GFX_VERSION 等兼容性处理。多张不同代 AMD 卡混用时，先确认每张卡是否单独可用，再考虑多卡。

Docker 里怎么暴露多张 GPU

如果用 Docker 跑 Ollama，NVIDIA 环境通常需要先安装 nvidia-container-toolkit，然后用 --gpus 暴露设备。

暴露全部 GPU：

docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

只暴露指定 GPU：

docker run -d \
  --gpus '"device=0,1"' \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

也可以结合环境变量：

docker run -d \
  --gpus=all \
  -e CUDA_VISIBLE_DEVICES=0,1 \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

如果容器里 nvidia-smi 看不到卡，Ollama 也不可能用到 GPU。先排查 Docker GPU passthrough，再排查 Ollama。

`OLLAMA_SCHED_SPREAD` 是什么

在一些多 GPU 配置讨论里，会看到 OLLAMA_SCHED_SPREAD=1 或 OLLAMA_SCHED_SPREAD=true。它和 Ollama 的调度策略有关，常被用于希望模型或请求更分散地利用多张 GPU 的场景。

可以这样设置：

`1`	`OLLAMA_SCHED_SPREAD=1 ollama serve`

或者 systemd：

1
2

[Service]
Environment="OLLAMA_SCHED_SPREAD=true"

不过它不是万能开关。开启后并不等于 token/s 线性增长，也可能因为多个模型同时加载、显存估算、上下文长度和 KV cache 增长导致 OOM。官方 FAQ 的核心策略仍然是：如果单 GPU 能完整容纳模型，单 GPU 通常更高效；单 GPU 放不下时才跨多 GPU。

所以建议把 OLLAMA_SCHED_SPREAD 当成高级调度实验项，而不是多卡必开项。先理解默认行为，再根据实际 ollama ps、日志和 nvidia-smi 观察结果调整。

怎么观察多卡是否真的用上

常用观察命令：

`1`	`ollama ps`

`1`	`watch -n 0.5 nvidia-smi`

查看 Ollama 服务日志：

`1`	`journalctl -u ollama -f`

如果使用 Docker：

`1`	`docker logs -f ollama`

你需要关注：

Ollama 是否发现兼容 GPU。
模型是否显示 100% GPU 或 CPU/GPU 混合。
每张卡显存是否有占用。
加载模型时是否多卡显存同时增长。
生成时 token/s 是否比 CPU/RAM 混跑明显改善。
是否频繁 OOM 或卸载模型。

如果只看 GPU 利用率，很容易误判。LLM 推理时 GPU 利用率不一定长期满载，尤其是多卡、低 batch、小上下文、慢 CPU 或慢 PCIe 环境下。

常见误区

误区 1：两张 12GB 显卡等于一张 24GB 显卡

不完全等价。多卡可以让模型跨设备放置，但跨卡访问有额外开销。它能解决“放不下”的问题，不一定等价于单张大显存卡的速度和稳定性。

误区 2：不同型号显卡不能混用

不一定。只要驱动、计算能力和运行库都支持，Ollama 可以看到多张 GPU。但混用时，速度通常受较慢卡、较小显存和 PCIe 拓扑影响。最稳的多卡配置仍然是同型号、同显存、同代驱动支持良好的卡。

误区 3：多卡一定比单卡快

不一定。如果模型能完整放进单张快卡，单卡可能更快。多卡主要适合大模型、长上下文、单卡显存不够的情况。

误区 4：必须有 NVLink / SLI

不需要。普通 PCIe 多卡也能被 Ollama 使用。NVLink 不是前提。

误区 5：加 GPU 后不用重启服务

不一定。Linux systemd 服务、Windows 后台应用、Docker 容器都可能需要重启，才能重新识别设备和环境变量。

选卡建议

如果目标是 Ollama 本地推理，优先级大致是：

单卡显存越大越省心。
同型号多卡比混合多卡更容易排错。
PCIe 通道越完整，加载大模型越舒服。
老卡要先确认 CUDA compute capability 或 ROCm 支持。
多卡电源、散热和机箱风道要提前算清楚。

对于预算有限的二手平台：

双 3090 仍然是很常见的大显存方案。
P40 / M40 这类老 Tesla 显存大，但功耗、散热、驱动和性能都要权衡。
4070 / 4070 Ti 这类新卡能效好，但单卡显存容量限制更明显。
多张 8GB 老卡能折腾，但不建议为了大模型长期使用。

小结

Ollama 多显卡支持可以理解成“显存扩展优先，性能加速其次”。如果模型能完整放进一张 GPU，默认单卡通常更快；如果单卡放不下，多卡可以把模型分布到多张 GPU 上，避免大量落到 CPU/RAM，从而让大模型变得可用。

实际配置时，先用 ollama ps 看模型加载位置，再用 nvidia-smi 或 ROCm 工具观察显存占用。需要限制 GPU 时，NVIDIA 用 CUDA_VISIBLE_DEVICES，AMD ROCm 用 ROCR_VISIBLE_DEVICES，Vulkan 用 GGML_VK_VISIBLE_DEVICES。如果在 Docker 中运行，先确保容器层面能看到 GPU。

多卡不是魔法。它能帮你装下更大的模型，但不保证线性加速。真正稳定好用的路线，仍然是尽量选大显存单卡或同型号多卡，并把驱动、PCIe、电源、散热和模型量化一起考虑。

参考链接

Ollama FAQ：How does Ollama load models on multiple GPUs?：https://github.com/ollama/ollama/blob/main/docs/faq.mdx
Ollama GPU 文档：Hardware support / GPU Selection：https://github.com/ollama/ollama/blob/main/docs/gpu.mdx
Ollama Docker Hub：https://hub.docker.com/r/ollama/ollama
NVIDIA Container Toolkit：https://github.com/NVIDIA/nvidia-container-toolkit

如何判断 Ollama 模型是否已加载到 GPU

Mon, 06 Apr 2026 10:15:18 +0800

想确认 Ollama 模型有没有真正跑在 GPU 上，最直接的方法是查看当前已加载模型的处理器占用信息。

使用命令

`1`	`ollama ps`

示例输出

1
2

NAME        ID            SIZE    PROCESSOR   UNTIL
llama3:70b  bcfb190ca3a7  42 GB   100% GPU    4 minutes from now

如何解读 `PROCESSOR` 列

100% GPU：模型完全加载在 GPU 显存中。
100% CPU：模型完全加载在系统内存中（未使用 GPU 推理）。
48%/52% CPU/GPU：模型部分在内存、部分在显存中，属于混合加载。

实用建议

如果你预期使用 GPU，但看到 100% CPU，先检查显卡驱动、CUDA/ROCm 环境和 Ollama 运行参数。
模型参数量较大、显存不足时，通常会出现 CPU/GPU 混合加载。
排查性能问题时，先执行 ollama ps 再看速度数据，能更快定位瓶颈。

总结

ollama ps 是判断模型是否真正使用 GPU 的第一步。重点看 PROCESSOR 列即可快速确认当前加载位置，并据此决定后续优化方向。

GPU on KnightLi的博客

Ubuntu 26.04 LTS 的 GPU 与硬件支持更新：CUDA、ROCm、DPC++ 和更多平台变化

1. Intel DPC++ 与相关组件进入 Ubuntu Archive

2. NVIDIA CUDA toolkit 现在也能直接 apt install

3. AMD ROCm 7.1.0 进入 Universe

4. 这一轮的重点，其实是三家 GPU 生态都在落地

5. NVIDIA Dynamic Boost 默认启用

6. Intel 新一代核显和独显支持继续往前走

7. Nvidia 桌面机的挂起恢复也更稳了

8. ARM、树莓派、RISC-V 和 IBM Z 也有硬门槛变化

ARM64 桌面平台

Raspberry Pi 新启动布局

Raspberry Pi 桌面镜像转向 desktop-minimal

树莓派 swap 交给 cloud-init

RISC-V 门槛上调

IBM Z 最低要求提升到 z15

9. 这篇内容更适合哪些人先看

10. 一句话总结

解决 Ollama 使用 CPU 而不使用 GPU 运算的问题

1. 先确认是不是“真的没用 GPU”

2. 先排除最常见的误区：模型装不进显存

3. 检查显卡驱动和底层环境是不是可用

NVIDIA 方向

AMD / ROCm 方向

4. 重启 Ollama 服务，不要只重开终端

5. 检查服务环境变量有没有真正传进去

6. AMD 平台重点看 ROCm 兼容性

7. Docker、WSL 或远程环境要额外检查设备映射

8. 最后再看日志，而不是一开始就瞎猜

排查顺序

NVIDIA nvbandwidth 是什么：GPU 带宽测试工具怎么用

1. nvbandwidth 是做什么的

2. 它测的不是一个单点数字

3. CE 和 SM 两类拷贝怎么理解

4. 运行它需要什么环境

5. 单机版怎么编译和运行

6. 多节点支持是它比较特别的地方

7. 新版 v0.9 更新了什么

8. 什么时候适合用它

9. 可以怎么理解它的价值

相关链接

如何检查 Tesla V100 是否存在 ECC 错误

特斯拉 V100 现在还能买吗：选购、ECC 检查、散热改造与 DIY 避坑

先说结论

一、先看年份和批次，对不上就要警惕

二、外观检查别只看芯片，要看电感、弹簧和框架

1. 先摸电感

2. 再看固定弹簧有没有被拆过

3. 框架太好拆，也不正常

三、底板如果太容易分离，要怀疑刷过 VBIOS 或动过手脚

四、ECC 怎么看：最重要的不是“是不是零”，而是增不增加

1. 实时错误最危险

2. 生命周期累计错误不一定可怕

3. 屏蔽页更值得看

五、别迷信“全零 ECC”，因为数据本身也可能被刷

六、压力测试不能省，但只测核心也不够

七、DIY 玩家最容易翻车的，不是买卡，而是散热和供电

1. 不要只盯着 GPU 平均温度

2. 底板散热一定要考虑

3. 低价拼装水冷方案风险很高

八、如果一定要 DIY，至少注意这几件事

九、啸叫和转接板个体差异，也都是现实问题

1. 啸叫不一定能彻底消除

2. 转接板个体差异很大

结语

llama.cpp ollama 显卡性能天梯：CUDA、ROCm、Vulkan

先看懂这些参数

Q4_0 是什么

pp512 是什么

tg128 是什么

FA 是什么

t/s 怎么看

先说结论

CUDA 完整榜单

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

Apple Silicon 参考口径

ROCm / HIP 完整榜单

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

2. NVIDIA CUDA toolkit 现在也能直接 `apt install`

1. `nvbandwidth` 是做什么的

3. `CE` 和 `SM` 两类拷贝怎么理解

7. 新版 `v0.9` 更新了什么

四、`ECC` 怎么看：最重要的不是“是不是零”，而是增不增加

`Q4_0` 是什么

`pp512` 是什么

`tg128` 是什么

`FA` 是什么

`t/s` 怎么看

`OLLAMA_SCHED_SPREAD` 是什么

如何解读 `PROCESSOR` 列