ROCm on KnightLi的博客

AMD ROCm 7.2 + ComfyUI 兼容性配置：Windows 上的 CUDA 平替怎么用

Fri, 08 May 2026 10:09:05 +0800

过去很长一段时间，本地 AI 绘图和视频工具几乎默认围绕 NVIDIA CUDA 展开。Stable Diffusion、ComfyUI、AnimateDiff、视频超分、LLM 推理和各种插件，大多优先适配 CUDA。AMD 显卡虽然显存性价比不错，但在 Windows 上经常要绕 DirectML、ZLUDA、Linux ROCm 或社区补丁，稳定性和教程一致性都不如 NVIDIA。

ROCm 7.2 系列让这个局面有了明显变化。AMD 在 CES 2026 期间发布 Ryzen AI 400 系列，并把 ROCm、Radeon、Ryzen AI 和 Windows AI 工作流放到同一条线上。官方文档显示，ROCm 7.2.1 已经面向 Windows 更新 AMD Radeon 和 Ryzen AI 处理器上的 PyTorch 支持，ComfyUI Desktop 也从 v0.7.0 开始提供官方 AMD ROCm 支持。

这不代表 AMD 已经完全追平 CUDA 生态，但至少说明一件事：在 Windows 上用 AMD 显卡跑 ComfyUI，正在从“折腾型方案”变成“可认真评估的方案”。

ROCm 7.2 系列带来了什么

ROCm 是 AMD 面向 GPU 计算和机器学习的开放软件栈，定位上对应 NVIDIA CUDA。它包括 HIP、编译器、数学库、深度学习库、Profiler、PyTorch 适配和一系列底层组件。

ROCm 7.2 系列对桌面用户最值得关注的变化有三点。

第一，Windows 支持更正式。AMD 的 Radeon/Ryzen ROCm 文档写明，Windows 上的 PyTorch 已经更新到 ROCm 7.2.1，覆盖 AMD Radeon 图形产品和 AMD Ryzen AI 处理器。这对 ComfyUI、Hugging Face Transformers 和本地推理工具很关键，因为大多数上层工具最终都要落到 PyTorch。

第二，硬件支持范围更清楚。官方文档提到，ROCm 7.2.1 支持 Radeon 9000 系列、部分 Radeon 7000 系列，以及 Ryzen AI Max 300、部分 Ryzen AI 400 和部分 Ryzen AI 300 APU。也就是说，不能看到“AMD 显卡”就默认全部支持，具体型号仍要查兼容矩阵。

第三，ComfyUI 有了官方入口。ComfyUI 官方博客在 2026 年 1 月宣布，Windows ComfyUI Desktop 从 v0.7.0 起支持 AMD ROCm。这对普通用户很重要，因为它减少了手动装环境、找 wheel、改启动参数的成本。

对想找 CUDA 平替的人来说，这些变化比单纯跑分更重要。AI 工具能不能长期使用，取决于驱动、框架、模型、插件和前端是否能稳定连起来。

哪些硬件更适合

目前 AMD 路线要分成三类看。

第一类是 Radeon 9000 系列。这是 ROCm 7.2 系列重点覆盖的新一代独显，优先级最高。如果你现在才准备买 AMD 显卡跑本地 AI，优先看这类型号。

第二类是部分 Radeon 7000 系列。它们属于 RDNA 3，已有一定 ROCm 支持基础，但不是所有型号都同等稳定。买之前必须查 AMD 官方兼容矩阵，尤其要确认 Windows、Linux、PyTorch 和目标工具是否同时支持。

第三类是 Ryzen AI APU。Ryzen AI 400 系列和 Ryzen AI Max 300 系列的意义在于把 CPU、GPU、NPU 和共享内存带进轻薄本、小主机和开发设备。它们更适合轻量推理、开发测试、移动办公和小规模 ComfyUI 工作流，不适合和高端独显硬拼大模型吞吐。

如果目标是流畅跑主流 AI 绘图，独显仍然更稳。APU 的优势是集成度和共享内存，适合尝鲜与便携，不适合承担重型视频生成或大批量出图。

Windows 下推荐路线

普通用户在 Windows 上跑 ComfyUI，建议优先使用 ComfyUI Desktop。原因很简单：它是官方支持路径，能减少环境冲突，也更容易跟随上游更新。

大致流程可以这样理解：

确认系统是 Windows 11，并更新 AMD Software: Adrenalin Edition。
确认显卡或 APU 在 AMD ROCm Radeon/Ryzen 兼容矩阵内。
安装 ComfyUI Desktop v0.7.0 或更新版本。
让 ComfyUI Desktop 使用 AMD ROCm 后端。
首次启动后检查控制台里的 PyTorch/ROCm 信息。
先用基础 SDXL 或 Flux 工作流测试，再逐步安装插件。

如果使用手动版 ComfyUI，思路也类似：先装 Python，再装对应 ROCm 7.2 系列的 PyTorch，然后启动 main.py。AMD 官方 ComfyUI 安装文档提醒，运行后要确认终端里显示的是 ROCm 7.2.1 对应的 PyTorch 版本。

低显存设备可以加启动参数：

`1`	`python main.py --lowvram --disable-pinned-memory`

这两个参数不一定提升速度，但能减少部分内存和显存压力。对 8GB、12GB 或共享内存设备，先保证能稳定跑完，比追求单次出图速度更重要。

Linux 仍然更适合重度用户

ROCm 在 Windows 上变得更可用了，但 Linux 仍然是 AMD AI 工作流更成熟的环境。官方文档也显示，Radeon 在 Linux 上支持的框架更完整，包括 PyTorch、TensorFlow、JAX、ONNX、vLLM、Llama.cpp 和部分训练能力。

如果你的需求只是 ComfyUI 出图，Windows 已经值得尝试。
如果你还要跑 vLLM、训练 LoRA、批量视频生成、多卡、Docker、自动化脚本和长期服务，Linux 仍然更合适。

可以按需求选择：

Windows：适合桌面用户、ComfyUI Desktop、轻量绘图、本地尝鲜。
Linux：适合开发者、重度 AI 用户、服务器、批处理和更完整 ROCm 生态。
WSL：适合想留在 Windows 但需要 Linux 工具链的人，不过要确认 ROCDXG、驱动和硬件是否在支持范围内。

不要把 Windows ROCm 当成所有问题的答案。它解决的是入门门槛和桌面体验，重度生产仍要看 Linux 支持。

ComfyUI 插件兼容要谨慎

ComfyUI 的麻烦不只在主程序，而在插件生态。很多节点默认按 CUDA、xFormers、Triton、FlashAttention 或特定 PyTorch 扩展来写。换到 AMD ROCm 后，常见问题包括：

插件调用了 CUDA-only 扩展。
某些加速库没有 ROCm wheel。
自定义节点安装脚本默认检查 NVIDIA 环境。
视频节点依赖的编解码或光流库不支持 AMD。
新模型工作流默认使用 NVIDIA 优化配置。

因此，不建议一开始就把旧的 NVIDIA ComfyUI 整个目录搬过来。更稳的做法是先装干净环境，跑通基础模型，再逐个加插件。

推荐测试顺序：

基础文生图。
图生图。
LoRA。
ControlNet。
放大和高清修复。
AnimateDiff 或视频节点。
Flux、SD3、Wan、HunyuanVideo 等更重模型。

每加一类插件都做一次小测试。哪一步坏了，就能知道问题大概率来自哪个节点或依赖。

AMD 显卡跑 AI 绘图的优势

AMD 路线最大的吸引力是显存和价格。很多用户选择 AMD，不是因为它在 AI 软件生态上已经比 CUDA 更省心，而是因为同价位显存更大，适合本地创作和长时间试验。

大显存对 ComfyUI 很实际：

可以跑更大的 checkpoint。
可以提高分辨率。
可以加载更多 LoRA、ControlNet 和参考图节点。
可以减少低显存模式带来的速度损失。
视频生成和批量出图更不容易爆显存。

如果 ROCm 7.2 系列能让 Windows 上的 PyTorch 和 ComfyUI 稳定跑起来，AMD 显卡就会成为更现实的 CUDA 平替，尤其适合不想上云、又想保留较大本地显存的人。

仍然要接受的限制

AMD 路线现在能用，但还不是“无脑替代 CUDA”。

主要限制包括：

支持型号有限，老卡和部分中低端卡不一定在官方列表内。
Windows 上框架支持仍少于 Linux。
很多 AI 教程仍默认 NVIDIA。
部分 ComfyUI 插件只测过 CUDA。
遇到报错时，社区答案比 NVIDIA 少。
同一模型在不同后端的性能差异可能很大。

所以选 AMD 路线前，最好先确认三个问题：

你的显卡是否在官方兼容矩阵里。
你的主要工具是否明确支持 ROCm。
你的核心插件是否依赖 CUDA-only 扩展。

如果这三个问题都能接受，AMD 才是可靠选择。否则，省下来的硬件成本可能会被环境排错时间抵消。

小结

ROCm 7.2 系列让 AMD 在 Windows 本地 AI 上前进了一大步。Radeon 和 Ryzen AI 的 PyTorch 支持更明确，ComfyUI Desktop 也开始提供官方 ROCm 支持，这让 AMD 显卡第一次真正接近普通用户可接受的 CUDA 平替体验。

但“可用”不等于“全兼容”。目前最稳的策略是：先查兼容矩阵，再走官方安装路径，先跑基础 ComfyUI，再逐步添加插件和复杂视频工作流。Windows 适合轻量和桌面创作，Linux 仍适合重度开发和生产。

如果你追求最省心，CUDA 仍然是主流答案。
如果你愿意为更大显存和开放生态多做一点验证，ROCm 7.2 + ComfyUI 已经值得认真尝试。

参考资料

Ubuntu 26.04 LTS 的 GPU 与硬件支持更新：CUDA、ROCm、DPC++ 和更多平台变化

Sun, 26 Apr 2026 19:35:57 +0800

如果上一篇更像是 Ubuntu 26.04 LTS 的桌面总览，那这篇可以看作是它的硬件和算力补充版。官方在 26.04 这一轮里，把不少和 AI、GPU 计算、平台兼容性直接相关的内容都推进了主仓库或正式支持范围里。

先说结论：这次最值得关注的，不只是桌面和内核升级，而是 Ubuntu 正在把 Intel、NVIDIA、AMD 三家的 GPU 计算栈都更系统地纳入发行版生态。

1. Intel DPC++ 与相关组件进入 Ubuntu Archive

从 26.04 开始，Intel 开源的 oneAPI DPC++ 编译器已经可以直接从 Ubuntu Archive 获取，用来构建 SYCL 代码。运行时里也包含了面向 Intel GPU 的适配器。

同时进入 Ubuntu 仓库的，还有两个相关组件：

oneDPL，也就是 DPC++ library，提供更高生产力的开发接口
oneDNN，并且是基于 dpclang-6 构建，可在 Intel GPU 上运行

这意味着，如果你本身就在看 SYCL、异构计算或者 Intel GPU 上的 AI 工作负载，Ubuntu 现在给出的路径更直接了，不用再完全依赖单独维护的一套外部环境。

官方还特别提醒了一点：如果要实际调用这些 Intel GPU 相关能力，用户需要在 render 组里。

2. NVIDIA CUDA toolkit 现在也能直接 `apt install`

对很多开发者和运维来说，这可能是这份更新里最实用的一条。

从 26.04 开始，NVIDIA CUDA toolkit 已经可以直接通过 Ubuntu Archive 安装。命令就是：

`1`	`sudo apt install cuda-toolkit`

这背后的意义，不只是“少输几条命令”。

对面向 Ubuntu 分发软件的开发者来说，新的模式意味着可以直接声明对 CUDA runtime 的依赖，后续安装与兼容性由 Ubuntu 在发行版层面处理。这会让 CUDA 在 Ubuntu 上的可获得性更高，也更接近系统原生能力，而不是额外叠一层单独维护的外部软件栈。

3. AMD ROCm 7.1.0 进入 Universe

AMD 这边，Ubuntu Universe 里现在已经包含 ROCm 7.1.0。

这套库主要提供的是：

面向 AMD GPU 的 AI 训练与推理后端能力
机器学习与高性能计算相关的软件基础设施

官方还提到，Canonical 在自己的 CI/CD 流程里会持续测试 ROCm 相关组件，除了 autopkgtests，还覆盖了一些用户态应用，包括：

llama.cpp
pytorch
Blender
Lemonade Server

这条信息其实很关键，因为它说明 Ubuntu 不是单纯“把包放进仓库”，而是在按一个可维护的软件栈去验证它。

4. 这一轮的重点，其实是三家 GPU 生态都在落地

把 DPC++、CUDA 和 ROCm 放在一起看，会更容易理解 26.04 的方向：

Intel：推进 SYCL / oneAPI 相关能力进入官方仓库
NVIDIA：让 CUDA toolkit 具备发行版级的安装路径
AMD：把 ROCm 7.1.0 纳入 Universe，并做持续测试

如果你平时会在 Ubuntu 上碰这些场景，这一轮更新会比较有感：

本地大模型推理
GPU 加速训练或微调
Blender、科学计算、HPC
需要在多种 GPU 平台之间切换的开发环境

换句话说，Ubuntu 现在不只是“能装显卡驱动”，而是开始更完整地承接 AI 和 GPU 计算所需的用户态软件栈。

5. NVIDIA Dynamic Boost 默认启用

从 25.04 开始，支持的 NVIDIA 笔记本已经默认启用 Dynamic Boost。

这个功能的逻辑很直接：系统会根据当前负载，在 CPU 和 GPU 之间动态分配功耗。对游戏场景来说，常见收益就是在需要的时候把更多功率给 GPU，以换取更高性能。

不过它有两个前提：

设备接着交流电
GPU 负载足够高

在电池供电状态下，它不会介入。

6. Intel 新一代核显和独显支持继续往前走

Ubuntu 这一轮也把对新 Intel GPU 的支持继续往前推，重点包括：

集成显卡：

Intel Core Ultra Xe2
Intel Core Ultra Xe3

独立显卡：

Intel Arc 5 B570
Intel Arc 5 B580
Intel Arc Pro B50
Intel Arc Pro B60
Intel Arc Pro B65
Intel Arc Pro B70

围绕这批设备，官方还列出了一些已经到位的特性：

基于 Intel Embree 的 GPU 和 CPU 光线追踪渲染性能提升，像 Blender 4.2+ 这类应用可受益
“Battlemage” 设备支持 AVC、JPEG、HEVC 和 AV1 的硬件视频编码
Intel Compute Runtime 引入新的 CCS 优化
Intel Xe GPU 调试支持已启用

如果你更关注后续版本，25.10 还会继续把一些新能力带进来，例如：

借助 Linux kernel 6.17 初步支持代号 Panther Lake 的下一代 Intel 客户端平台
改进 IOMMU、PCIe 子系统和多 GPU 支持
Mesa 25.2.3 为 Battlemage 和 Panther Lake 打开 VK_KHR_shader_bfloat16
intel-media-driver 25.3.0 增加 Panther Lake 解码和 VP9 编码支持
intel-compute-runtime 25.31 调整 Level Zero 的 USM 池和本地显存事件分配策略
level-zero 1.24 与 level-zero-raytracing 1.1.0 带来更完整的规范与 RTAS 扩展支持

7. Nvidia 桌面机的挂起恢复也更稳了

从 25.10 开始，Ubuntu 在专有 Nvidia 驱动里启用了挂起恢复支持，以减少桌面机唤醒后的损坏和卡死问题。

这类改动不算“看得见的新功能”，但对实际日用稳定性很重要，尤其是长期开机、经常挂起恢复的桌面环境。

8. ARM、树莓派、RISC-V 和 IBM Z 也有硬门槛变化

除了 GPU 软件栈，这份发布说明里还有几条平台层面的变化很值得单独记一下。

ARM64 桌面平台

从 25.10 开始，linux-generic 的 ARM64 内核会提供更广泛的桌面兼容性，覆盖那些使用 UEFI 启动的 ARM64 桌面平台。

Raspberry Pi 新启动布局

25.10 引入、26.04 继续调整的一个变化，是树莓派启动分区的新布局。

它的目标是提升启动可靠性：新写入的启动资源会先被“测试”，确认没问题后才会提交为新的 “known good” 集合。

这里最需要注意的是固件时间要求：

Pi 3 / 3+ / CM3+ / Zero 2W：不需要额外操作，固件在镜像内
Pi 4 / 400 / CM4：启动固件日期不得早于 2022-11-25
Pi 5 / 500 / CM5：启动固件日期不得早于 2025-02-11

检查命令是：

`1`	`sudo rpi-eeprom-update`

如果固件太旧，并且你使用的是 Ubuntu 24.04 LTS 或更新版本，可以这样更新：

1
2

sudo rpi-eeprom-update -a
sudo reboot

Raspberry Pi 桌面镜像转向 desktop-minimal

从 25.10 开始，树莓派版 Ubuntu Desktop 镜像改为基于 desktop-minimal，而不是完整的 desktop seed。

官方给出的收益很明确：默认预装应用更少，未压缩镜像和实际系统都能节省大约 777MB 空间。

如果升级后想批量移除这批默认应用，可以使用：

`1`	`sudo apt purge ubuntu-desktop --autoremove`

如果你想保留其中某些应用，先用 apt 把它们标记为手动安装即可。

树莓派 swap 交给 cloud-init

从 25.10 开始，树莓派桌面镜像里的 swap 文件创建改由 cloud-init 负责。
如果你想在首次启动前自定义 swap 大小，可以直接修改启动分区上的 user-data。

RISC-V 门槛上调

从 25.10 开始，Ubuntu 26.04 LTS 的 RISC-V 版本要求硬件实现 RVA23S64 ISA profile。

不满足这个要求的设备，已经不能运行 Ubuntu 26.04 LTS。如果你手里还是较早的 RVA20 处理器板卡，那还得继续留在 Ubuntu 24.04 LTS 这一代支持线上。

按照官方说明，截至 2026 年 4 月，现实里还没有可用的 RVA23S64 硬件，因此当前唯一受支持的平台，其实是基于 QEMU 并使用 -cpu rva23s64 配置的虚拟化环境。

IBM Z 最低要求提升到 z15

从 26.04 开始，s390x 架构最低要求提升到 z15。

这意味着：

z14 / LinuxONE II 以及更早平台，已经不能安装 Ubuntu 26.04 LTS
z15 / LinuxONE III 及更新平台，会得到更好的性能表现

9. 这篇内容更适合哪些人先看

如果你属于下面这些场景，这篇比桌面总览更值得优先看：

在 Ubuntu 上做 CUDA、ROCm、SYCL 或本地 AI 推理
用 Intel、NVIDIA、AMD GPU 做开发或计算任务
维护 Raspberry Pi、ARM64、RISC-V、IBM Z 等非标准 x86 平台
对升级后的驱动、运行时、仓库可用性和平台门槛更敏感

10. 一句话总结

Ubuntu 26.04 LTS 在硬件和 AI 软件栈上的重点，不是某一家显卡单独增强了什么，而是 Intel 的 DPC++、NVIDIA 的 CUDA、AMD 的 ROCm 都开始以更官方、更多仓库内、也更可维护的方式进入 Ubuntu 生态。

如果你过去把 Ubuntu 当作“先装系统，再自己拼 GPU 环境”的底座，那从 26.04 开始，它已经更像一个愿意主动承接 AI 与异构计算工作负载的发行版了。

解决 Ollama 使用 CPU 而不使用 GPU 运算的问题

Fri, 24 Apr 2026 18:30:00 +0800

本地跑大模型时，最让人困惑的一类问题就是：机器明明有显卡，Ollama 却还是主要吃 CPU，速度也慢得离谱。

先说结论，这类问题通常不是单一原因。最常见的几类分别是：

Ollama 根本没有识别到可用 GPU
驱动、ROCm 或 CUDA 环境没装对
Ollama 服务启动时没有继承正确环境变量
模型太大，实际已经退回到 CPU 或 CPU/GPU 混合加载
AMD 平台存在额外兼容性问题，比如 ROCm 版本、gfx 代号或设备可见性设置不对

下面按最省时间的顺序排查。

1. 先确认是不是“真的没用 GPU”

最直接的方法是看：

`1`	`ollama ps`

重点看 PROCESSOR 一列。

100% GPU：说明模型完整跑在显卡上
100% CPU：说明完全没用上显卡
48%/52% CPU/GPU 这类结果：说明模型部分进显存、部分落到系统内存

如果你看到的是 100% CPU，后面就该重点查环境和服务配置。
如果看到的是混合加载，那不一定是“显卡没生效”，更可能是显存不够。

2. 先排除最常见的误区：模型装不进显存

很多人以为只要装了 GPU，Ollama 就一定会全显卡推理。实际上不是。

如果模型太大、上下文太长，或者机器上已经有别的模型占着显存，Ollama 很可能会退回到：

部分 GPU + 部分 CPU
直接 100% CPU

这时候可以先做两个最简单的验证：

换一个更小的模型测试
比如先用 4B、7B 这类小模型，而不是一上来就跑更大的参数量。
卸载其他已加载模型后再试
先看 ollama ps，确认没有别的模型占着显存。

如果小模型能上 GPU，大模型不行，问题往往就不在驱动，而在显存容量。

3. 检查显卡驱动和底层环境是不是可用

如果连小模型都只能跑 CPU，下一步就该看底层环境。

NVIDIA 方向

先确认驱动正常，系统能看到显卡。常见检查方式包括：

`1`	`nvidia-smi`

如果这里都报错，Ollama 基本不可能正常使用 GPU。

AMD / ROCm 方向

如果你是 AMD GPU，尤其是 ROCm 环境，重点先看：

1
2

rocminfo
rocm-smi

如果这些工具都不能正常列出设备，说明问题还在 Ollama 之前，先不要继续折腾应用层。

对 AMD 来说，最常见的问题不是“有没有装驱动”，而是：

ROCm 版本和系统版本不匹配
当前 GPU 架构支持不完整
设备虽然存在，但运行环境没有正确暴露给 Ollama

4. 重启 Ollama 服务，不要只重开终端

这是非常高频的坑。

很多人装完驱动、改完环境变量、补完 ROCm 之后，只是重新开了一个终端，然后直接继续 ollama run。但如果 Ollama 是以后台服务方式运行，它很可能还在用旧环境。

所以更稳的做法是：

完整重启 Ollama 服务
必要时直接重启系统

如果你是在 Linux 上以服务方式运行，通常要确认服务进程已经重新拉起，而不是沿用之前的旧进程。

5. 检查服务环境变量有没有真正传进去

这一步在 AMD ROCm 环境尤其重要。

有些机器在终端里手动执行命令没问题，但 Ollama 服务还是只跑 CPU，原因是服务进程没有拿到你在 shell 里设置的变量。

常见需要关注的变量包括：

1
2

ROCR_VISIBLE_DEVICES
HSA_OVERRIDE_GFX_VERSION

其中：

ROCR_VISIBLE_DEVICES 用来限制或指定 ROCm 能看到哪些 GPU
HSA_OVERRIDE_GFX_VERSION 常见于某些 AMD 平台兼容性处理

如果你只是在当前终端里临时 export 了变量，但 Ollama 是 systemd、桌面后台服务或其他守护进程启动的，这些变量未必会生效。

也就是说，终端里“看起来已经设置好了”，不代表 Ollama 真的拿到了。

6. AMD 平台重点看 ROCm 兼容性

从公开页面信息看，这个问题对应的视频主题本身就落在 AMD Max+ 395、strix halo、AMD ROCm 这条线上。
这类环境里，Ollama 不走 GPU，往往比 NVIDIA 平台更依赖版本匹配。

可以优先排查下面几项：

ROCm 版本是否适合当前系统和当前显卡
当前 GPU 是否属于 ROCm 支持较好的架构范围
是否需要补 HSA_OVERRIDE_GFX_VERSION
是否是旧版 Ollama 或旧版底层推理库导致兼容问题

如果你已经确认 rocminfo 正常、GPU 也能被系统识别，但 Ollama 仍然只跑 CPU，那大概率要回到版本组合上重新检查，而不是继续盲目调模型参数。

7. Docker、WSL 或远程环境要额外检查设备映射

如果你不是直接在裸机跑，而是在下面这些环境里运行：

Docker
WSL
远程容器
虚拟化环境

那还要多看一层：GPU 设备有没有真正暴露进去。

典型现象是：

宿主机能看到 GPU
容器里 Ollama 却只能跑 CPU

这时要先确认不是 Ollama 本身的问题，而是容器或子系统根本没拿到 GPU 访问权限。

8. 最后再看日志，而不是一开始就瞎猜

如果前面都查过了，最有效的做法不是继续反复重装，而是直接看 Ollama 启动日志和运行日志。

重点看两类信息：

有没有识别到 GPU
有没有出现驱动、库加载、设备初始化失败之类的报错

只要日志里明确出现类似“未找到兼容 GPU”或“初始化 ROCm/CUDA 失败”，排查方向就会立刻清晰很多。

排查顺序

如果你只想记最短路径，可以按这个顺序来：

ollama ps 看现在到底是 GPU、CPU 还是混合加载
换一个更小的模型，排除显存不够
用 nvidia-smi、rocminfo、rocm-smi 先确认底层环境正常
完整重启 Ollama 服务
检查服务环境变量，尤其是 AMD 的 ROCR_VISIBLE_DEVICES、HSA_OVERRIDE_GFX_VERSION
如果是 Docker / WSL，再检查设备映射
最后看日志定位具体报错

llama.cpp ollama 显卡性能天梯：CUDA、ROCm、Vulkan

Thu, 23 Apr 2026 09:58:11 +0800

先看懂这些参数

`Q4_0` 是什么

Q4_0 是一种 4-bit 量化格式。它的意义不是“模型更强”，而是“模型更小、更省显存、更容易塞进更多设备里”。这些榜单大多统一用 Llama 2 7B, Q4_0，核心目的是减少变量，让不同 GPU 的成绩更容易横向比较。

`pp512` 是什么

pp512 一般可以理解为 prompt processing 512 tokens，也就是处理 512 个输入 token 时的吞吐。

pp = prompt processing
512 = 输入长度是 512 token
t/s = tokens per second

它更像“吃提示词的速度”，通常能并行得更充分，所以数字往往很高。

`tg128` 是什么

tg128 一般可以理解为 text generation 128 tokens，也就是连续生成 128 个 token 时的速度。

tg = text generation
128 = 连续生成 128 token
t/s = tokens per second

它更接近我们平时感受到的“模型回答快不快”。因为生成阶段是逐 token 递推，所以通常明显低于 pp512。

`FA` 是什么

FA 是 Flash Attention。简单理解就是注意力计算的一种优化开关。

with FA 表示启用了 Flash Attention
no FA 表示关闭 Flash Attention

在不少卡上，FA 对 pp512 的提升比对 tg128 更明显；但不同后端、不同驱动和不同架构之间，提升幅度并不一致，个别设备甚至会出现 PP 升、TG 变化很小，或者 PP 反而下降的情况。

`t/s` 怎么看

t/s 就是 tokens per second。它不是帧率，也不是 FLOPS，而是模型吞吐表现的直接结果。

读榜单时最重要的一点是：先确认你在比的是不是同一种测试。

不要把 pp512 和 tg128 直接混着比
不要把 no FA 和 with FA 混着比
不要把 CUDA、ROCm、Vulkan 的结果当成完全等价的同一条曲线

先说结论

从这几条讨论串当前可见的数据看，大致可以先记住这几个结论：

CUDA 仍然是目前 llama.cpp GPU 跑分里最强、样本也最密集的一条线，特别是高端 Nvidia 卡在 pp512 上优势很大。
ROCm 在高端 AMD 卡和 Instinct 卡上已经能给出非常像样的成绩，MI300X、7900 XTX、W7900 这些条目都不弱。
Vulkan 的优点不是“绝对最快”，而是覆盖面最广，Nvidia、AMD、Intel、Apple Asahi / MoltenVK，甚至很多老卡和核显都能找到条目。
tg128 往往更接近日常体感，pp512 更适合看吞吐能力。很多“榜一”卡，在两项里领先幅度并不完全一样。

CUDA 完整榜单

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14073.41 ± 115.16	290.02 ± 1.10	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	14854.63 ± 22.73	274.20 ± 0.14	79c1160	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	9918.34 ± 176.97	267.81 ± 1.54	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	4849.53 ± 8.94	190.88 ± 0.33	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	10293.86 ± 134.72	189.33 ± 0.19	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	11992.70 ± 107.99	186.21 ± 0.13	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	8297.36 ± 9.50	181.99 ± 0.42	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	6952.38 ± 13.73	176.85 ± 0.07	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	9229.23 ± 101.78	176.07 ± 0.26	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6567.49 ± 20.30	171.19 ± 3.98	9c35706	@slaren
RTX 3090	24 GB / GDDR6X / 384 bit	5174.69 ± 21.83	158.16 ± 0.21	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	8870.49 ± 378.76	152.01 ± 0.28	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	8125.15 ± 41.05	148.33 ± 0.20	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	8031.64 ± 26.49	142.49 ± 0.16	20638e4	@Ristovski
RTX 3080	10 GB / GDDR6X / 320 bit	5013.86 ± 24.80	139.65 ± 0.99	9c35706	@slaren
RTX A6000	48 GB / GDDR6 / 384 bit	4913.93 ± 6.79	138.73 ± 2.75	4795c91	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	6924.53 ± 13.87	132.26 ± 0.16	9c35706	@Ristovski
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	4992.83 ± 113.52	131.66 ± 0.20	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4028.16 ± 19.14	130.07 ± 2.74	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	3042.64 ± 40.71	129.08 ± 0.05	51f5a45	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5184.75 ± 18.70	127.54 ± 0.46	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	4609.01 ± 10.67	124.11 ± 0.17	3470a5c	@Hedede
A30	24 GB / HBM2e / 3072 bit	2767.10 ± 1.88	124.81 ± 0.16	583cb83	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2617.46 ± 2.10	108.79 ± 0.05	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	2890.66 ± 2.42	107.51 ± 0.21	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	2751.18 ± 19.43	102.77 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	2709.95 ± 3.35	102.68 ± 0.03	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	2827.20 ± 66.43	97.32 ± 2.80	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	3737.25 ± 6.79	90.94 ± 0.02	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2088.34 ± 1.94	88.06 ± 0.28	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2684.06 ± 15.28	83.77 ± 0.37	65349f2	@TinyServal
Titan Xp	12 GB / GDDR5X / 384 bit	1154.96 ± 1.46	76.08 ± 0.08	c4510dc	@Hedede
RTX 3060	12 GB / GDDR6 / 192 bit	2137.50 ± 10.12	75.57 ± 0.07	baa9255	@QuantiusBenignus
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1536.89 ± 0.90	65.62 ± 0.62	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3394.63 ± 7.44	63.86 ± 0.01	89d1029	@mike-llamacpp
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1084.41 ± 3.01	62.49 ± 0.06	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	2779.77 ± 9.91	61.83 ± 0.04	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1420.24 ± 1.95	60.04 ± 0.01	5c0eb5e	@ggerganov
Tesla P100	16 GB / HBM2 / 4096 bit	760.80 ± 2.92	58.35 ± 0.00	b8372ee	@Hedede
DGX Spark	128 GB / LPDDR5x	3062.31 ± 11.02	57.21 ± 0.06	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1007.42 ± 1.23	54.74 ± 0.07	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	1956.22 ± 7.74	50.62 ± 0.04	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1219.06 ± 4.18	46.38 ± 0.73	d32e03f	@pt13762104
RTX 4050 Laptop	6 GB / GDDR6 / 96 bit	1725.85 + 17.85	43.72 + 0.41	d79d8f3	@TimCabbage
GTX 1660	6 GB / GDDR5 / 192 bit	148.91 ± 0.01	41.35 ± 0.02	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	282.65 ± 0.15	38.04 ± 0.02	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	714.44 ± 2.04	37.82 ± 0.02	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	991.31 ± 1.15	33.58 ± 0.14	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	514.53 ± 3.06	33.29 ± 0.00	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	406.94 ± 0.25	30.40 ± 0.02	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	416.85 ± 1.75	27.79 ± 0.02	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	79.44 ± 0.01	27.82 ± 0.18	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	309.30 ± 0.05	23.63 ± 0.00	baa9255	@TinyServal
Quadro P1000	4 GB / GDDR5 / 128 bit	183.40 ± 0.11	13.99 ± 0.13	1e74897	@aleksyx
Tesla K80	12 GB / GDDR5 / 384 bit	133.14 ± 0.55	13.80 ± 0.02	32732f2	@pebaryan

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14970.15 ± 381.06	300.40 ± 0.28	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	16618.98 ± 20.66	281.11 ± 0.41	5143fa8	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	11263.29 ± 98.34	280.74 ± 1.17	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	5285.96 ± 6.58	200.90 ± 0.12	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	12506.97 ± 11.51	191.57 ± 0.03	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	14770.63 ± 102.93	188.96 ± 0.05	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	9487.70 ± 21.89	184.68 ± 0.05	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	8419.56 ± 35.50	182.43 ± 0.09	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	10576.85 ± 530.21	179.47 ± 0.32	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6924.01 ± 10.76	172.26 ± 1.31	9c35706	@slaren
RTX PRO 4500 Blackwell	32 GB / GDDR7 / 256 bit	7251.66 ± 92.40	168.90 ± 0.20	becc481	@Hedede
RTX 3090	24 GB / GDDR6X / 384 bit	5560.06 ± 16.28	161.89 ± 0.18	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	10097.64 ± 671.22	153.76 ± 0.12	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	9439.01 ± 56.75	147.48 ± 1.41	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	9205.93 ± 22.31	143.47 ± 0.02	20638e4	@Ristovski
RTX A6000	48 GB / GDDR6 / 384 bit	5662.39 ± 13.87	144.87 ± 0.18	4795c91	@Hedede
RTX 3080	10 GB / GDDR6X / 320 bit	5569.56 ± 14.04	139.95 ± 0.95	9c35706	@slaren
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	5674.44 ± 139.53	136.38 ± 0.13	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4552.15 ± 9.68	135.83 ± 0.11	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	2973.78 ± 3.62	134.76 ± 0.02	51f5a45	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	7612.32 ± 37.35	132.85 ± 0.31	9c35706	@Ristovski
A30	24 GB / HBM2e / 3072 bit	3068.72 ± 0.63	131.93 ± 0.18	583cb83	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5783.44 ± 36.95	128.21 ± 2.52	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	5256.38 ± 19.39	126.24 ± 0.06	3470a5c	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2481.25 ± 1.31	112.17 ± 0.01	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	3107.61 ± 4.34	109.17 ± 0.07	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	3053.96 ± 1.37	104.38 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	3052.35 ± 5.64	103.63 ± 0.02	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	3453.10 ± 49.19	103.00 ± 0.25	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	4195.53 ± 1.98	93.46 ± 0.01	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2293.29 ± 5.91	87.71 ± 0.29	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2807.83 ± 52.44	85.17 ± 0.66	65349f2	@TinyServal
RTX 3060	12 GB / GDDR6 / 192 bit	2407.67 ± 3.73	76.92 ± 0.03	baa9255	@QuantiusBenignus
Titan Xp	12 GB / GDDR5X / 384 bit	1218.12 ± 1.82	73.84 ± 0.04	c4510dc	@Hedede
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1662.80 ± 2.04	67.62 ± 0.67	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3803.45 ± 70.80	64.03 ± 0.53	89d1029	@mike-llamacpp
Tesla P100	16 GB / HBM2 / 4096 bit	787.36 ± 3.27	61.99 ± 0.00	b8372ee	@Hedede
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1138.14 ± 2.02	61.38 ± 0.03	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	3171.86 ± 4.34	61.37 ± 0.01	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1563.77 ± 0.51	61.13 ± 0.05	5c0eb5e	@ggerganov
DGX Spark	128 GB / LPDDR5x	3661.37 ± 38.66	56.74 ± 0.03	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1079.66 ± 0.18	53.73 ± 0.05	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	2250.14 ± 5.91	50.71 ± 0.01	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1309.73 ± 1.02	44.03 ± 0.57	d32e03f	@pt13762104
GTX 1660	6 GB / GDDR5 / 192 bit	154.45 ± 0.52	41.43 ± 0.01	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	290.17 ± 0.11	39.98 ± 0.01	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	790.52 ± 2.39	37.87 ± 0.00	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	1171.96 ± 4.70	35.88 ± 0.18	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	529.53 ± 2.12	33.12 ± 0.03	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	438.49 ± 0.38	30.64 ± 0.06	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	446.19 ± 0.81	28.18 ± 0.01	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	27.46 ± 0.23	27.46 ± 0.23	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	311.55 ± 0.19	23.76 ± 0.01	baa9255	@TinyServal
Tesla K80	12 GB / GDDR5 / 384 bit	133.36 ± 0.60	14.27 ± 0.32	32732f2	@pebaryan
Quadro P1000	4 GB / GDDR5 / 128 bit	173.82 ± 0.02	13.65 ± 0.14	1e74897	@aleksyx

Apple Silicon 参考口径

#4167 这条讨论和后三条最大的区别，是它更早建立了统一口径，除了 Q4_0，还会顺带放 F16 和 Q8_0。它对理解 PP / TG / t/s 很有帮助。

讨论里直接给出的说明是：

PP 表示 prompt processing
TG 表示 text-generation
t/s 表示 tokens per second

文中可见的一个时间对比样例，是 M2 Ultra 在同一台机器上随着版本和 FA 演进后的成绩：

时间	设备	版本/说明	带宽 GB/s	GPU 核心	F16 PP	F16 TG	Q8_0 PP	Q8_0 TG	Q4_0 PP	Q4_0 TG
2023-11-21	M2 Ultra	8e672ef	800	76	1401.85	41.02	1248.59	66.64	1238.48	94.27
2024-11-12	M2 Ultra	86ed72d + FA	800	76	1525.95	43.15	1368.18	73.11	1391.78	108.80
2025-08-02	M2 Ultra	5c0eb5e + FA	800	76	1561.35	43.24	1386.97	73.35	1412.42	109.41

讨论正文前部还给了几台 Apple Silicon 设备的统一样例：

设备	Q4_0 PP	Q4_0 TG	Q8_0 PP	Q8_0 TG	F16 PP	F16 TG
M1 Pro 16 GPU	266.25	36.41	270.37	22.34	302.14	12.75
M2 Ultra 76 GPU	1238.48	94.27	1248.59	66.64	1401.85	41.02
M3 Max 40 GPU	690.99	65.85	749.37	43.00	794.26	25.27

Apple 这条线这里不展开全文搬运，后面重点看你指定的三类独显后端榜单。

ROCm / HIP 完整榜单

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11476.40 ± 72.79	232.92 ± 0.53	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3552.27 ± 101.96	167.11 ± 0.50	2f0c2db	@Diablo-D3
Instinct MI210	64 GB / HBM2e / 4096 bit	2486.22 ± 9.58	124.51 ± 0.04	8160b38	@65a
Pro W7900	48 GB / GDDR6 / 384 bit	3213.17 ± 80.47	121.18 ± 0.06	8160b38	@65a
RX 7900 XT	20 GB / GDDR6 / 320 bit	3098.38 ± 24.02	116.15 ± 0.06	1e15bfd	@AdamNiederer
RX 9070	16 GB / GDDR6 / 256 bit	2381.77 ± 3.68	114.48 ± 0.60	d0660f2	@andj1210
Instinct MI100	32 GB / HBM2 / 4096 bit	2732.83 ± 1.98	110.48 ± 0.14	9c35706	@firefox42
RX 9070 XT	16 GB / GDDR6 / 256 bit	5055.19 ± 109.58	101.27 ± 0.27	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2151.81 + 17.94	100.94 + 0.10	00131d6	@olegshulyakov
Instinct MI50	32 GB / HBM2 / 4096 bit	1057.24 ± 0.53	98.95 ± 0.25	97d5117	@wtarreau
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1456.98 ± 12.39	96.07 ± 0.10	6fa3b55	@MihaiBojescu
AI PRO R9700	32 GB / GDDR6 / 256 bit	4443.54 ± 339.25	93.84 ± 0.26	bd4ef13	@gogich77
Instinct MI60	32 GB / HBM2 / 4096 bit	1289.11 ± 0.62	91.46 ± 0.13	504af20	@Said-Akbar
RX 6900 XT	16 GB / GDDR6 / 256 bit	1889.84 ± 31.21	88.49 ± 0.00	a972fae	@notgood
Pro VII	16 GB / HBM2 / 4096 bit	1064.99 ± 1.18	87.45 ± 0.04	2739a71	@8XXD8
RX 6800 XT	16 GB / GDDR6 / 256 bit	1447.07 ± 1.36	83.92 ± 0.03	79c1160	@MrLavender
Pro V620	32 GB / GDDR6 / 256 bit	1803.65 ± 2.54	74.66 ± 0.01	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1419.67 ± 3.64	67.58 ± 0.24	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	354.17 ± 0.18	67.55 ± 0.04	c05e8c9	@daniandtheweb
Instinct MI25	16 GB / HBM2 / 2048 bit	409.83 ± 0.23	63.94 ± 0.06	2739a71	@8XXD8
AI Max+ 395	128 GB / LPDDR5	911.36 ± 1.79	50.01 ± 0.07	e60f241	@firefox42
RX 7600 XT	16 GB / GDDR6 / 128 bit	1099.64 ± 2.05	48.58 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	240.68 ± 0.09	48.46 ± 0.09	ec428b0	@davispuh
Radeon 8060S	System Shared / DDR5	351.36 ± 0.67	47.97 ± 0.33	1d0125b	@hspak
Radeon 880M	System Shared / DDR5	163.25 ± 13.86	12.97 ± 1.63	c55d53a	@Hedede

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11945.97 ± 54.29	218.53 ± 0.09	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3874.25 ± 11.92	170.12 ± 0.56	2f0c2db	@Diablo-D3
Pro W7900	48 GB / GDDR6 / 384 bit	3472.86 ± 52.86	127.43 ± 0.12	8160b38	@65a
Instinct MI210	64 GB / HBM2e / 4096 bit	2571.82 ± 2.89	130.18 ± 0.06	8160b38	@65a
RX 9070	16 GB / GDDR6 / 256 bit	2452.68 ± 1.33	115.32 ± 0.52	d0660f2	@andj1210
RX 7900 XT	20 GB / GDDR6 / 320 bit	3261.75 ± 9.09	112.30 ± 0.06	1e15bfd	@AdamNiederer
Instinct MI50	32 GB / HBM2 / 4096 bit	1129.43 ± 0.15	105.82 ± 0.07	97d5117	@wtarreau
Instinct MI100	32 GB / HBM2 / 4096 bit	2755.00 ± 3.68	104.71 ± 0.10	9c35706	@firefox42
AI PRO R9700	32 GB / GDDR6 / 256 bit	4773.07 ± 49.30	97.98 ± 0.13	bd4ef13	@gogich77
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1598.79 ± 11.48	97.53 ± 0.06	6fa3b55	@MihaiBojescu
RX 9070 XT	16 GB / GDDR6 / 256 bit	4903.51 ± 96.36	97.28 ± 0.13	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2304.63 + 2.85	95.99 + 0.21	00131d6	@olegshulyakov
RX 6900 XT	16 GB / GDDR6 / 256 bit	1948.31 ± 13.51	85.04 ± 0.02	a972fae	@notgood
Pro V620	32 GB / GDDR6 / 256 bit	1256.86 ± 0.55	70.83 ± 0.02	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1479.27 ± 0.71	65.42 ± 0.19	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	314.17 ± 0.29	62.02 ± 0.05	c05e8c9	@daniandtheweb
AI Max+ 395	128 GB / LPDDR5	1003.53 ± 2.91	49.87 ± 0.02	e60f241	@firefox42
Radeon 8060S	System Shared / DDR5	366.08 ± 1.44	48.97 ± 0.15	1d0125b	@hspak
RX 7600 XT	16 GB / GDDR6 / 128 bit	1199.16 ± 1.07	47.65 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	153.17 ± 0.72	42.46 ± 0.40	ec428b0	@davispuh
Radeon 880M	System Shared / DDR5	213.31 ± 14.05	16.16 ± 1.41	c55d53a	@Hedede

Vulkan 完整榜单

Llama 2 7B, Q4_0, no FA

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	10381.64 ± 508.84	263.63 ± 0.91	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3531.93 ± 31.74	191.28 ± 0.20	2f0c2db
Nvidia RTX 4090	9452.03 ± 187.70	187.97 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 5080	7444.99 ± 20.11	185.10 ± 0.54	f6b533d	coopmat2
Nvidia A100	6389.86 ± 4.83	160.78 ± 0.16	2257758	coopmat2
Nvidia RTX 3090	4298.97 ± 10.59	160.13 ± 0.25	4ae88d0	coopmat2
Nvidia RTX 4080 Super	7101.18 ± 269.79	147.13 ± 5.64	81086cd	coopmat2
Nvidia RTX 3080	4287.11 ± 55.50	139.15 ± 0.05	7c7d6ce	coopmat2
Nvidia RTX A5000	3641.55 ± 9.05	139.89 ± 0.69	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	5036.04 ± 88.16	137.11 ± 0.02	e9fd8dc
Nvidia RTX 5070 Ti	6213.63 ± 27.72	135.63 ± 0.18	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4036.04 ± 34.58	130.19 ± 0.39	3191462
Nvidia Tesla V100	1391.39 ± 1.19	129.58 ± 0.58	7d77f07
Nvidia RTX 4070 Ti Super	6099.18 ± 154.30	129.45 ± 0.18	4ae88d0	coopmat2
AMD Radeon RX 7900 XT	2941.58 ± 17.17	123.18 ± 0.40	71e74a3
AMD Radeon RX 9070	3164.10 ± 66.84	119.71 ± 3.40	21c17b5
AMD Radeon RX 7800 XT	2017.33 ± 19.30	118.27 ± 0.27	4fdbc1e
AMD Radeon RX 7900 GRE	2336.31 ± 7.52	116.11 ± 0.26	4b2a477
Apple M3 Ultra	1116.83 ± 0.55	115.54 ± 0.78	2d451c8	MoltenVK
Intel Arc Pro B70	3379.00 ± 47.92	112.02 ± 1.08	b863507
Nvidia Titan V	984.36 ± 4.13	108.86 ± 0.28	e56abd2
AMD Radeon Pro VII	1078.54 ± 0.86	107.82 ± 0.14	N/A
AMD Radeon RX 6900 XT	1837.21 ± 25.44	104.60 ± 0.30	a972fae
Intel Arc Pro A60	2261.11 ± 9.53	104.25 ± 0.07	97d5117
AMD Radeon RX 6800 XT	1752.92 ± 1.71	100.32 ± 0.97	N/A
AMD Radeon VII	1059.14 ± 0.56	101.19 ± 0.53	77d6ae4
Nvidia RTX 2080 Ti	1888.24 ± 9.20	97.58 ± 6.60	N/A
AMD Radeon RX 6800	1698.69 ± 0.80	95.61 ± 0.19	4b385bf
AMD Radeon Pro W6800X Duo	687.71 ± 4.33	94.82 ± 0.12	N/A
Nvidia RTX 5060 Ti	3460.92 ± 7.16	93.51 ± 0.15	89f10ba	coopmat2
Nvidia RTX 4070	3179.37 ± 46.16	92.29 ± 0.28	9a48399
AMD Radeon Pro W6800X	510.80 ± 0.13	86.47 ± 0.46	13b4548	MoltenVK
AMD Radeon RX 6700 XT	1051.20 ± 0.98	83.88 ± 0.08	6d75883
AMD Radeon RX 6750 XT	1040.58 ± 0.35	81.98 ± 0.03	228f34c
AMD Radeon Pro V620	1595.32 ± 1.59	81.78 ± 0.06	03d4698
Nvidia RTX 3070	2113.02 ± 7.38	78.71 ± 0.13	1b8fb81
AMD Radeon Instinct MI60	369.26 ± 2.48	78.16 ± 1.40	504af20
Nvidia RTX 3060	1815.70 ± 5.85	75.94 ± 0.80	92c0b38	coopmat2
Apple M4 Max	724.77 ± 20.93	75.02 ± 0.14	1ece0cb6
Nvidia Tesla T10	1692.70 ± 2.05	75.01 ± 0.21	7f76692	coopmat2
Nvidia RTX A4000	2248.14 ± 7.59	73.74 ± 0.08	f5245b5	coopmat2
AMD Radeon RX 5700 XT	529.69 ± 0.26	70.73 ± 0.04	4fdbc1e
AMD Radeon RX 9060 XT	2141.67 ± 6.87	70.54 ± 0.74	ed52f36
Intel Arc B580	620.94 ± 15.33	70.14 ± 0.28	7f76692
AMD Radeon Pro V540	583.88 ± 6.56	69.64 ± 0.24	9da3dcd
AMD Radeon Pro W5700	449.85 ± 0.46	68.55 ± 0.15	23bc779
Intel Arc Pro B60	522.36 ± 3.60	68.55 ± 0.01	516a4ca
Nvidia GTX 1080 Ti	540.69 ± 0.71	64.99 ± 0.08	360d653
Nvidia RTX 2070 Super	1199.13 ± 7.70	64.64 ± 0.20	b7552cf
Nvidia RTX 3070 Mobile	1689.40 ± 19.57	63.64 ± 0.39	ceff6bb	coopmat2
Nvidia Tesla P100	678.14 ± 1.40	63.16 ± 0.06	eec1e33
AMD BC-250	370.66 ± 0.04	62.32 ± 0.32	5886f4f
AMD Radeon RX 6650 XT	1029.52 ± 1.21	62.14 ± 0.02	dbb852b
Nvidia RTX 4060 Mobile	2135.66 ± 23.18	59.53 ± 0.03	a5c07dc	coopmat2
Nvidia Tesla P40	488.06 ± 0.27	59.36 ± 0.16	N/A
Nvidia GTX 1660 Ti Mobile	511.67 ± 2.85	56.60 ± 0.07	b43556e
AMD Radeon Instinct MI25	439.42 ± 0.34	54.69 ± 0.03	2739a71
AMD Radeon RX 6600 XT	574.65 ± 0.86	53.92 ± 0.11	091592d
AMD Ryzen AI Max+ 395	1288.96 ± 6.49	53.59 ± 0.38	7f76692
AMD Radeon RX 7600 XT	840.85 ± 3.02	53.02 ± 0.01	01d8eaa
Intel Arc A770	1073.85 + 29.68	52.56 + 0.11	a69d54f
Nvidia GB10	2737.79 ± 19.56	52.28 ± 0.03	b9da444	coopmat2
AMD FirePro S9300 x2	247.26 ± 0.43	51.86 ± 0.11	eec1e33	Split across two GPUs
AMD Radeon RX 6600	761.89 ± 1.76	50.63 ± 0.02	b1c70e2
AMD Radeon RX Vega 56	439.87 ± 0.61	50.23 ± 0.14	92c0b38
Intel Arc B570	913.95 ± 0.90	49.64 ± 0.03	7f76692
Nvidia RTX 3060 Mobile	1059.76 ± 3.54	49.03 ± 0.13	dbb3a47
AMD Radeon RX 6800M	861.99 ± 7.67	48.71 ± 0.71	8e6f8bc
AMD Radeon RX 6600M	605.59 ± 0.65	48.21 ± 0.07	fe5b78c
Intel Arc A770M	875.92 ± 2.16	47.69 ± 0.16	eeee367
Nvidia P104-100	311.90 ± 0.22	46.18 ± 0.05	eec1e33
AMD Radeon RX Vega 64	356.08 ± 0.09	45.73 ± 0.18	ec428b0
Nvidia RTX A2000	1245.19 ± 8.76	45.52 ± 0.54	b1afcab	coopmat2
AMD Radeon RX 7600M XT	459.39 ± 2.34	45.28 ± 0.10	b9ab0a4	eGPU
AMD Radeon Pro V340	375.41 ± 0.24	45.16 ± 0.06	9da3dcd	Split across two GPUs
Nvidia GTX 1070 Ti	297.50 ± 0.54	42.86 ± 1.20	860a9e4	eGPU
Intel Arc A750	1075.94 ± 13.89	42.66 ± 0.18	c1b1876
Nvidia RTX 4050 Mobile	1154.28 + 15.76	41.89 + 0.10	d79d8f3
Nvidia GTX 1070	321.57 ± 0.93	41.48 ± 0.09	eec1e33
Intel Arc Pro B50	193.50 ± 0.24	39.99 ± 0.10	7b43f55
Nvidia Tesla M40	92.48 ± 0.02	39.35 ± 1.22	b8372ee
AMD Radeon RX 580	258.03 ± 0.71	39.32 ± 0.03	de4c07f
AMD Radeon RX 470	218.07 ± 0.56	38.63 ± 0.21	e288693
AMD Radeon Pro W5500	315.39 ± 3.76	36.82 ± 0.38	860a9e4
AMD Radeon RX 480	248.66 ± 0.28	34.71 ± 0.14	3b15924
Apple M2 Ultra	205.98 ± 0.02	34.34 ± 0.12	dbb852b	Asahi Linux
Nvidia GTX 980	186.24 ± 0.09	33.90 ± 0.51	860a9e4
Nvidia P106-100	183.78 ± 0.26	29.77 ± 0.04	23bc779
AMD FirePro W8100	155.22 ± 0.17	29.52 ± 0.05	4536363
Nvidia Tesla P4	265.54 ± 0.21	28.03 ± 0.14	24d2ee0
AMD Radeon RX 6500 XT	255.25 ± 0.35	27.81 ± 0.10	g9fdfcd
Apple M3	263.70 ± 0.02	26.39 ± 0.14	b9ab0a4	MoltenVK
AMD FirePro S10000	94.78 ± 0.02	25.32 ± 0.02	914a82d	Split across two GPUs
Nvidia Quadro P2000	169.55 ± 0.17	23.05 ± 0.03	63f8fe0
Intel Core Ultra 200 Series	544.95 ± 4.15	22.49 ± 0.09	cea560f
AMD Ryzen AI 9 300 Series	479.07 ± 0.41	22.41 ± 0.18	N/A
AMD Ryzen 6000 Series	240.89 ± 0.52	21.26 ± 0.08	ee09828
Apple M2 Pro	62.70 ± 0.03	20.95 ± 0.11	1fe0029	Asahi Linux
Nvidia GTX 1050 Ti	136.42 ± 0.67	20.96 ± 0.21	2f0c2db
AMD Ryzen 8000 Series	266.19 ± 1.36	20.53 ± 0.08	a5c07dc
AMD Ryzen 7000 Series	281.62 ± 1.56	19.91 ± 0.07	ebce03e
AMD Ryzen Z1 Extreme	199.36 ± 7.02	18.77 ± 0.02	53ff6b9
AMD FirePro D700	69.95 ± 0.04	16.62 ± 0.01	d3bd719	MoltenVK, running in FP16 mode on FP32 only chip
AMD Radeon Pro WX 4100	78.79 ± 0.10	16.05 ± 0.07	860a9e4
Apple M2	50.79 ± 0.16	13.50 ± 0.02	8c0d6bb	Asahi Linux
Apple M1	38.29 ± 0.00	12.47 ± 0.03	2370665	Asahi Linux
AMD Ryzen 5000 Series	90.55 ± 0.08	10.98 ± 0.07	d84635b
Intel Core 1100 Series	187.20 ± 1.78	10.39 ± 0.04	abb9f3c
AMD Radeon RX 550	52.66 ± 0.49	10.20 ± 0.01	N/A
AMD Ryzen 4000 Series	103.87 ± 0.02	9.63 ± 0.01	4b385bf
Nvidia Tesla K80	89.46 ± 0.10	9.39 ± 0.06	5d46bab	Running on single GPU
Nvidia Tesla K40	64.37 ± 0.09	9.30 ± 0.19	eec1e33
MediaTek Dimensity 9400	38.36 ± 15.15	8.92 ± 0.06	b9ab0a4	GPU supports coopmat but pp512 is faster with it turned off
Intel Core Ultra 100 Series	185.51 ± 0.22	8.21 ± 0.07	1d72c84
AMD Ryzen 3000 Series	48.63 ± 0.10	8.49 ± 0.01	1fe0029
CIX CD8180	2.80 ± 0.01	5.51 ± 0.00	4dca015
Intel Core 1000 Series	25.58 ± 0.00	4.25 ± 0.18	N/A
Intel Core 8000 Series	25.43 ± 0.17	3.35 ± 0.03	c4df49a
Intel N150	28.84 ± 0.02	2.93 ± 0.00	4f63cd7

Llama 2 7B, Q4_0, FA enabled

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	11796.38 ± 601.36	273.68 ± 0.52	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3332.90 ± 11.47	195.30 ± 0.23	2f0c2db
Nvidia RTX 5080	8054.59 ± 35.68	192.17 ± 0.21	f6b533d	coopmat2
Nvidia RTX 4090	10830.41 ± 36.25	190.10 ± 0.31	4ae88d0	coopmat2
Nvidia A100	7064.40 ± 1.63	170.56 ± 0.02	2257758	coopmat2
Nvidia RTX 3090	4732.33 ± 4.80	162.28 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 4080 Super	8007.37 ± 46.03	150.20 ± 0.26	81086cd	coopmat2
Nvidia RTX 3080	4913.83 ± 21.52	145.74 ± 0.16	7c7d6ce	coopmat2
Nvidia Tesla V100	1411.25 ± 2.12	142.13 ± 0.03	7d77f07
Nvidia RTX A5000	4071.22 ± 13.13	140.43 ± 0.22	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	4911.74 ± 28.52	138.20 ± 0.18	e9fd8dc
Nvidia RTX 5070 Ti	6764.53 ± 11.95	135.65 ± 0.02	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4333.83 ± 29.36	130.90 ± 0.12	3191462
AMD Radeon RX 7900 XT	3043.93 ± 10.42	124.20 ± 0.09	71e74a3
AMD Radeon RX 7800 XT	2094.64 ± 14.38	119.63 ± 0.13	4fdbc1e
AMD Radeon RX 9070	3277.24 ± 18.17	119.55 ± 0.06	21c17b5
AMD Radeon RX 7900 GRE	2402.07 ± 22.50	116.77 ± 0.08	4b2a477
Apple M3 Ultra	1115.55 ± 0.75	115.99 ± 0.12	2d451c8	MoltenVK
Intel Arc Pro B70	3314.53 ± 17.95	111.63 ± 0.05	b863507
Nvidia Titan V	792.74 ± 4.30	109.21 ± 0.72	e56abd2
AMD Radeon Pro VII	783.94 ± 0.77	108.45 ± 0.48	N/A
AMD Radeon RX 6900 XT	1761.93 ± 4.75	106.15 ± 0.04	a972fae
Nvidia RTX 2080 Ti	1936.25 ± 32.08	100.99 ± 0.24	N/A
AMD Radeon RX 6800 XT	1704.79 ± 0.71	100.50 ± 0.06	N/A
AMD Radeon Pro W6800X Duo	795.28 ± 0.72	100.08 ± 0.02	N/A
Nvidia RTX 5060 Ti	3912.65 ± 5.86	97.01 ± 0.14	89f10ba	coopmat2
AMD Radeon RX 6800	1749.46 ± 3.36	96.65 ± 0.48	4b385bf
Nvidia RTX 4070	4293.57 ± 27.70	91.49 ± 0.89	9a48399	coopmat2
AMD Radeon RX 6750 XT	997.05 ± 0.45	82.29 ± 0.06	228f34c
AMD Radeon RX 6700 XT	1010.90 ± 12.89	81.86 ± 0.19	6d75883
Nvidia RTX 3060	2012.88 ± 10.12	80.59 ± 0.02	92c0b38	coopmat2
AMD Radeon Pro V620	1556.31 ± 2.82	79.24 ± 0.09	03d4698
Nvidia RTX A4000	2482.74 ± 26.05	76.07 ± 0.08	f5245b5	coopmat2
Nvidia Tesla T10	1840.14 ± 1.22	76.05 ± 0.13	7f76692	coopmat2
AMD Radeon RX 5700 XT	538.31 ± 0.35	74.43 ± 0.03	4fdbc1e
Intel Arc B580	419.49 ± 3.37	72.00 ± 0.24	7f76692
Apple M4 Max	557.46 ± 26.87	71.79 ± 4.16	1ece0cb6
AMD Radeon Pro W5700	446.98 ± 0.39	71.30 ± 0.24	23bc779
Intel Arc Pro B60	274.76 ± 0.27	70.54 ± 0.03	516a4ca
AMD Radeon RX 9060 XT	1915.41 ± 7.90	70.52 ± 0.16	ed52f36
Nvidia Tesla P100	685.51 ± 0.88	66.48 ± 0.02	eec1e33
AMD Radeon RX 6650 XT	1088.90 ± 0.40	64.53 ± 0.75	dbb852b
Nvidia GTX 1080 Ti	529.96 ± 0.38	64.63 ± 0.10	360d653
AMD BC-250	356.87 ± 1.24	63.14 ± 0.09	5886f4f
Nvidia RTX 3070 Mobile	1832.07 ± 57.14	62.92 ± 0.37	ceff6bb	coopmat2
Nvidia RTX 4060 Mobile	2358.03 ± 12.17	60.01 ± 0.08	a5c07dc	coopmat2
Nvidia Tesla P40	484.37 ± 0.27	59.22 ± 0.15	N/A
Nvidia GTX 1660 Ti Mobile	514.34 ± 0.88	57.30 ± 0.42	b43556e
AMD Radeon RX 7600 XT	1024.38 ± 7.56	56.11 ± 0.02	01d8eaa
AMD FirePro S9300 x2	243.33 ± 0.22	55.64 ± 0.06	eec1e33	Split across two GPUs
Nvidia GB10	3279.89 ± 26.78	53.64 ± 0.05	b9da444	coopmat2
AMD Radeon RX 6600	808.76 ± 0.15	53.24 ± 0.03	b1c70e2
Intel Arc A770	1119.68 + 30.25	53.07 + 0.09	a69d54f
AMD Ryzen AI Max+ 395	1357.07 ± 10.94	53.00 ± 0.13	7f76692
AMD Radeon RX Vega 56	428.54 ± 0.50	52.66 ± 0.03	92c0b38
Intel Arc B570	288.51 ± 0.09	50.49 ± 0.05	7f76692
Nvidia P104-100	325.30 ± 0.25	48.64 ± 0.04	eec1e33
AMD Radeon Pro V340	360.23 ± 0.74	47.54 ± 0.06	9da3dcd	Split across two GPUs
AMD Radeon RX 6800M	784.16 ± 2.76	49.06 ± 0.34	8e6f8bc
AMD Radeon RX Vega 64	320.12 ± 0.22	47.06 ± 0.01	ec428b0
Nvidia RTX A2000	1361.85 ± 3.26	45.69 ± 0.20	b1afcab	coopmat2
Intel Arc A770M	384.74 ± 0.78	45.68 ± 0.06	eeee367
Intel Arc A750	303.37 ± 1.44	43.96 ± 0.03	c1b1876
Nvidia GTX 1070 Ti	292.85 ± 0.23	43.42 ± 0.34	860a9e4	eGPU
Nvidia GTX 1070	330.84 ± 1.02	43.33 ± 0.06	360d653
Nvidia Tesla M40	93.35 ± 0.01	41.68 ± 0.01	b8372ee
Intel Arc Pro B50	132.48 ± 0.04	41.02 ± 0.04	7b43f55
AMD Radeon RX 470	197.26 ± 0.27	37.28 ± 0.11	3769fe6
AMD Radeon RX 480	194.52 ± 0.61	37.23 ± 0.09	0bcb40b
Apple M2 Ultra	198.83 ± 0.85	198.83 ± 0.85	dbb852b	Asahi Linux
Nvidia GTX 980	180.97 ± 0.74	34.16 ± 0.10	860a9e4
Nvidia P106-100	183.40 ± 0.34	30.79 ± 0.32	23bc779
AMD FirePro W8100	140.52 ± 0.34	29.28 ± 0.14	4536363
Nvidia Tesla P4	287.14 ± 0.29	28.37 ± 0.24	24d2ee0
Nvidia Quadro P2000	181.71 ± 0.12	23.77 ± 0.02	63f8fe0
Intel Core Ultra 200 Series	536.48 ± 1.27	23.05 ± 0.04	cea560f
AMD Ryzen AI 9 300 Series	532.59 ± 3.55	22.31 ± 0.06	N/A
AMD Ryzen 6000 Series	277.91 ± 0.37	21.15 ± 0.09	ee09828
Apple M2 Pro	58.86 ± 0.02	20.97 ± 0.03	1fe0029	Asahi Linux
AMD Ryzen 8000 Series	297.39 ± 1.22	20.59 ± 0.38	a5c07dc
AMD Ryzen 7000 Series	312.85 ± 2.51	20.09 ± 0.35	835b2b9
Nvidia GTX 1050 Ti	127.54 ± 1.03	20.08 ± 0.17	2f0c2db
AMD Radeon Pro WX 4100	75.59 ± 0.19	16.56 ± 0.04	860a9e4
Apple M1	35.93 ± 0.00	12.85 ± 0.02	2370665	Asahi Linux
Apple M2	46.81 ± 0.08	12.25 ± 2.30	8c0d6bb	Asahi Linux
AMD Ryzen 5000 Series	79.06 ± 0.01	10.75 ± 0.00	5d195f1
Intel Core 1100 Series	174.77 ± 4.47	10.58 ± 0.03	abb9f3c
Nvidia Tesla K40	64.37 ± 0.02	9.92 ± 0.06	eec1e33
AMD Ryzen 4000 Series	113.32 ± 0.01	9.87 ± 0.01	4b385bf
Nvidia Tesla K80	88.26 ± 0.19	9.49 ± 0.01	5d46bab	Running on single GPU
AMD Ryzen 5 3000 Series	47.41 ± 0.14	8.47 ± 0.01	1fe0029
Intel Core Ultra 100 Series	77.66 ± 2.75	7.75 ± 0.05	2e89f76
Intel Core 8000 Series	25.55 ± 0.04	3.35 ± 0.02	c4df49a
Intel N150	25.59 ± 0.00	2.91 ± 0.00	4f63cd7

这些表格该怎么用

如果你只是想买卡或者看手里机器大概在哪个档位，最实用的读法其实是这三步：

先看你关心的是 tg128 还是 pp512。
日常对话、写代码、聊天体感，优先看 tg128；长上下文吞吐、批处理、服务端压 prompt，更应该看 pp512。
再看你实际跑的后端。
Nvidia 通常看 CUDA 更贴近真实上限；AMD 机器更应该先对照 ROCm 和 Vulkan；跨平台兼容场景则更适合参考 Vulkan。
最后再看 FA。
很多卡开启 FA 后 pp512 会涨得更明显，但 tg128 不一定同步大涨，所以不能只看单个最高分。

一句话总结

同样是 llama.cpp 跑分，pp512、tg128、Q4_0、FA、CUDA / ROCm / Vulkan 分别代表的是完全不同的维度。把口径先分清，再看数字，榜单才有意义。

如果你只想记一个最短结论，那就是：

CUDA 目前整体最强
ROCm 在高端 AMD 卡上已经很能打
Vulkan 覆盖最广，老卡、核显、Intel Arc、Apple Asahi 都能找到可比条目
tg128 比 pp512 更接近日常真实体感

原始来源

CUDA discussion #15013: https://github.com/ggml-org/llama.cpp/discussions/15013
Apple Silicon discussion #4167: https://github.com/ggml-org/llama.cpp/discussions/4167
ROCm discussion #15021: https://github.com/ggml-org/llama.cpp/discussions/15021
Vulkan discussion #10879: https://github.com/ggml-org/llama.cpp/discussions/10879

Ollama 多显卡使用笔记：显存叠加、GPU 选择和常见误区

Sun, 19 Apr 2026 00:18:00 +0800

折腾 Ollama 本地推理时，经常会遇到类似问题：我现在有一张显卡，主板还有空 PCIe 槽，再加几张 GPU 对 Ollama 有帮助吗？多显卡是否必须同型号？显存能不能叠加？会不会像训练框架那样多卡并行加速？

这篇整理一下 Ollama 多显卡的实际行为。重点先说结论：

Ollama 支持多 GPU。
多 GPU 最大价值通常是让更大的模型放进总显存，而不是线性提升 token/s。
默认策略下，如果模型能完整放进某一张 GPU，Ollama 倾向于放在单卡上。
如果模型无法完整放进单张 GPU，Ollama 会把模型分布到可用 GPU 上。
不同型号 GPU 可以被 Ollama 看到并使用，但性能和分配效果不一定理想。
不需要 SLI / NVLink 才能用多卡。
想限制 Ollama 使用哪些 GPU，需要用 CUDA_VISIBLE_DEVICES、ROCR_VISIBLE_DEVICES 或 GGML_VK_VISIBLE_DEVICES。

官方行为：先单卡，放不下再多卡

Ollama FAQ 里对多 GPU 加载逻辑说得比较直接：加载新模型时，Ollama 会估算模型所需 VRAM，并和当前可用显存比较。如果模型能完整放进某一张 GPU，它会加载到那张 GPU 上；如果单张 GPU 放不下，才会分布到所有可用 GPU 上。

这个策略的原因是性能。单卡加载通常能减少推理时跨 PCIe 总线的数据传输，因此往往更快。

所以不要把 Ollama 的多 GPU 理解成“有几张卡就自动几倍加速”。更准确的理解是：

小模型能进单卡：通常单卡跑。
大模型单卡放不下：跨多卡分层加载。
显存仍不够：一部分会落到系统内存，速度会明显下降。

可以用下面命令确认模型到底加载到了哪里：

`1`	`ollama ps`

输出里的 PROCESSOR 会显示类似：

1
2
3

100% GPU
48%/52% CPU/GPU
100% CPU

如果看到 48%/52% CPU/GPU，说明已经有一部分在系统内存里了。此时多加 GPU 或换更大显存的卡，通常比继续依赖 CPU/RAM 更有意义。

多 GPU 不是简单叠算力

本地大模型推理和游戏里的 SLI 不是一回事。Ollama 多卡时，更常见的是把模型的不同层或张量放到不同设备上。这样可以用多张卡的显存装下更大的模型，但推理过程中仍然可能需要设备之间传递数据。

因此，多 GPU 带来的收益通常分两种：

显存收益：更容易装下大模型，或者避免落到 CPU/RAM。
性能收益：只有在原本单卡装不下或严重混 CPU 时，提升才会很明显。

如果一个 8B 或 14B 模型本来就能完整放进单张 3090，强行拆到两张卡不一定更快，甚至可能因为跨卡传输变慢。Ollama 官方默认“能单卡就单卡”的策略，就是为了避免这类不必要的跨 PCIe 开销。

不需要 SLI 或 NVLink

Ollama 多 GPU 不依赖 SLI。多张普通 PCIe GPU 只要驱动和 Ollama 能识别，就可以被调度。

NVLink 或更高 PCIe 带宽可能对某些跨卡场景有帮助，但它不是 Ollama 多 GPU 的前提条件。很多二手 GPU 服务器或工作站，靠普通 PCIe 多卡也能跑。

真正要注意的是 PCIe 带宽。x1、x4、x8、x16 的差异会影响模型加载到显存的速度；如果频繁切换大模型，PCIe 链路会更容易成为瓶颈。模型加载完成后，生成阶段受 PCIe 的影响通常会小一些，但跨卡分层仍然可能带来额外开销。

比较稳的建议是：

能用 x16 / x8 就不要用矿卡 x1 转接。
大模型频繁切换时，PCIe 带宽更重要。
如果模型长期常驻显存，PCIe 带宽瓶颈会相对不明显。
多卡机器要重点看主板 PCIe 拓扑和 CPU 直连通道。

如何限制 Ollama 使用哪些 NVIDIA GPU

NVIDIA 多卡环境下，用 CUDA_VISIBLE_DEVICES 控制 Ollama 能看到哪些卡。

临时运行：

`1`	`CUDA_VISIBLE_DEVICES=0,1 ollama serve`

只让 Ollama 用第二张卡：

`1`	`CUDA_VISIBLE_DEVICES=1 ollama serve`

强制不用 NVIDIA GPU，可以给一个无效 ID：

`1`	`CUDA_VISIBLE_DEVICES=-1 ollama serve`

官方文档提醒，数字 ID 的顺序可能变化，更可靠的是用 GPU UUID。先查看 UUID：

`1`	`nvidia-smi -L`

输出类似：

1
2

GPU 0: NVIDIA GeForce RTX 3090 (UUID: GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx)
GPU 1: NVIDIA GeForce RTX 3070 (UUID: GPU-yyyyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy)

然后指定 UUID：

`1`	`CUDA_VISIBLE_DEVICES=GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx ollama serve`

如果 Ollama 是 Linux systemd 服务安装的，需要写到服务环境变量里：

`1`	`sudo systemctl edit ollama.service`

加入：

1
2

[Service]
Environment="CUDA_VISIBLE_DEVICES=0,1"

然后重载并重启：

1
2

sudo systemctl daemon-reload
sudo systemctl restart ollama

AMD 和 Vulkan 的选择变量

AMD ROCm 环境下，用 ROCR_VISIBLE_DEVICES 控制可见 GPU：

`1`	`ROCR_VISIBLE_DEVICES=0,1 ollama serve`

如果要强制不用 ROCm GPU，也可以用无效 ID：

`1`	`ROCR_VISIBLE_DEVICES=-1 ollama serve`

Ollama 官方 GPU 文档还提到，如果用实验性的 Vulkan 支持，可以通过 GGML_VK_VISIBLE_DEVICES 选择 Vulkan GPU：

`1`	`OLLAMA_VULKAN=1 GGML_VK_VISIBLE_DEVICES=0 ollama serve`

如果 Vulkan 设备有问题，可以禁用：

`1`	`GGML_VK_VISIBLE_DEVICES=-1 ollama serve`

AMD 多卡比 NVIDIA 更容易遇到驱动、ROCm 版本、GFX 版本支持的问题。官方文档中也提到 Linux 下 ROCm 驱动版本、HSA_OVERRIDE_GFX_VERSION 等兼容性处理。多张不同代 AMD 卡混用时，先确认每张卡是否单独可用，再考虑多卡。

Docker 里怎么暴露多张 GPU

如果用 Docker 跑 Ollama，NVIDIA 环境通常需要先安装 nvidia-container-toolkit，然后用 --gpus 暴露设备。

暴露全部 GPU：

docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

只暴露指定 GPU：

docker run -d \
  --gpus '"device=0,1"' \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

也可以结合环境变量：

docker run -d \
  --gpus=all \
  -e CUDA_VISIBLE_DEVICES=0,1 \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

如果容器里 nvidia-smi 看不到卡，Ollama 也不可能用到 GPU。先排查 Docker GPU passthrough，再排查 Ollama。

`OLLAMA_SCHED_SPREAD` 是什么

在一些多 GPU 配置讨论里，会看到 OLLAMA_SCHED_SPREAD=1 或 OLLAMA_SCHED_SPREAD=true。它和 Ollama 的调度策略有关，常被用于希望模型或请求更分散地利用多张 GPU 的场景。

可以这样设置：

`1`	`OLLAMA_SCHED_SPREAD=1 ollama serve`

或者 systemd：

1
2

[Service]
Environment="OLLAMA_SCHED_SPREAD=true"

不过它不是万能开关。开启后并不等于 token/s 线性增长，也可能因为多个模型同时加载、显存估算、上下文长度和 KV cache 增长导致 OOM。官方 FAQ 的核心策略仍然是：如果单 GPU 能完整容纳模型，单 GPU 通常更高效；单 GPU 放不下时才跨多 GPU。

所以建议把 OLLAMA_SCHED_SPREAD 当成高级调度实验项，而不是多卡必开项。先理解默认行为，再根据实际 ollama ps、日志和 nvidia-smi 观察结果调整。

怎么观察多卡是否真的用上

常用观察命令：

`1`	`ollama ps`

`1`	`watch -n 0.5 nvidia-smi`

查看 Ollama 服务日志：

`1`	`journalctl -u ollama -f`

如果使用 Docker：

`1`	`docker logs -f ollama`

你需要关注：

Ollama 是否发现兼容 GPU。
模型是否显示 100% GPU 或 CPU/GPU 混合。
每张卡显存是否有占用。
加载模型时是否多卡显存同时增长。
生成时 token/s 是否比 CPU/RAM 混跑明显改善。
是否频繁 OOM 或卸载模型。

如果只看 GPU 利用率，很容易误判。LLM 推理时 GPU 利用率不一定长期满载，尤其是多卡、低 batch、小上下文、慢 CPU 或慢 PCIe 环境下。

常见误区

误区 1：两张 12GB 显卡等于一张 24GB 显卡

不完全等价。多卡可以让模型跨设备放置，但跨卡访问有额外开销。它能解决“放不下”的问题，不一定等价于单张大显存卡的速度和稳定性。

误区 2：不同型号显卡不能混用

不一定。只要驱动、计算能力和运行库都支持，Ollama 可以看到多张 GPU。但混用时，速度通常受较慢卡、较小显存和 PCIe 拓扑影响。最稳的多卡配置仍然是同型号、同显存、同代驱动支持良好的卡。

误区 3：多卡一定比单卡快

不一定。如果模型能完整放进单张快卡，单卡可能更快。多卡主要适合大模型、长上下文、单卡显存不够的情况。

误区 4：必须有 NVLink / SLI

不需要。普通 PCIe 多卡也能被 Ollama 使用。NVLink 不是前提。

误区 5：加 GPU 后不用重启服务

不一定。Linux systemd 服务、Windows 后台应用、Docker 容器都可能需要重启，才能重新识别设备和环境变量。

选卡建议

如果目标是 Ollama 本地推理，优先级大致是：

单卡显存越大越省心。
同型号多卡比混合多卡更容易排错。
PCIe 通道越完整，加载大模型越舒服。
老卡要先确认 CUDA compute capability 或 ROCm 支持。
多卡电源、散热和机箱风道要提前算清楚。

对于预算有限的二手平台：

双 3090 仍然是很常见的大显存方案。
P40 / M40 这类老 Tesla 显存大，但功耗、散热、驱动和性能都要权衡。
4070 / 4070 Ti 这类新卡能效好，但单卡显存容量限制更明显。
多张 8GB 老卡能折腾，但不建议为了大模型长期使用。

小结

Ollama 多显卡支持可以理解成“显存扩展优先，性能加速其次”。如果模型能完整放进一张 GPU，默认单卡通常更快；如果单卡放不下，多卡可以把模型分布到多张 GPU 上，避免大量落到 CPU/RAM，从而让大模型变得可用。

实际配置时，先用 ollama ps 看模型加载位置，再用 nvidia-smi 或 ROCm 工具观察显存占用。需要限制 GPU 时，NVIDIA 用 CUDA_VISIBLE_DEVICES，AMD ROCm 用 ROCR_VISIBLE_DEVICES，Vulkan 用 GGML_VK_VISIBLE_DEVICES。如果在 Docker 中运行，先确保容器层面能看到 GPU。

多卡不是魔法。它能帮你装下更大的模型，但不保证线性加速。真正稳定好用的路线，仍然是尽量选大显存单卡或同型号多卡，并把驱动、PCIe、电源、散热和模型量化一起考虑。

参考链接

Ollama FAQ：How does Ollama load models on multiple GPUs?：https://github.com/ollama/ollama/blob/main/docs/faq.mdx
Ollama GPU 文档：Hardware support / GPU Selection：https://github.com/ollama/ollama/blob/main/docs/gpu.mdx
Ollama Docker Hub：https://hub.docker.com/r/ollama/ollama
NVIDIA Container Toolkit：https://github.com/NVIDIA/nvidia-container-toolkit

ROCm on KnightLi的博客

AMD ROCm 7.2 + ComfyUI 兼容性配置：Windows 上的 CUDA 平替怎么用

ROCm 7.2 系列带来了什么

哪些硬件更适合

Windows 下推荐路线

Linux 仍然更适合重度用户

ComfyUI 插件兼容要谨慎

AMD 显卡跑 AI 绘图的优势

仍然要接受的限制

推荐配置思路

小结

参考资料

Ubuntu 26.04 LTS 的 GPU 与硬件支持更新：CUDA、ROCm、DPC++ 和更多平台变化

1. Intel DPC++ 与相关组件进入 Ubuntu Archive

2. NVIDIA CUDA toolkit 现在也能直接 apt install

3. AMD ROCm 7.1.0 进入 Universe

4. 这一轮的重点，其实是三家 GPU 生态都在落地

5. NVIDIA Dynamic Boost 默认启用

6. Intel 新一代核显和独显支持继续往前走

7. Nvidia 桌面机的挂起恢复也更稳了

8. ARM、树莓派、RISC-V 和 IBM Z 也有硬门槛变化

ARM64 桌面平台

Raspberry Pi 新启动布局

Raspberry Pi 桌面镜像转向 desktop-minimal

树莓派 swap 交给 cloud-init

RISC-V 门槛上调

IBM Z 最低要求提升到 z15

9. 这篇内容更适合哪些人先看

10. 一句话总结

解决 Ollama 使用 CPU 而不使用 GPU 运算的问题

1. 先确认是不是“真的没用 GPU”

2. 先排除最常见的误区：模型装不进显存

3. 检查显卡驱动和底层环境是不是可用

NVIDIA 方向

AMD / ROCm 方向

4. 重启 Ollama 服务，不要只重开终端

5. 检查服务环境变量有没有真正传进去

6. AMD 平台重点看 ROCm 兼容性

7. Docker、WSL 或远程环境要额外检查设备映射

8. 最后再看日志，而不是一开始就瞎猜

排查顺序

llama.cpp ollama 显卡性能天梯：CUDA、ROCm、Vulkan

先看懂这些参数

Q4_0 是什么

pp512 是什么

tg128 是什么

FA 是什么

t/s 怎么看

先说结论

CUDA 完整榜单

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

Apple Silicon 参考口径

ROCm / HIP 完整榜单

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

Vulkan 完整榜单

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, FA enabled

这些表格该怎么用

一句话总结

原始来源

Ollama 多显卡使用笔记：显存叠加、GPU 选择和常见误区

官方行为：先单卡，放不下再多卡

多 GPU 不是简单叠算力

不需要 SLI 或 NVLink

如何限制 Ollama 使用哪些 NVIDIA GPU

AMD 和 Vulkan 的选择变量

Docker 里怎么暴露多张 GPU

OLLAMA_SCHED_SPREAD 是什么

怎么观察多卡是否真的用上

常见误区

误区 1：两张 12GB 显卡等于一张 24GB 显卡

误区 2：不同型号显卡不能混用

误区 3：多卡一定比单卡快

误区 4：必须有 NVLink / SLI

误区 5：加 GPU 后不用重启服务

选卡建议

小结

参考链接

2. NVIDIA CUDA toolkit 现在也能直接 `apt install`

`Q4_0` 是什么

`pp512` 是什么

`tg128` 是什么

`FA` 是什么

`t/s` 怎么看

`OLLAMA_SCHED_SPREAD` 是什么