ROCm on KnightLi的博客

AMD ROCm 7.2 + ComfyUI 相容性配置：Windows 上的 CUDA 平替怎麼用

Fri, 08 May 2026 10:09:05 +0800

過去很長一段時間，本地 AI 繪圖和影片工具幾乎預設圍繞 NVIDIA CUDA 展開。Stable Diffusion、ComfyUI、AnimateDiff、影片超分、LLM 推理和各種外掛，大多優先適配 CUDA。AMD 顯卡雖然顯存性價比不錯，但在 Windows 上經常要繞 DirectML、ZLUDA、Linux ROCm 或社群補丁，穩定性和教學一致性都不如 NVIDIA。

ROCm 7.2 系列讓這個局面有了明顯變化。AMD 在 CES 2026 期間發布 Ryzen AI 400 系列，並把 ROCm、Radeon、Ryzen AI 和 Windows AI 工作流放到同一條線上。官方文件顯示，ROCm 7.2.1 已經面向 Windows 更新 AMD Radeon 和 Ryzen AI 處理器上的 PyTorch 支援，ComfyUI Desktop 也從 v0.7.0 開始提供官方 AMD ROCm 支援。

這不代表 AMD 已經完全追平 CUDA 生態，但至少說明一件事：在 Windows 上用 AMD 顯卡跑 ComfyUI，正在從「折騰型方案」變成「可認真評估的方案」。

ROCm 7.2 系列帶來了什麼

ROCm 是 AMD 面向 GPU 計算和機器學習的開放軟體堆疊，定位上對應 NVIDIA CUDA。它包括 HIP、編譯器、數學庫、深度學習庫、Profiler、PyTorch 適配和一系列底層元件。

ROCm 7.2 系列對桌面使用者最值得關注的變化有三點。

第一，Windows 支援更正式。AMD 的 Radeon/Ryzen ROCm 文件寫明，Windows 上的 PyTorch 已經更新到 ROCm 7.2.1，覆蓋 AMD Radeon 圖形產品和 AMD Ryzen AI 處理器。這對 ComfyUI、Hugging Face Transformers 和本地推理工具很關鍵，因為大多數上層工具最終都要落到 PyTorch。

第二，硬體支援範圍更清楚。官方文件提到，ROCm 7.2.1 支援 Radeon 9000 系列、部分 Radeon 7000 系列，以及 Ryzen AI Max 300、部分 Ryzen AI 400 和部分 Ryzen AI 300 APU。也就是說，不能看到「AMD 顯卡」就預設全部支援，具體型號仍要查相容矩陣。

第三，ComfyUI 有了官方入口。ComfyUI 官方部落格在 2026 年 1 月宣布，Windows ComfyUI Desktop 從 v0.7.0 起支援 AMD ROCm。這對普通使用者很重要，因為它減少了手動裝環境、找 wheel、改啟動參數的成本。

對想找 CUDA 平替的人來說，這些變化比單純跑分更重要。AI 工具能不能長期使用，取決於驅動、框架、模型、外掛和前端是否能穩定連起來。

哪些硬體更適合

目前 AMD 路線要分成三類看。

第一類是 Radeon 9000 系列。這是 ROCm 7.2 系列重點覆蓋的新一代獨顯，優先級最高。如果你現在才準備買 AMD 顯卡跑本地 AI，優先看這類型號。

第二類是部分 Radeon 7000 系列。它們屬於 RDNA 3，已有一定 ROCm 支援基礎，但不是所有型號都同等穩定。買之前必須查 AMD 官方相容矩陣，尤其要確認 Windows、Linux、PyTorch 和目標工具是否同時支援。

第三類是 Ryzen AI APU。Ryzen AI 400 系列和 Ryzen AI Max 300 系列的意義在於把 CPU、GPU、NPU 和共享記憶體帶進輕薄筆電、小主機和開發設備。它們更適合輕量推理、開發測試、行動辦公和小規模 ComfyUI 工作流，不適合和高階獨顯硬拼大模型吞吐。

如果目標是流暢跑主流 AI 繪圖，獨顯仍然更穩。APU 的優勢是整合度和共享記憶體，適合嘗鮮與便攜，不適合承擔重型影片生成或大批量出圖。

Windows 下推薦路線

普通使用者在 Windows 上跑 ComfyUI，建議優先使用 ComfyUI Desktop。原因很簡單：它是官方支援路徑，能減少環境衝突，也更容易跟隨上游更新。

大致流程可以這樣理解：

確認系統是 Windows 11，並更新 AMD Software: Adrenalin Edition。
確認顯卡或 APU 在 AMD ROCm Radeon/Ryzen 相容矩陣內。
安裝 ComfyUI Desktop v0.7.0 或更新版本。
讓 ComfyUI Desktop 使用 AMD ROCm 後端。
首次啟動後檢查控制台裡的 PyTorch/ROCm 資訊。
先用基礎 SDXL 或 Flux 工作流測試，再逐步安裝外掛。

如果使用手動版 ComfyUI，思路也類似：先裝 Python，再裝對應 ROCm 7.2 系列的 PyTorch，然後啟動 main.py。AMD 官方 ComfyUI 安裝文件提醒，執行後要確認終端裡顯示的是 ROCm 7.2.1 對應的 PyTorch 版本。

低顯存設備可以加啟動參數：

`1`	`python main.py --lowvram --disable-pinned-memory`

這兩個參數不一定提升速度，但能減少部分記憶體和顯存壓力。對 8GB、12GB 或共享記憶體設備，先保證能穩定跑完，比追求單次出圖速度更重要。

Linux 仍然更適合重度使用者

ROCm 在 Windows 上變得更可用了，但 Linux 仍然是 AMD AI 工作流更成熟的環境。官方文件也顯示，Radeon 在 Linux 上支援的框架更完整，包括 PyTorch、TensorFlow、JAX、ONNX、vLLM、Llama.cpp 和部分訓練能力。

如果你的需求只是 ComfyUI 出圖，Windows 已經值得嘗試。
如果你還要跑 vLLM、訓練 LoRA、批量影片生成、多卡、Docker、自動化腳本和長期服務，Linux 仍然更合適。

可以按需求選擇：

Windows：適合桌面使用者、ComfyUI Desktop、輕量繪圖、本地嘗鮮。
Linux：適合開發者、重度 AI 使用者、伺服器、批處理和更完整 ROCm 生態。
WSL：適合想留在 Windows 但需要 Linux 工具鏈的人，不過要確認 ROCDXG、驅動和硬體是否在支援範圍內。

不要把 Windows ROCm 當成所有問題的答案。它解決的是入門門檻和桌面體驗，重度生產仍要看 Linux 支援。

ComfyUI 外掛相容要謹慎

ComfyUI 的麻煩不只在主程式，而在外掛生態。很多節點預設按 CUDA、xFormers、Triton、FlashAttention 或特定 PyTorch 擴展來寫。換到 AMD ROCm 後，常見問題包括：

外掛調用了 CUDA-only 擴展。
某些加速庫沒有 ROCm wheel。
自訂節點安裝腳本預設檢查 NVIDIA 環境。
影片節點依賴的編解碼或光流庫不支援 AMD。
新模型工作流預設使用 NVIDIA 最佳化配置。

因此，不建議一開始就把舊的 NVIDIA ComfyUI 整個目錄搬過來。更穩的做法是先裝乾淨環境，跑通基礎模型，再逐個加外掛。

推薦測試順序：

基礎文生圖。
圖生圖。
LoRA。
ControlNet。
放大和高清修復。
AnimateDiff 或影片節點。
Flux、SD3、Wan、HunyuanVideo 等更重模型。

每加一類外掛都做一次小測試。哪一步壞了，就能知道問題大機率來自哪個節點或依賴。

AMD 顯卡跑 AI 繪圖的優勢

AMD 路線最大的吸引力是顯存和價格。很多使用者選擇 AMD，不是因為它在 AI 軟體生態上已經比 CUDA 更省心，而是因為同價位顯存更大，適合本地創作和長時間試驗。

大顯存對 ComfyUI 很實際：

可以跑更大的 checkpoint。
可以提高解析度。
可以載入更多 LoRA、ControlNet 和參考圖節點。
可以減少低顯存模式帶來的速度損失。
影片生成和批量出圖更不容易爆顯存。

如果 ROCm 7.2 系列能讓 Windows 上的 PyTorch 和 ComfyUI 穩定跑起來，AMD 顯卡就會成為更現實的 CUDA 平替，尤其適合不想上雲、又想保留較大本地顯存的人。

仍然要接受的限制

AMD 路線現在能用，但還不是「無腦替代 CUDA」。

主要限制包括：

支援型號有限，老卡和部分中低階卡不一定在官方列表內。
Windows 上框架支援仍少於 Linux。
很多 AI 教學仍預設 NVIDIA。
部分 ComfyUI 外掛只測過 CUDA。
遇到報錯時，社群答案比 NVIDIA 少。
同一模型在不同後端的效能差異可能很大。

所以選 AMD 路線前，最好先確認三個問題：

你的顯卡是否在官方相容矩陣裡。
你的主要工具是否明確支援 ROCm。
你的核心外掛是否依賴 CUDA-only 擴展。

如果這三個問題都能接受，AMD 才是可靠選擇。否則，省下來的硬體成本可能會被環境排錯時間抵消。

小結

ROCm 7.2 系列讓 AMD 在 Windows 本地 AI 上前進了一大步。Radeon 和 Ryzen AI 的 PyTorch 支援更明確，ComfyUI Desktop 也開始提供官方 ROCm 支援，這讓 AMD 顯卡第一次真正接近普通使用者可接受的 CUDA 平替體驗。

但「可用」不等於「全相容」。目前最穩的策略是：先查相容矩陣，再走官方安裝路徑，先跑基礎 ComfyUI，再逐步添加外掛和複雜影片工作流。Windows 適合輕量和桌面創作，Linux 仍適合重度開發和生產。

如果你追求最省心，CUDA 仍然是主流答案。
如果你願意為更大顯存和開放生態多做一點驗證，ROCm 7.2 + ComfyUI 已經值得認真嘗試。

參考資料

Ubuntu 26.04 LTS 的 GPU 與硬體支援更新：CUDA、ROCm、DPC++ 和更多平台變化

Sun, 26 Apr 2026 19:35:57 +0800

如果上一篇比較像是 Ubuntu 26.04 LTS 的桌面總覽，那這篇可以看作它在硬體與算力側的補充版。官方在這一輪 26.04 裡，把不少和 AI、GPU 計算、平台相容性直接相關的內容都推進了主倉庫或正式支援範圍。

先說結論：這次最值得關注的，不只是桌面和核心升級，而是 Ubuntu 正在把 Intel、NVIDIA、AMD 三家的 GPU 計算堆疊，更系統地納入發行版生態。

1. Intel DPC++ 與相關元件進入 Ubuntu Archive

從 26.04 開始，Intel 開源的 oneAPI DPC++ 編譯器已經可以直接從 Ubuntu Archive 取得，用來建構 SYCL 程式碼。其執行階段也包含面向 Intel GPU 的配接器。

同時進入 Ubuntu 倉庫的，還有兩個相關元件：

oneDPL，也就是 DPC++ library，提供更高生產力的開發介面
oneDNN，而且是基於 dpclang-6 建構，可在 Intel GPU 上運行

這代表如果你本來就在看 SYCL、異質運算，或是 Intel GPU 上的 AI 工作負載，Ubuntu 現在給出的路徑會直接很多，不再需要完全依賴一套獨立維護的外部環境。

官方也特別提醒一點：如果要實際調用這些 Intel GPU 相關能力，使用者需要加入 render 群組。

2. NVIDIA CUDA toolkit 現在也能直接 `apt install`

對很多開發者和維運人員來說，這可能是這份更新裡最實用的一條。

從 26.04 開始，NVIDIA CUDA toolkit 已經可以直接透過 Ubuntu Archive 安裝。命令就是：

`1`	`sudo apt install cuda-toolkit`

這背後的意義，不只是「少打幾條指令」。

對以 Ubuntu 為目標平台發佈軟體的開發者來說，新的模式意味著可以直接宣告對 CUDA runtime 的依賴，後續安裝與相容性由 Ubuntu 在發行版層面處理。這會讓 CUDA 在 Ubuntu 上更容易取得，也更接近系統原生能力，而不是額外疊上一層需要單獨維護的外部軟體堆疊。

3. AMD ROCm 7.1.0 進入 Universe

AMD 這邊，Ubuntu Universe 現在已經包含 ROCm 7.1.0。

這套函式庫主要提供的是：

面向 AMD GPU 的 AI 訓練與推論後端能力
機器學習與高效能運算相關的軟體基礎設施

官方還提到，Canonical 會在自己的 CI/CD 流程裡持續測試 ROCm 相關元件。除了 autopkgtests，也覆蓋了一些使用者態應用，包括：

llama.cpp
pytorch
Blender
Lemonade Server

這條資訊其實很關鍵，因為它說明 Ubuntu 不是單純「把套件放進倉庫」，而是把 ROCm 當成一套可維護的軟體堆疊來驗證。

4. 這一輪真正的重點，是三家 GPU 生態都在落地

把 DPC++、CUDA 和 ROCm 放在一起看，會更容易理解 26.04 的方向：

Intel：推進 SYCL / oneAPI 相關能力進入官方倉庫
NVIDIA：讓 CUDA toolkit 具備發行版級的安裝路徑
AMD：把 ROCm 7.1.0 納入 Universe，並持續做測試

如果你平常會在 Ubuntu 上碰到這些場景，這一輪更新會比較有感：

本地大模型推論
GPU 加速訓練或微調
Blender、科學運算、HPC
需要在多種 GPU 平台之間切換的開發環境

換句話說，Ubuntu 現在不只是「能裝顯卡驅動」，而是開始更完整地承接 AI 與 GPU 計算所需的使用者態軟體堆疊。

5. NVIDIA Dynamic Boost 預設啟用

從 25.04 開始，支援的 NVIDIA 筆電已經預設啟用 Dynamic Boost。

這個功能的邏輯很直接：系統會根據當前負載，在 CPU 和 GPU 之間動態分配功耗。對遊戲場景來說，常見收益就是在需要時把更多功率給 GPU，以換取更高效能。

不過它有兩個前提：

裝置接上交流電
GPU 負載夠高

在電池供電狀態下，它不會介入。

6. Intel 新一代內顯與獨顯支援持續往前推進

Ubuntu 這一輪也把對新 Intel GPU 的支援繼續往前推，重點包括：

整合顯示：

Intel Core Ultra Xe2
Intel Core Ultra Xe3

獨立顯示：

Intel Arc 5 B570
Intel Arc 5 B580
Intel Arc Pro B50
Intel Arc Pro B60
Intel Arc Pro B65
Intel Arc Pro B70

圍繞這批裝置，官方也列出了一些已經到位的特性：

基於 Intel Embree 的 GPU 與 CPU 光線追蹤渲染效能提升，像 Blender 4.2+ 這類應用可受益
“Battlemage” 裝置支援 AVC、JPEG、HEVC 和 AV1 的硬體視訊編碼
Intel Compute Runtime 引入新的 CCS 最佳化
已啟用 Intel Xe GPU 偵錯支援

如果你更關注後續版本，25.10 還會繼續帶進一些新能力，例如：

借助 Linux kernel 6.17 初步支援代號 Panther Lake 的下一代 Intel 用戶端平台
改進 IOMMU、PCIe 子系統與多 GPU 支援
Mesa 25.2.3 為 Battlemage 和 Panther Lake 啟用 VK_KHR_shader_bfloat16
intel-media-driver 25.3.0 增加 Panther Lake 解碼與 VP9 編碼支援
intel-compute-runtime 25.31 調整 Level Zero 的 USM 池與本地顯存事件配置策略
level-zero 1.24 與 level-zero-raytracing 1.1.0 帶來更完整的規範與 RTAS 擴充支援

7. Nvidia 桌機的掛起恢復也更穩定了

從 25.10 開始，Ubuntu 在專有 Nvidia 驅動中啟用了掛起恢復支援，以減少桌機喚醒後的損毀與卡死問題。

這類改動不算「看得見的新功能」，但對實際日常穩定性很重要，尤其是長時間開機、經常掛起恢復的桌面環境。

8. ARM、樹莓派、RISC-V 和 IBM Z 也有硬性門檻變化

除了 GPU 軟體堆疊，這份發行說明裡還有幾條平台層面的變化很值得單獨記一下。

ARM64 桌面平台

從 25.10 開始，linux-generic 的 ARM64 核心會提供更廣泛的桌面相容性，覆蓋那些使用 UEFI 開機的 ARM64 桌面平台。

Raspberry Pi 新開機配置

25.10 引入、26.04 持續調整的一個變化，是樹莓派開機分割區的新配置。

它的目標是提升開機可靠性：新寫入的開機資源會先被「測試」，確認沒問題後才會提交為新的 “known good” 集合。

這裡最需要注意的是韌體時間要求：

Pi 3 / 3+ / CM3+ / Zero 2W：不需要額外操作，開機韌體就在映像檔內
Pi 4 / 400 / CM4：開機韌體日期不得早於 2022-11-25
Pi 5 / 500 / CM5：開機韌體日期不得早於 2025-02-11

檢查命令是：

`1`	`sudo rpi-eeprom-update`

如果韌體太舊，而且你使用的是 Ubuntu 24.04 LTS 或更新版本，可以這樣更新：

1
2

sudo rpi-eeprom-update -a
sudo reboot

Raspberry Pi 桌面映像改用 desktop-minimal

從 25.10 開始，樹莓派版 Ubuntu Desktop 映像改為基於 desktop-minimal，而不是完整的 desktop seed。

官方給出的收益很明確：預設安裝的應用更少，未壓縮映像與實際系統都能節省大約 777MB 空間。

如果升級後想批次移除這批預設應用，可以使用：

`1`	`sudo apt purge ubuntu-desktop --autoremove`

如果你想保留其中某些應用，先用 apt 把它們標記為手動安裝即可。

樹莓派 swap 改由 cloud-init 處理

從 25.10 開始，樹莓派桌面映像裡的 swap 檔建立改由 cloud-init 負責。
如果你想在首次開機前自訂 swap 大小，可以直接修改開機分割區上的 user-data。

RISC-V 門檻上調

從 25.10 開始，Ubuntu 26.04 LTS 的 RISC-V 版本要求硬體實作 RVA23S64 ISA profile。

不符合這個要求的裝置，已經不能執行 Ubuntu 26.04 LTS。如果你手上還是較早的 RVA20 處理器板卡，那就得繼續留在 Ubuntu 24.04 LTS 這一代支援線上。

按照官方說明，截至 2026 年 4 月，現實裡還沒有可用的 RVA23S64 硬體，因此目前唯一受支援的平台，其實是基於 QEMU 並使用 -cpu rva23s64 配置的虛擬化環境。

IBM Z 最低要求提高到 z15

從 26.04 開始，s390x 架構最低要求提高到 z15。

這意味著：

z14 / LinuxONE II 以及更早的平台，已經不能安裝 Ubuntu 26.04 LTS
z15 / LinuxONE III 以及更新平台，會有更好的效能表現

9. 哪些人更適合先看這篇

如果你屬於下面這些場景，這篇會比桌面總覽更值得優先看：

在 Ubuntu 上做 CUDA、ROCm、SYCL 或本地 AI 推論
用 Intel、NVIDIA、AMD GPU 做開發或計算任務
維護 Raspberry Pi、ARM64、RISC-V、IBM Z 等非標準 x86 平台
對升級後的驅動、執行時、倉庫可用性和平台門檻更敏感

10. 一句話總結

Ubuntu 26.04 LTS 在硬體與 AI 軟體堆疊上的重點，不是哪一家顯卡單獨增強了什麼，而是 Intel 的 DPC++、NVIDIA 的 CUDA、AMD 的 ROCm，都開始以更官方、更多倉庫內、也更可維護的方式進入 Ubuntu 生態。

如果你過去把 Ubuntu 當成「先裝系統，再自己拼 GPU 環境」的底座，那從 26.04 開始，它已經更像一個願意主動承接 AI 與異質運算工作負載的發行版了。

解決 Ollama 使用 CPU 而不使用 GPU 運算的問題

Fri, 24 Apr 2026 18:30:00 +0800

本地跑大模型時，最讓人困惑的一類問題就是：機器明明有顯卡，Ollama 卻還是主要吃 CPU，速度也慢得離譜。

先說結論，這類問題通常不是單一原因。最常見的幾類分別是：

Ollama 根本沒有識別到可用 GPU
驅動、ROCm 或 CUDA 環境沒裝對
Ollama 服務啟動時沒有繼承正確的環境變數
模型太大，實際已經退回到 CPU 或 CPU/GPU 混合載入
AMD 平台存在額外相容性問題，例如 ROCm 版本、gfx 代號或裝置可見性設定不對

下面按最省時間的順序排查。

1. 先確認是不是真的沒用到 GPU

最直接的方法是看：

`1`	`ollama ps`

重點看 PROCESSOR 這一欄。

100% GPU：表示模型完整跑在顯卡上
100% CPU：表示完全沒用上顯卡
48%/52% CPU/GPU 這類結果：表示模型部分進了顯存，部分落到系統記憶體

如果你看到的是 100% CPU，後面就該重點查環境和服務設定。
如果看到的是混合載入，那不一定代表顯卡沒生效，更可能只是顯存不夠。

2. 先排除最常見的誤區：模型塞不進顯存

很多人以為只要裝了 GPU，Ollama 就一定會全顯卡推理。其實不是。

如果模型太大、上下文太長，或者機器上已經有其他模型佔著顯存，Ollama 很可能會退回到：

部分 GPU + 部分 CPU
直接 100% CPU

這時候可以先做兩個最簡單的驗證：

換一個更小的模型測試
例如先用 4B、7B 這類小模型，而不是一上來就跑更大的參數量。
卸載其他已載入的模型後再試
先看 ollama ps，確認沒有別的模型佔著顯存。

如果小模型能上 GPU、大模型不行，問題通常就不在驅動，而在顯存容量。

3. 檢查顯卡驅動和底層環境是否可用

如果連小模型都只能跑 CPU，下一步就該看底層環境。

NVIDIA 方向

先確認驅動正常、系統能看到顯卡。常見檢查方式包括：

`1`	`nvidia-smi`

如果這裡都報錯，Ollama 幾乎不可能正常使用 GPU。

AMD / ROCm 方向

如果你是 AMD GPU，尤其是 ROCm 環境，重點先看：

1
2

rocminfo
rocm-smi

如果這些工具都不能正常列出裝置，說明問題還在 Ollama 之前，先不要繼續折騰應用層。

對 AMD 來說，最常見的問題不是「有沒有裝驅動」，而是：

ROCm 版本和系統版本不匹配
當前 GPU 架構支援不完整
裝置雖然存在，但執行環境沒有正確暴露給 Ollama

4. 重啟 Ollama 服務，不要只重開終端

這是非常高頻的坑。

很多人裝完驅動、改完環境變數、補完 ROCm 之後，只是重新開一個終端，然後直接繼續 ollama run。但如果 Ollama 是以背景服務方式執行，它很可能還在用舊環境。

所以更穩的做法是：

完整重啟 Ollama 服務
必要時直接重啟系統

如果你是在 Linux 上以服務方式執行，通常要確認服務進程已經重新拉起，而不是沿用之前的舊進程。

5. 檢查服務環境變數有沒有真的傳進去

這一步在 AMD ROCm 環境尤其重要。

有些機器在終端裡手動執行命令沒問題，但 Ollama 服務還是只跑 CPU，原因就是服務進程沒有拿到你在 shell 裡設定的變數。

常見需要關注的變數包括：

1
2

ROCR_VISIBLE_DEVICES
HSA_OVERRIDE_GFX_VERSION

其中：

ROCR_VISIBLE_DEVICES 用來限制或指定 ROCm 能看到哪些 GPU
HSA_OVERRIDE_GFX_VERSION 常見於某些 AMD 平台的相容性處理

如果你只是在當前終端裡臨時 export 了變數，但 Ollama 是 systemd、桌面背景服務或其他守護進程啟動的，這些變數未必會生效。

也就是說，終端裡「看起來已經設定好了」，不代表 Ollama 真的拿到了。

6. AMD 平台重點看 ROCm 相容性

從公開頁面資訊來看，這個問題對應的影片主題本身就落在 AMD Max+ 395、strix halo、AMD ROCm 這條線上。
這類環境裡，Ollama 不走 GPU，往往比 NVIDIA 平台更依賴版本匹配。

可以優先排查下面幾項：

ROCm 版本是否適合當前系統和顯卡
當前 GPU 是否屬於 ROCm 支援較好的架構範圍
是否需要補 HSA_OVERRIDE_GFX_VERSION
是否是舊版 Ollama 或舊版底層推理庫導致相容性問題

如果你已經確認 rocminfo 正常、GPU 也能被系統識別，但 Ollama 仍然只跑 CPU，那大概率就要回到版本組合上重新檢查，而不是繼續盲目調模型參數。

7. Docker、WSL 或遠端環境要額外檢查裝置映射

如果你不是直接在裸機跑，而是在下面這些環境裡執行：

Docker
WSL
遠端容器
虛擬化環境

那還要多看一層：GPU 裝置有沒有真的暴露進去。

典型現象是：

宿主機能看到 GPU
容器裡的 Ollama 卻只能跑 CPU

這時要先確認不是 Ollama 本身的問題，而是容器或子系統根本沒拿到 GPU 存取權限。

8. 最後再看日誌，而不是一開始就亂猜

如果前面都查過了，最有效的做法不是繼續反覆重裝，而是直接看 Ollama 的啟動日誌和執行日誌。

重點看兩類資訊：

有沒有識別到 GPU
有沒有出現驅動、庫載入、裝置初始化失敗之類的報錯

只要日誌裡明確出現類似「找不到相容 GPU」或「ROCm/CUDA 初始化失敗」，排查方向就會立刻清楚很多。

排查順序

如果你只想記最短路徑，可以按這個順序來：

ollama ps 看現在到底是 GPU、CPU 還是混合載入
換一個更小的模型，排除顯存不夠
用 nvidia-smi、rocminfo、rocm-smi 先確認底層環境正常
完整重啟 Ollama 服務
檢查服務環境變數，尤其是 AMD 的 ROCR_VISIBLE_DEVICES、HSA_OVERRIDE_GFX_VERSION
如果是 Docker / WSL，再檢查裝置映射
最後看日誌定位具體報錯

結語

Ollama 使用 CPU 而不使用 GPU，本質上通常是三類問題之一：

GPU 根本沒有被識別
GPU 能被識別，但執行環境沒有傳到 Ollama
GPU 在工作，但模型太大，最後還是回落到 CPU 或混合記憶體

先把這三類分開，排查就會快很多。
如果你是 AMD 平台，尤其要把注意力放在 ROCm 版本、裝置可見性和相容性變數上，而不是只看 Ollama 命令本身。

原影片：https://www.bilibili.com/video/BV1cHoYBqE8k/

llama.cpp ollama 顯卡性能天梯：CUDA、ROCm、Vulkan

Thu, 23 Apr 2026 10:22:04 +0800

先看懂這些參數

`Q4_0` 是什麼

Q4_0 是一種 4-bit 量化格式。它的意義不是「模型更強」，而是「模型更小、更省顯存、更容易塞進更多設備裡」。這些榜單大多統一使用 Llama 2 7B, Q4_0，核心目的就是減少變數，讓不同 GPU 的成績更容易橫向比較。

`pp512` 是什麼

pp512 一般可以理解為 prompt processing 512 tokens，也就是處理 512 個輸入 token 時的吞吐。

pp = prompt processing
512 = 輸入長度是 512 token
t/s = tokens per second

它更像是「吃提示詞的速度」，通常能更充分地並行，所以數字往往很高。

`tg128` 是什麼

tg128 一般可以理解為 text generation 128 tokens，也就是連續生成 128 個 token 時的速度。

tg = text generation
128 = 連續生成 128 token
t/s = tokens per second

它更接近我們平時感受到的「模型回答快不快」。因為生成階段是逐 token 遞推，所以通常明顯低於 pp512。

`FA` 是什麼

FA 是 Flash Attention。簡單理解，就是注意力計算的一種最佳化開關。

with FA 表示啟用了 Flash Attention
no FA 表示關閉 Flash Attention

在不少卡上，FA 對 pp512 的提升比對 tg128 更明顯；但不同後端、不同驅動和不同架構之間，提升幅度並不一致，個別設備甚至會出現 PP 上升、TG 變化很小，或者 PP 反而下降的情況。

`t/s` 怎麼看

t/s 就是 tokens per second。它不是幀率，也不是 FLOPS，而是模型吞吐表現的直接結果。

讀榜單時最重要的一點是：先確認你比較的是不是同一種測試。

不要把 pp512 和 tg128 直接混著比
不要把 no FA 和 with FA 混著比
不要把 CUDA、ROCm、Vulkan 的結果當成完全等價的同一條曲線

先說結論

從這幾條討論串目前可見的資料看，大致可以先記住這幾個結論：

CUDA 仍然是目前 llama.cpp GPU 跑分裡最強、樣本也最密集的一條線，特別是高階 Nvidia 卡在 pp512 上優勢很大。
ROCm 在高階 AMD 卡和 Instinct 卡上已經能給出非常像樣的成績，MI300X、7900 XTX、W7900 這些條目都不弱。
Vulkan 的優點不是「絕對最快」，而是覆蓋面最廣，Nvidia、AMD、Intel、Apple Asahi / MoltenVK，甚至很多老卡和核顯都能找到條目。
tg128 往往更接近日常體感，pp512 更適合看吞吐能力。很多「榜一」卡，在兩項裡的領先幅度並不完全一樣。

CUDA 完整榜單

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14073.41 ± 115.16	290.02 ± 1.10	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	14854.63 ± 22.73	274.20 ± 0.14	79c1160	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	9918.34 ± 176.97	267.81 ± 1.54	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	4849.53 ± 8.94	190.88 ± 0.33	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	10293.86 ± 134.72	189.33 ± 0.19	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	11992.70 ± 107.99	186.21 ± 0.13	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	8297.36 ± 9.50	181.99 ± 0.42	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	6952.38 ± 13.73	176.85 ± 0.07	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	9229.23 ± 101.78	176.07 ± 0.26	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6567.49 ± 20.30	171.19 ± 3.98	9c35706	@slaren
RTX 3090	24 GB / GDDR6X / 384 bit	5174.69 ± 21.83	158.16 ± 0.21	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	8870.49 ± 378.76	152.01 ± 0.28	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	8125.15 ± 41.05	148.33 ± 0.20	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	8031.64 ± 26.49	142.49 ± 0.16	20638e4	@Ristovski
RTX 3080	10 GB / GDDR6X / 320 bit	5013.86 ± 24.80	139.65 ± 0.99	9c35706	@slaren
RTX A6000	48 GB / GDDR6 / 384 bit	4913.93 ± 6.79	138.73 ± 2.75	4795c91	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	6924.53 ± 13.87	132.26 ± 0.16	9c35706	@Ristovski
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	4992.83 ± 113.52	131.66 ± 0.20	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4028.16 ± 19.14	130.07 ± 2.74	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	3042.64 ± 40.71	129.08 ± 0.05	51f5a45	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5184.75 ± 18.70	127.54 ± 0.46	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	4609.01 ± 10.67	124.11 ± 0.17	3470a5c	@Hedede
A30	24 GB / HBM2e / 3072 bit	2767.10 ± 1.88	124.81 ± 0.16	583cb83	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2617.46 ± 2.10	108.79 ± 0.05	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	2890.66 ± 2.42	107.51 ± 0.21	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	2751.18 ± 19.43	102.77 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	2709.95 ± 3.35	102.68 ± 0.03	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	2827.20 ± 66.43	97.32 ± 2.80	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	3737.25 ± 6.79	90.94 ± 0.02	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2088.34 ± 1.94	88.06 ± 0.28	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2684.06 ± 15.28	83.77 ± 0.37	65349f2	@TinyServal
Titan Xp	12 GB / GDDR5X / 384 bit	1154.96 ± 1.46	76.08 ± 0.08	c4510dc	@Hedede
RTX 3060	12 GB / GDDR6 / 192 bit	2137.50 ± 10.12	75.57 ± 0.07	baa9255	@QuantiusBenignus
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1536.89 ± 0.90	65.62 ± 0.62	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3394.63 ± 7.44	63.86 ± 0.01	89d1029	@mike-llamacpp
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1084.41 ± 3.01	62.49 ± 0.06	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	2779.77 ± 9.91	61.83 ± 0.04	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1420.24 ± 1.95	60.04 ± 0.01	5c0eb5e	@ggerganov
Tesla P100	16 GB / HBM2 / 4096 bit	760.80 ± 2.92	58.35 ± 0.00	b8372ee	@Hedede
DGX Spark	128 GB / LPDDR5x	3062.31 ± 11.02	57.21 ± 0.06	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1007.42 ± 1.23	54.74 ± 0.07	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	1956.22 ± 7.74	50.62 ± 0.04	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1219.06 ± 4.18	46.38 ± 0.73	d32e03f	@pt13762104
RTX 4050 Laptop	6 GB / GDDR6 / 96 bit	1725.85 + 17.85	43.72 + 0.41	d79d8f3	@TimCabbage
GTX 1660	6 GB / GDDR5 / 192 bit	148.91 ± 0.01	41.35 ± 0.02	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	282.65 ± 0.15	38.04 ± 0.02	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	714.44 ± 2.04	37.82 ± 0.02	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	991.31 ± 1.15	33.58 ± 0.14	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	514.53 ± 3.06	33.29 ± 0.00	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	406.94 ± 0.25	30.40 ± 0.02	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	416.85 ± 1.75	27.79 ± 0.02	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	79.44 ± 0.01	27.82 ± 0.18	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	309.30 ± 0.05	23.63 ± 0.00	baa9255	@TinyServal
Quadro P1000	4 GB / GDDR5 / 128 bit	183.40 ± 0.11	13.99 ± 0.13	1e74897	@aleksyx
Tesla K80	12 GB / GDDR5 / 384 bit	133.14 ± 0.55	13.80 ± 0.02	32732f2	@pebaryan

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14970.15 ± 381.06	300.40 ± 0.28	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	16618.98 ± 20.66	281.11 ± 0.41	5143fa8	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	11263.29 ± 98.34	280.74 ± 1.17	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	5285.96 ± 6.58	200.90 ± 0.12	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	12506.97 ± 11.51	191.57 ± 0.03	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	14770.63 ± 102.93	188.96 ± 0.05	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	9487.70 ± 21.89	184.68 ± 0.05	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	8419.56 ± 35.50	182.43 ± 0.09	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	10576.85 ± 530.21	179.47 ± 0.32	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6924.01 ± 10.76	172.26 ± 1.31	9c35706	@slaren
RTX PRO 4500 Blackwell	32 GB / GDDR7 / 256 bit	7251.66 ± 92.40	168.90 ± 0.20	becc481	@Hedede
RTX 3090	24 GB / GDDR6X / 384 bit	5560.06 ± 16.28	161.89 ± 0.18	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	10097.64 ± 671.22	153.76 ± 0.12	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	9439.01 ± 56.75	147.48 ± 1.41	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	9205.93 ± 22.31	143.47 ± 0.02	20638e4	@Ristovski
RTX A6000	48 GB / GDDR6 / 384 bit	5662.39 ± 13.87	144.87 ± 0.18	4795c91	@Hedede
RTX 3080	10 GB / GDDR6X / 320 bit	5569.56 ± 14.04	139.95 ± 0.95	9c35706	@slaren
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	5674.44 ± 139.53	136.38 ± 0.13	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4552.15 ± 9.68	135.83 ± 0.11	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	2973.78 ± 3.62	134.76 ± 0.02	51f5a45	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	7612.32 ± 37.35	132.85 ± 0.31	9c35706	@Ristovski
A30	24 GB / HBM2e / 3072 bit	3068.72 ± 0.63	131.93 ± 0.18	583cb83	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5783.44 ± 36.95	128.21 ± 2.52	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	5256.38 ± 19.39	126.24 ± 0.06	3470a5c	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2481.25 ± 1.31	112.17 ± 0.01	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	3107.61 ± 4.34	109.17 ± 0.07	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	3053.96 ± 1.37	104.38 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	3052.35 ± 5.64	103.63 ± 0.02	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	3453.10 ± 49.19	103.00 ± 0.25	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	4195.53 ± 1.98	93.46 ± 0.01	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2293.29 ± 5.91	87.71 ± 0.29	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2807.83 ± 52.44	85.17 ± 0.66	65349f2	@TinyServal
RTX 3060	12 GB / GDDR6 / 192 bit	2407.67 ± 3.73	76.92 ± 0.03	baa9255	@QuantiusBenignus
Titan Xp	12 GB / GDDR5X / 384 bit	1218.12 ± 1.82	73.84 ± 0.04	c4510dc	@Hedede
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1662.80 ± 2.04	67.62 ± 0.67	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3803.45 ± 70.80	64.03 ± 0.53	89d1029	@mike-llamacpp
Tesla P100	16 GB / HBM2 / 4096 bit	787.36 ± 3.27	61.99 ± 0.00	b8372ee	@Hedede
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1138.14 ± 2.02	61.38 ± 0.03	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	3171.86 ± 4.34	61.37 ± 0.01	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1563.77 ± 0.51	61.13 ± 0.05	5c0eb5e	@ggerganov
DGX Spark	128 GB / LPDDR5x	3661.37 ± 38.66	56.74 ± 0.03	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1079.66 ± 0.18	53.73 ± 0.05	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	2250.14 ± 5.91	50.71 ± 0.01	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1309.73 ± 1.02	44.03 ± 0.57	d32e03f	@pt13762104
GTX 1660	6 GB / GDDR5 / 192 bit	154.45 ± 0.52	41.43 ± 0.01	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	290.17 ± 0.11	39.98 ± 0.01	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	790.52 ± 2.39	37.87 ± 0.00	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	1171.96 ± 4.70	35.88 ± 0.18	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	529.53 ± 2.12	33.12 ± 0.03	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	438.49 ± 0.38	30.64 ± 0.06	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	446.19 ± 0.81	28.18 ± 0.01	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	27.46 ± 0.23	27.46 ± 0.23	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	311.55 ± 0.19	23.76 ± 0.01	baa9255	@TinyServal
Tesla K80	12 GB / GDDR5 / 384 bit	133.36 ± 0.60	14.27 ± 0.32	32732f2	@pebaryan
Quadro P1000	4 GB / GDDR5 / 128 bit	173.82 ± 0.02	13.65 ± 0.14	1e74897	@aleksyx

Apple Silicon 參考口徑

#4167 這條討論和後三條最大的區別，是它更早建立了統一口徑，除了 Q4_0，還會順帶放 F16 和 Q8_0。它對理解 PP / TG / t/s 很有幫助。

討論裡直接給出的說明是：

PP 表示 prompt processing
TG 表示 text-generation
t/s 表示 tokens per second

文中可見的一個時間對比樣例，是 M2 Ultra 在同一台機器上隨著版本和 FA 演進後的成績：

時間	設備	版本/說明	頻寬 GB/s	GPU 核心	F16 PP	F16 TG	Q8_0 PP	Q8_0 TG	Q4_0 PP	Q4_0 TG
2023-11-21	M2 Ultra	8e672ef	800	76	1401.85	41.02	1248.59	66.64	1238.48	94.27
2024-11-12	M2 Ultra	86ed72d + FA	800	76	1525.95	43.15	1368.18	73.11	1391.78	108.80
2025-08-02	M2 Ultra	5c0eb5e + FA	800	76	1561.35	43.24	1386.97	73.35	1412.42	109.41

設備	Q4_0 PP	Q4_0 TG	Q8_0 PP	Q8_0 TG	F16 PP	F16 TG
M1 Pro 16 GPU	266.25	36.41	270.37	22.34	302.14	12.75
M2 Ultra 76 GPU	1238.48	94.27	1248.59	66.64	1401.85	41.02
M3 Max 40 GPU	690.99	65.85	749.37	43.00	794.26	25.27

Apple 這條線這裡不展開全文搬運，後面重點看你指定的三類獨顯後端榜單。

ROCm / HIP 完整榜單

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11476.40 ± 72.79	232.92 ± 0.53	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3552.27 ± 101.96	167.11 ± 0.50	2f0c2db	@Diablo-D3
Instinct MI210	64 GB / HBM2e / 4096 bit	2486.22 ± 9.58	124.51 ± 0.04	8160b38	@65a
Pro W7900	48 GB / GDDR6 / 384 bit	3213.17 ± 80.47	121.18 ± 0.06	8160b38	@65a
RX 7900 XT	20 GB / GDDR6 / 320 bit	3098.38 ± 24.02	116.15 ± 0.06	1e15bfd	@AdamNiederer
RX 9070	16 GB / GDDR6 / 256 bit	2381.77 ± 3.68	114.48 ± 0.60	d0660f2	@andj1210
Instinct MI100	32 GB / HBM2 / 4096 bit	2732.83 ± 1.98	110.48 ± 0.14	9c35706	@firefox42
RX 9070 XT	16 GB / GDDR6 / 256 bit	5055.19 ± 109.58	101.27 ± 0.27	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2151.81 + 17.94	100.94 + 0.10	00131d6	@olegshulyakov
Instinct MI50	32 GB / HBM2 / 4096 bit	1057.24 ± 0.53	98.95 ± 0.25	97d5117	@wtarreau
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1456.98 ± 12.39	96.07 ± 0.10	6fa3b55	@MihaiBojescu
AI PRO R9700	32 GB / GDDR6 / 256 bit	4443.54 ± 339.25	93.84 ± 0.26	bd4ef13	@gogich77
Instinct MI60	32 GB / HBM2 / 4096 bit	1289.11 ± 0.62	91.46 ± 0.13	504af20	@Said-Akbar
RX 6900 XT	16 GB / GDDR6 / 256 bit	1889.84 ± 31.21	88.49 ± 0.00	a972fae	@notgood
Pro VII	16 GB / HBM2 / 4096 bit	1064.99 ± 1.18	87.45 ± 0.04	2739a71	@8XXD8
RX 6800 XT	16 GB / GDDR6 / 256 bit	1447.07 ± 1.36	83.92 ± 0.03	79c1160	@MrLavender
Pro V620	32 GB / GDDR6 / 256 bit	1803.65 ± 2.54	74.66 ± 0.01	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1419.67 ± 3.64	67.58 ± 0.24	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	354.17 ± 0.18	67.55 ± 0.04	c05e8c9	@daniandtheweb
Instinct MI25	16 GB / HBM2 / 2048 bit	409.83 ± 0.23	63.94 ± 0.06	2739a71	@8XXD8
AI Max+ 395	128 GB / LPDDR5	911.36 ± 1.79	50.01 ± 0.07	e60f241	@firefox42
RX 7600 XT	16 GB / GDDR6 / 128 bit	1099.64 ± 2.05	48.58 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	240.68 ± 0.09	48.46 ± 0.09	ec428b0	@davispuh
Radeon 8060S	System Shared / DDR5	351.36 ± 0.67	47.97 ± 0.33	1d0125b	@hspak
Radeon 880M	System Shared / DDR5	163.25 ± 13.86	12.97 ± 1.63	c55d53a	@Hedede

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11945.97 ± 54.29	218.53 ± 0.09	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3874.25 ± 11.92	170.12 ± 0.56	2f0c2db	@Diablo-D3
Pro W7900	48 GB / GDDR6 / 384 bit	3472.86 ± 52.86	127.43 ± 0.12	8160b38	@65a
Instinct MI210	64 GB / HBM2e / 4096 bit	2571.82 ± 2.89	130.18 ± 0.06	8160b38	@65a
RX 9070	16 GB / GDDR6 / 256 bit	2452.68 ± 1.33	115.32 ± 0.52	d0660f2	@andj1210
RX 7900 XT	20 GB / GDDR6 / 320 bit	3261.75 ± 9.09	112.30 ± 0.06	1e15bfd	@AdamNiederer
Instinct MI50	32 GB / HBM2 / 4096 bit	1129.43 ± 0.15	105.82 ± 0.07	97d5117	@wtarreau
Instinct MI100	32 GB / HBM2 / 4096 bit	2755.00 ± 3.68	104.71 ± 0.10	9c35706	@firefox42
AI PRO R9700	32 GB / GDDR6 / 256 bit	4773.07 ± 49.30	97.98 ± 0.13	bd4ef13	@gogich77
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1598.79 ± 11.48	97.53 ± 0.06	6fa3b55	@MihaiBojescu
RX 9070 XT	16 GB / GDDR6 / 256 bit	4903.51 ± 96.36	97.28 ± 0.13	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2304.63 + 2.85	95.99 + 0.21	00131d6	@olegshulyakov
RX 6900 XT	16 GB / GDDR6 / 256 bit	1948.31 ± 13.51	85.04 ± 0.02	a972fae	@notgood
Pro V620	32 GB / GDDR6 / 256 bit	1256.86 ± 0.55	70.83 ± 0.02	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1479.27 ± 0.71	65.42 ± 0.19	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	314.17 ± 0.29	62.02 ± 0.05	c05e8c9	@daniandtheweb
AI Max+ 395	128 GB / LPDDR5	1003.53 ± 2.91	49.87 ± 0.02	e60f241	@firefox42
Radeon 8060S	System Shared / DDR5	366.08 ± 1.44	48.97 ± 0.15	1d0125b	@hspak
RX 7600 XT	16 GB / GDDR6 / 128 bit	1199.16 ± 1.07	47.65 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	153.17 ± 0.72	42.46 ± 0.40	ec428b0	@davispuh
Radeon 880M	System Shared / DDR5	213.31 ± 14.05	16.16 ± 1.41	c55d53a	@Hedede

Vulkan 完整榜單

Llama 2 7B, Q4_0, no FA

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	10381.64 ± 508.84	263.63 ± 0.91	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3531.93 ± 31.74	191.28 ± 0.20	2f0c2db
Nvidia RTX 4090	9452.03 ± 187.70	187.97 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 5080	7444.99 ± 20.11	185.10 ± 0.54	f6b533d	coopmat2
Nvidia A100	6389.86 ± 4.83	160.78 ± 0.16	2257758	coopmat2
Nvidia RTX 3090	4298.97 ± 10.59	160.13 ± 0.25	4ae88d0	coopmat2
Nvidia RTX 4080 Super	7101.18 ± 269.79	147.13 ± 5.64	81086cd	coopmat2
Nvidia RTX 3080	4287.11 ± 55.50	139.15 ± 0.05	7c7d6ce	coopmat2
Nvidia RTX A5000	3641.55 ± 9.05	139.89 ± 0.69	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	5036.04 ± 88.16	137.11 ± 0.02	e9fd8dc
Nvidia RTX 5070 Ti	6213.63 ± 27.72	135.63 ± 0.18	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4036.04 ± 34.58	130.19 ± 0.39	3191462
Nvidia Tesla V100	1391.39 ± 1.19	129.58 ± 0.58	7d77f07
Nvidia RTX 4070 Ti Super	6099.18 ± 154.30	129.45 ± 0.18	4ae88d0	coopmat2
AMD Radeon RX 7900 XT	2941.58 ± 17.17	123.18 ± 0.40	71e74a3
AMD Radeon RX 9070	3164.10 ± 66.84	119.71 ± 3.40	21c17b5
AMD Radeon RX 7800 XT	2017.33 ± 19.30	118.27 ± 0.27	4fdbc1e
AMD Radeon RX 7900 GRE	2336.31 ± 7.52	116.11 ± 0.26	4b2a477
Apple M3 Ultra	1116.83 ± 0.55	115.54 ± 0.78	2d451c8	MoltenVK
Intel Arc Pro B70	3379.00 ± 47.92	112.02 ± 1.08	b863507
Nvidia Titan V	984.36 ± 4.13	108.86 ± 0.28	e56abd2
AMD Radeon Pro VII	1078.54 ± 0.86	107.82 ± 0.14	N/A
AMD Radeon RX 6900 XT	1837.21 ± 25.44	104.60 ± 0.30	a972fae
Intel Arc Pro A60	2261.11 ± 9.53	104.25 ± 0.07	97d5117
AMD Radeon RX 6800 XT	1752.92 ± 1.71	100.32 ± 0.97	N/A
AMD Radeon VII	1059.14 ± 0.56	101.19 ± 0.53	77d6ae4
Nvidia RTX 2080 Ti	1888.24 ± 9.20	97.58 ± 6.60	N/A
AMD Radeon RX 6800	1698.69 ± 0.80	95.61 ± 0.19	4b385bf
AMD Radeon Pro W6800X Duo	687.71 ± 4.33	94.82 ± 0.12	N/A
Nvidia RTX 5060 Ti	3460.92 ± 7.16	93.51 ± 0.15	89f10ba	coopmat2
Nvidia RTX 4070	3179.37 ± 46.16	92.29 ± 0.28	9a48399
AMD Radeon Pro W6800X	510.80 ± 0.13	86.47 ± 0.46	13b4548	MoltenVK
AMD Radeon RX 6700 XT	1051.20 ± 0.98	83.88 ± 0.08	6d75883
AMD Radeon RX 6750 XT	1040.58 ± 0.35	81.98 ± 0.03	228f34c
AMD Radeon Pro V620	1595.32 ± 1.59	81.78 ± 0.06	03d4698
Nvidia RTX 3070	2113.02 ± 7.38	78.71 ± 0.13	1b8fb81
AMD Radeon Instinct MI60	369.26 ± 2.48	78.16 ± 1.40	504af20
Nvidia RTX 3060	1815.70 ± 5.85	75.94 ± 0.80	92c0b38	coopmat2
Apple M4 Max	724.77 ± 20.93	75.02 ± 0.14	1ece0cb6
Nvidia Tesla T10	1692.70 ± 2.05	75.01 ± 0.21	7f76692	coopmat2
Nvidia RTX A4000	2248.14 ± 7.59	73.74 ± 0.08	f5245b5	coopmat2
AMD Radeon RX 5700 XT	529.69 ± 0.26	70.73 ± 0.04	4fdbc1e
AMD Radeon RX 9060 XT	2141.67 ± 6.87	70.54 ± 0.74	ed52f36
Intel Arc B580	620.94 ± 15.33	70.14 ± 0.28	7f76692
AMD Radeon Pro V540	583.88 ± 6.56	69.64 ± 0.24	9da3dcd
AMD Radeon Pro W5700	449.85 ± 0.46	68.55 ± 0.15	23bc779
Intel Arc Pro B60	522.36 ± 3.60	68.55 ± 0.01	516a4ca
Nvidia GTX 1080 Ti	540.69 ± 0.71	64.99 ± 0.08	360d653
Nvidia RTX 2070 Super	1199.13 ± 7.70	64.64 ± 0.20	b7552cf
Nvidia RTX 3070 Mobile	1689.40 ± 19.57	63.64 ± 0.39	ceff6bb	coopmat2
Nvidia Tesla P100	678.14 ± 1.40	63.16 ± 0.06	eec1e33
AMD BC-250	370.66 ± 0.04	62.32 ± 0.32	5886f4f
AMD Radeon RX 6650 XT	1029.52 ± 1.21	62.14 ± 0.02	dbb852b
Nvidia RTX 4060 Mobile	2135.66 ± 23.18	59.53 ± 0.03	a5c07dc	coopmat2
Nvidia Tesla P40	488.06 ± 0.27	59.36 ± 0.16	N/A
Nvidia GTX 1660 Ti Mobile	511.67 ± 2.85	56.60 ± 0.07	b43556e
AMD Radeon Instinct MI25	439.42 ± 0.34	54.69 ± 0.03	2739a71
AMD Radeon RX 6600 XT	574.65 ± 0.86	53.92 ± 0.11	091592d
AMD Ryzen AI Max+ 395	1288.96 ± 6.49	53.59 ± 0.38	7f76692
AMD Radeon RX 7600 XT	840.85 ± 3.02	53.02 ± 0.01	01d8eaa
Intel Arc A770	1073.85 + 29.68	52.56 + 0.11	a69d54f
Nvidia GB10	2737.79 ± 19.56	52.28 ± 0.03	b9da444	coopmat2
AMD FirePro S9300 x2	247.26 ± 0.43	51.86 ± 0.11	eec1e33	Split across two GPUs
AMD Radeon RX 6600	761.89 ± 1.76	50.63 ± 0.02	b1c70e2
AMD Radeon RX Vega 56	439.87 ± 0.61	50.23 ± 0.14	92c0b38
Intel Arc B570	913.95 ± 0.90	49.64 ± 0.03	7f76692
Nvidia RTX 3060 Mobile	1059.76 ± 3.54	49.03 ± 0.13	dbb3a47
AMD Radeon RX 6800M	861.99 ± 7.67	48.71 ± 0.71	8e6f8bc
AMD Radeon RX 6600M	605.59 ± 0.65	48.21 ± 0.07	fe5b78c
Intel Arc A770M	875.92 ± 2.16	47.69 ± 0.16	eeee367
Nvidia P104-100	311.90 ± 0.22	46.18 ± 0.05	eec1e33
AMD Radeon RX Vega 64	356.08 ± 0.09	45.73 ± 0.18	ec428b0
Nvidia RTX A2000	1245.19 ± 8.76	45.52 ± 0.54	b1afcab	coopmat2
AMD Radeon RX 7600M XT	459.39 ± 2.34	45.28 ± 0.10	b9ab0a4	eGPU
AMD Radeon Pro V340	375.41 ± 0.24	45.16 ± 0.06	9da3dcd	Split across two GPUs
Nvidia GTX 1070 Ti	297.50 ± 0.54	42.86 ± 1.20	860a9e4	eGPU
Intel Arc A750	1075.94 ± 13.89	42.66 ± 0.18	c1b1876
Nvidia RTX 4050 Mobile	1154.28 + 15.76	41.89 + 0.10	d79d8f3
Nvidia GTX 1070	321.57 ± 0.93	41.48 ± 0.09	eec1e33
Intel Arc Pro B50	193.50 ± 0.24	39.99 ± 0.10	7b43f55
Nvidia Tesla M40	92.48 ± 0.02	39.35 ± 1.22	b8372ee
AMD Radeon RX 580	258.03 ± 0.71	39.32 ± 0.03	de4c07f
AMD Radeon RX 470	218.07 ± 0.56	38.63 ± 0.21	e288693
AMD Radeon Pro W5500	315.39 ± 3.76	36.82 ± 0.38	860a9e4
AMD Radeon RX 480	248.66 ± 0.28	34.71 ± 0.14	3b15924
Apple M2 Ultra	205.98 ± 0.02	34.34 ± 0.12	dbb852b	Asahi Linux
Nvidia GTX 980	186.24 ± 0.09	33.90 ± 0.51	860a9e4
Nvidia P106-100	183.78 ± 0.26	29.77 ± 0.04	23bc779
AMD FirePro W8100	155.22 ± 0.17	29.52 ± 0.05	4536363
Nvidia Tesla P4	265.54 ± 0.21	28.03 ± 0.14	24d2ee0
AMD Radeon RX 6500 XT	255.25 ± 0.35	27.81 ± 0.10	g9fdfcd
Apple M3	263.70 ± 0.02	26.39 ± 0.14	b9ab0a4	MoltenVK
AMD FirePro S10000	94.78 ± 0.02	25.32 ± 0.02	914a82d	Split across two GPUs
Nvidia Quadro P2000	169.55 ± 0.17	23.05 ± 0.03	63f8fe0
Intel Core Ultra 200 Series	544.95 ± 4.15	22.49 ± 0.09	cea560f
AMD Ryzen AI 9 300 Series	479.07 ± 0.41	22.41 ± 0.18	N/A
AMD Ryzen 6000 Series	240.89 ± 0.52	21.26 ± 0.08	ee09828
Apple M2 Pro	62.70 ± 0.03	20.95 ± 0.11	1fe0029	Asahi Linux
Nvidia GTX 1050 Ti	136.42 ± 0.67	20.96 ± 0.21	2f0c2db
AMD Ryzen 8000 Series	266.19 ± 1.36	20.53 ± 0.08	a5c07dc
AMD Ryzen 7000 Series	281.62 ± 1.56	19.91 ± 0.07	ebce03e
AMD Ryzen Z1 Extreme	199.36 ± 7.02	18.77 ± 0.02	53ff6b9
AMD FirePro D700	69.95 ± 0.04	16.62 ± 0.01	d3bd719	MoltenVK, running in FP16 mode on FP32 only chip
AMD Radeon Pro WX 4100	78.79 ± 0.10	16.05 ± 0.07	860a9e4
Apple M2	50.79 ± 0.16	13.50 ± 0.02	8c0d6bb	Asahi Linux
Apple M1	38.29 ± 0.00	12.47 ± 0.03	2370665	Asahi Linux
AMD Ryzen 5000 Series	90.55 ± 0.08	10.98 ± 0.07	d84635b
Intel Core 1100 Series	187.20 ± 1.78	10.39 ± 0.04	abb9f3c
AMD Radeon RX 550	52.66 ± 0.49	10.20 ± 0.01	N/A
AMD Ryzen 4000 Series	103.87 ± 0.02	9.63 ± 0.01	4b385bf
Nvidia Tesla K80	89.46 ± 0.10	9.39 ± 0.06	5d46bab	Running on single GPU
Nvidia Tesla K40	64.37 ± 0.09	9.30 ± 0.19	eec1e33
MediaTek Dimensity 9400	38.36 ± 15.15	8.92 ± 0.06	b9ab0a4	GPU supports coopmat but pp512 is faster with it turned off
Intel Core Ultra 100 Series	185.51 ± 0.22	8.21 ± 0.07	1d72c84
AMD Ryzen 3000 Series	48.63 ± 0.10	8.49 ± 0.01	1fe0029
CIX CD8180	2.80 ± 0.01	5.51 ± 0.00	4dca015
Intel Core 1000 Series	25.58 ± 0.00	4.25 ± 0.18	N/A
Intel Core 8000 Series	25.43 ± 0.17	3.35 ± 0.03	c4df49a
Intel N150	28.84 ± 0.02	2.93 ± 0.00	4f63cd7

Llama 2 7B, Q4_0, FA enabled

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	11796.38 ± 601.36	273.68 ± 0.52	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3332.90 ± 11.47	195.30 ± 0.23	2f0c2db
Nvidia RTX 5080	8054.59 ± 35.68	192.17 ± 0.21	f6b533d	coopmat2
Nvidia RTX 4090	10830.41 ± 36.25	190.10 ± 0.31	4ae88d0	coopmat2
Nvidia A100	7064.40 ± 1.63	170.56 ± 0.02	2257758	coopmat2
Nvidia RTX 3090	4732.33 ± 4.80	162.28 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 4080 Super	8007.37 ± 46.03	150.20 ± 0.26	81086cd	coopmat2
Nvidia RTX 3080	4913.83 ± 21.52	145.74 ± 0.16	7c7d6ce	coopmat2
Nvidia Tesla V100	1411.25 ± 2.12	142.13 ± 0.03	7d77f07
Nvidia RTX A5000	4071.22 ± 13.13	140.43 ± 0.22	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	4911.74 ± 28.52	138.20 ± 0.18	e9fd8dc
Nvidia RTX 5070 Ti	6764.53 ± 11.95	135.65 ± 0.02	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4333.83 ± 29.36	130.90 ± 0.12	3191462
AMD Radeon RX 7900 XT	3043.93 ± 10.42	124.20 ± 0.09	71e74a3
AMD Radeon RX 7800 XT	2094.64 ± 14.38	119.63 ± 0.13	4fdbc1e
AMD Radeon RX 9070	3277.24 ± 18.17	119.55 ± 0.06	21c17b5
AMD Radeon RX 7900 GRE	2402.07 ± 22.50	116.77 ± 0.08	4b2a477
Apple M3 Ultra	1115.55 ± 0.75	115.99 ± 0.12	2d451c8	MoltenVK
Intel Arc Pro B70	3314.53 ± 17.95	111.63 ± 0.05	b863507
Nvidia Titan V	792.74 ± 4.30	109.21 ± 0.72	e56abd2
AMD Radeon Pro VII	783.94 ± 0.77	108.45 ± 0.48	N/A
AMD Radeon RX 6900 XT	1761.93 ± 4.75	106.15 ± 0.04	a972fae
Nvidia RTX 2080 Ti	1936.25 ± 32.08	100.99 ± 0.24	N/A
AMD Radeon RX 6800 XT	1704.79 ± 0.71	100.50 ± 0.06	N/A
AMD Radeon Pro W6800X Duo	795.28 ± 0.72	100.08 ± 0.02	N/A
Nvidia RTX 5060 Ti	3912.65 ± 5.86	97.01 ± 0.14	89f10ba	coopmat2
AMD Radeon RX 6800	1749.46 ± 3.36	96.65 ± 0.48	4b385bf
Nvidia RTX 4070	4293.57 ± 27.70	91.49 ± 0.89	9a48399	coopmat2
AMD Radeon RX 6750 XT	997.05 ± 0.45	82.29 ± 0.06	228f34c
AMD Radeon RX 6700 XT	1010.90 ± 12.89	81.86 ± 0.19	6d75883
Nvidia RTX 3060	2012.88 ± 10.12	80.59 ± 0.02	92c0b38	coopmat2
AMD Radeon Pro V620	1556.31 ± 2.82	79.24 ± 0.09	03d4698
Nvidia RTX A4000	2482.74 ± 26.05	76.07 ± 0.08	f5245b5	coopmat2
Nvidia Tesla T10	1840.14 ± 1.22	76.05 ± 0.13	7f76692	coopmat2
AMD Radeon RX 5700 XT	538.31 ± 0.35	74.43 ± 0.03	4fdbc1e
Intel Arc B580	419.49 ± 3.37	72.00 ± 0.24	7f76692
Apple M4 Max	557.46 ± 26.87	71.79 ± 4.16	1ece0cb6
AMD Radeon Pro W5700	446.98 ± 0.39	71.30 ± 0.24	23bc779
Intel Arc Pro B60	274.76 ± 0.27	70.54 ± 0.03	516a4ca
AMD Radeon RX 9060 XT	1915.41 ± 7.90	70.52 ± 0.16	ed52f36
Nvidia Tesla P100	685.51 ± 0.88	66.48 ± 0.02	eec1e33
AMD Radeon RX 6650 XT	1088.90 ± 0.40	64.53 ± 0.75	dbb852b
Nvidia GTX 1080 Ti	529.96 ± 0.38	64.63 ± 0.10	360d653
AMD BC-250	356.87 ± 1.24	63.14 ± 0.09	5886f4f
Nvidia RTX 3070 Mobile	1832.07 ± 57.14	62.92 ± 0.37	ceff6bb	coopmat2
Nvidia RTX 4060 Mobile	2358.03 ± 12.17	60.01 ± 0.08	a5c07dc	coopmat2
Nvidia Tesla P40	484.37 ± 0.27	59.22 ± 0.15	N/A
Nvidia GTX 1660 Ti Mobile	514.34 ± 0.88	57.30 ± 0.42	b43556e
AMD Radeon RX 7600 XT	1024.38 ± 7.56	56.11 ± 0.02	01d8eaa
AMD FirePro S9300 x2	243.33 ± 0.22	55.64 ± 0.06	eec1e33	Split across two GPUs
Nvidia GB10	3279.89 ± 26.78	53.64 ± 0.05	b9da444	coopmat2
AMD Radeon RX 6600	808.76 ± 0.15	53.24 ± 0.03	b1c70e2
Intel Arc A770	1119.68 + 30.25	53.07 + 0.09	a69d54f
AMD Ryzen AI Max+ 395	1357.07 ± 10.94	53.00 ± 0.13	7f76692
AMD Radeon RX Vega 56	428.54 ± 0.50	52.66 ± 0.03	92c0b38
Intel Arc B570	288.51 ± 0.09	50.49 ± 0.05	7f76692
Nvidia P104-100	325.30 ± 0.25	48.64 ± 0.04	eec1e33
AMD Radeon Pro V340	360.23 ± 0.74	47.54 ± 0.06	9da3dcd	Split across two GPUs
AMD Radeon RX 6800M	784.16 ± 2.76	49.06 ± 0.34	8e6f8bc
AMD Radeon RX Vega 64	320.12 ± 0.22	47.06 ± 0.01	ec428b0
Nvidia RTX A2000	1361.85 ± 3.26	45.69 ± 0.20	b1afcab	coopmat2
Intel Arc A770M	384.74 ± 0.78	45.68 ± 0.06	eeee367
Intel Arc A750	303.37 ± 1.44	43.96 ± 0.03	c1b1876
Nvidia GTX 1070 Ti	292.85 ± 0.23	43.42 ± 0.34	860a9e4	eGPU
Nvidia GTX 1070	330.84 ± 1.02	43.33 ± 0.06	360d653
Nvidia Tesla M40	93.35 ± 0.01	41.68 ± 0.01	b8372ee
Intel Arc Pro B50	132.48 ± 0.04	41.02 ± 0.04	7b43f55
AMD Radeon RX 470	197.26 ± 0.27	37.28 ± 0.11	3769fe6
AMD Radeon RX 480	194.52 ± 0.61	37.23 ± 0.09	0bcb40b
Apple M2 Ultra	198.83 ± 0.85	198.83 ± 0.85	dbb852b	Asahi Linux
Nvidia GTX 980	180.97 ± 0.74	34.16 ± 0.10	860a9e4
Nvidia P106-100	183.40 ± 0.34	30.79 ± 0.32	23bc779
AMD FirePro W8100	140.52 ± 0.34	29.28 ± 0.14	4536363
Nvidia Tesla P4	287.14 ± 0.29	28.37 ± 0.24	24d2ee0
Nvidia Quadro P2000	181.71 ± 0.12	23.77 ± 0.02	63f8fe0
Intel Core Ultra 200 Series	536.48 ± 1.27	23.05 ± 0.04	cea560f
AMD Ryzen AI 9 300 Series	532.59 ± 3.55	22.31 ± 0.06	N/A
AMD Ryzen 6000 Series	277.91 ± 0.37	21.15 ± 0.09	ee09828
Apple M2 Pro	58.86 ± 0.02	20.97 ± 0.03	1fe0029	Asahi Linux
AMD Ryzen 8000 Series	297.39 ± 1.22	20.59 ± 0.38	a5c07dc
AMD Ryzen 7000 Series	312.85 ± 2.51	20.09 ± 0.35	835b2b9
Nvidia GTX 1050 Ti	127.54 ± 1.03	20.08 ± 0.17	2f0c2db
AMD Radeon Pro WX 4100	75.59 ± 0.19	16.56 ± 0.04	860a9e4
Apple M1	35.93 ± 0.00	12.85 ± 0.02	2370665	Asahi Linux
Apple M2	46.81 ± 0.08	12.25 ± 2.30	8c0d6bb	Asahi Linux
AMD Ryzen 5000 Series	79.06 ± 0.01	10.75 ± 0.00	5d195f1
Intel Core 1100 Series	174.77 ± 4.47	10.58 ± 0.03	abb9f3c
Nvidia Tesla K40	64.37 ± 0.02	9.92 ± 0.06	eec1e33
AMD Ryzen 4000 Series	113.32 ± 0.01	9.87 ± 0.01	4b385bf
Nvidia Tesla K80	88.26 ± 0.19	9.49 ± 0.01	5d46bab	Running on single GPU
AMD Ryzen 5 3000 Series	47.41 ± 0.14	8.47 ± 0.01	1fe0029
Intel Core Ultra 100 Series	77.66 ± 2.75	7.75 ± 0.05	2e89f76
Intel Core 8000 Series	25.55 ± 0.04	3.35 ± 0.02	c4df49a
Intel N150	25.59 ± 0.00	2.91 ± 0.00	4f63cd7

這些表格該怎麼用

如果你只是想買卡，或者看手裡機器大概在哪個檔位，最實用的讀法其實是這三步：

先看你關心的是 tg128 還是 pp512。
日常對話、寫程式、聊天體感，優先看 tg128；長上下文吞吐、批次處理、服務端壓 prompt，則更應該看 pp512。
再看你實際跑的後端。
Nvidia 通常看 CUDA 更貼近真實上限；AMD 機器更應該先對照 ROCm 和 Vulkan；跨平台相容場景則更適合參考 Vulkan。
最後再看 FA。
很多卡開啟 FA 後 pp512 會漲得更明顯，但 tg128 不一定同步大漲，所以不能只看單個最高分。

一句話總結

同樣是 llama.cpp 跑分，pp512、tg128、Q4_0、FA、CUDA / ROCm / Vulkan 分別代表完全不同的維度。先把口徑分清，再看數字，榜單才有意義。

如果你只想記一個最短結論，那就是：

CUDA 目前整體最強
ROCm 在高階 AMD 卡上已經很能打
Vulkan 覆蓋最廣，老卡、核顯、Intel Arc、Apple Asahi 都能找到可比條目
tg128 比 pp512 更接近日常真實體感

原始來源

CUDA discussion #15013: https://github.com/ggml-org/llama.cpp/discussions/15013
Apple Silicon discussion #4167: https://github.com/ggml-org/llama.cpp/discussions/4167
ROCm discussion #15021: https://github.com/ggml-org/llama.cpp/discussions/15021
Vulkan discussion #10879: https://github.com/ggml-org/llama.cpp/discussions/10879

Ollama 多顯卡使用筆記：顯存疊加、GPU 選擇和常見誤區

Sun, 19 Apr 2026 00:18:00 +0800

折騰 Ollama 本地推理時，經常會遇到類似問題：我現在有一張顯卡，主機板還有空 PCIe 槽，再加幾張 GPU 對 Ollama 有幫助嗎？多顯卡是否必須同型號？顯存能不能疊加？會不會像訓練框架那樣多卡並行加速？

這篇整理一下 Ollama 多顯卡的實際行為。重點先說結論：

Ollama 支援多 GPU。
多 GPU 最大價值通常是讓更大的模型放進總顯存，而不是線性提升 token/s。
預設策略下，如果模型能完整放進某一張 GPU，Ollama 傾向於放在單卡上。
如果模型無法完整放進單張 GPU，Ollama 會把模型分布到可用 GPU 上。
不同型號 GPU 可以被 Ollama 看到並使用，但效能和分配效果不一定理想。
不需要 SLI / NVLink 才能用多卡。
想限制 Ollama 使用哪些 GPU，需要用 CUDA_VISIBLE_DEVICES、ROCR_VISIBLE_DEVICES 或 GGML_VK_VISIBLE_DEVICES。

官方行為：先單卡，放不下再多卡

Ollama FAQ 裡對多 GPU 載入邏輯說得比較直接：載入新模型時，Ollama 會估算模型所需 VRAM，並和目前可用顯存比較。如果模型能完整放進某一張 GPU，它會載入到那張 GPU 上；如果單張 GPU 放不下，才會分布到所有可用 GPU 上。

這個策略的原因是效能。單卡載入通常能減少推理時跨 PCIe 匯流排的資料傳輸，因此往往更快。

所以不要把 Ollama 的多 GPU 理解成「有幾張卡就自動幾倍加速」。更準確的理解是：

小模型能進單卡：通常單卡跑。
大模型單卡放不下：跨多卡分層載入。
顯存仍不夠：一部分會落到系統記憶體，速度會明顯下降。

可以用下面命令確認模型到底載入到了哪裡：

`1`	`ollama ps`

輸出裡的 PROCESSOR 會顯示類似：

1
2
3

100% GPU
48%/52% CPU/GPU
100% CPU

如果看到 48%/52% CPU/GPU，說明已經有一部分在系統記憶體裡了。此時多加 GPU 或換更大顯存的卡，通常比繼續依賴 CPU/RAM 更有意義。

多 GPU 不是簡單疊算力

本地大模型推理和遊戲裡的 SLI 不是一回事。Ollama 多卡時，更常見的是把模型的不同層或張量放到不同裝置上。這樣可以用多張卡的顯存裝下更大的模型，但推理過程中仍然可能需要裝置之間傳遞資料。

因此，多 GPU 帶來的收益通常分兩種：

顯存收益：更容易裝下大模型，或者避免落到 CPU/RAM。
效能收益：只有在原本單卡裝不下或嚴重混 CPU 時，提升才會很明顯。

如果一個 8B 或 14B 模型本來就能完整放進單張 3090，強行拆到兩張卡不一定更快，甚至可能因為跨卡傳輸變慢。Ollama 官方預設「能單卡就單卡」的策略，就是為了避免這類不必要的跨 PCIe 開銷。

不需要 SLI 或 NVLink

Ollama 多 GPU 不依賴 SLI。多張普通 PCIe GPU 只要驅動和 Ollama 能識別，就可以被調度。

NVLink 或更高 PCIe 頻寬可能對某些跨卡場景有幫助，但它不是 Ollama 多 GPU 的前提條件。很多二手 GPU 伺服器或工作站，靠普通 PCIe 多卡也能跑。

真正要注意的是 PCIe 頻寬。x1、x4、x8、x16 的差異會影響模型載入到顯存的速度；如果頻繁切換大模型，PCIe 鏈路會更容易成為瓶頸。模型載入完成後，生成階段受 PCIe 的影響通常會小一些，但跨卡分層仍然可能帶來額外開銷。

比較穩的建議是：

能用 x16 / x8 就不要用礦卡 x1 轉接。
大模型頻繁切換時，PCIe 頻寬更重要。
如果模型長期常駐顯存，PCIe 頻寬瓶頸會相對不明顯。
多卡機器要重點看主機板 PCIe 拓撲和 CPU 直連通道。

如何限制 Ollama 使用哪些 NVIDIA GPU

NVIDIA 多卡環境下，用 CUDA_VISIBLE_DEVICES 控制 Ollama 能看到哪些卡。

臨時執行：

`1`	`CUDA_VISIBLE_DEVICES=0,1 ollama serve`

只讓 Ollama 用第二張卡：

`1`	`CUDA_VISIBLE_DEVICES=1 ollama serve`

強制不用 NVIDIA GPU，可以給一個無效 ID：

`1`	`CUDA_VISIBLE_DEVICES=-1 ollama serve`

官方文件提醒，數字 ID 的順序可能變化，更可靠的是用 GPU UUID。先查看 UUID：

`1`	`nvidia-smi -L`

輸出類似：

1
2

GPU 0: NVIDIA GeForce RTX 3090 (UUID: GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx)
GPU 1: NVIDIA GeForce RTX 3070 (UUID: GPU-yyyyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy)

然後指定 UUID：

`1`	`CUDA_VISIBLE_DEVICES=GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx ollama serve`

如果 Ollama 是 Linux systemd 服務安裝的，需要寫到服務環境變數裡：

`1`	`sudo systemctl edit ollama.service`

加入：

1
2

[Service]
Environment="CUDA_VISIBLE_DEVICES=0,1"

然後重載並重啟：

1
2

sudo systemctl daemon-reload
sudo systemctl restart ollama

AMD 和 Vulkan 的選擇變數

AMD ROCm 環境下，用 ROCR_VISIBLE_DEVICES 控制可見 GPU：

`1`	`ROCR_VISIBLE_DEVICES=0,1 ollama serve`

如果要強制不用 ROCm GPU，也可以用無效 ID：

`1`	`ROCR_VISIBLE_DEVICES=-1 ollama serve`

Ollama 官方 GPU 文件還提到，如果用實驗性的 Vulkan 支援，可以透過 GGML_VK_VISIBLE_DEVICES 選擇 Vulkan GPU：

`1`	`OLLAMA_VULKAN=1 GGML_VK_VISIBLE_DEVICES=0 ollama serve`

如果 Vulkan 裝置有問題，可以停用：

`1`	`GGML_VK_VISIBLE_DEVICES=-1 ollama serve`

AMD 多卡比 NVIDIA 更容易遇到驅動、ROCm 版本、GFX 版本支援的問題。官方文件中也提到 Linux 下 ROCm 驅動版本、HSA_OVERRIDE_GFX_VERSION 等相容性處理。多張不同代 AMD 卡混用時，先確認每張卡是否單獨可用，再考慮多卡。

Docker 裡怎麼暴露多張 GPU

如果用 Docker 跑 Ollama，NVIDIA 環境通常需要先安裝 nvidia-container-toolkit，然後用 --gpus 暴露裝置。

暴露全部 GPU：

docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

只暴露指定 GPU：

docker run -d \
  --gpus '"device=0,1"' \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

也可以結合環境變數：

docker run -d \
  --gpus=all \
  -e CUDA_VISIBLE_DEVICES=0,1 \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

如果容器裡 nvidia-smi 看不到卡，Ollama 也不可能用到 GPU。先排查 Docker GPU passthrough，再排查 Ollama。

`OLLAMA_SCHED_SPREAD` 是什麼

在一些多 GPU 配置討論裡，會看到 OLLAMA_SCHED_SPREAD=1 或 OLLAMA_SCHED_SPREAD=true。它和 Ollama 的調度策略有關，常被用於希望模型或請求更分散地利用多張 GPU 的場景。

可以這樣設定：

`1`	`OLLAMA_SCHED_SPREAD=1 ollama serve`

或者 systemd：

1
2

[Service]
Environment="OLLAMA_SCHED_SPREAD=true"

不過它不是萬能開關。開啟後並不等於 token/s 線性增長，也可能因為多個模型同時載入、顯存估算、上下文長度和 KV cache 增長導致 OOM。官方 FAQ 的核心策略仍然是：如果單 GPU 能完整容納模型，單 GPU 通常更高效；單 GPU 放不下時才跨多 GPU。

所以建議把 OLLAMA_SCHED_SPREAD 當成進階調度實驗項，而不是多卡必開項。先理解預設行為，再根據實際 ollama ps、日誌和 nvidia-smi 觀察結果調整。

怎麼觀察多卡是否真的用上

常用觀察命令：

`1`	`ollama ps`

`1`	`watch -n 0.5 nvidia-smi`

查看 Ollama 服務日誌：

`1`	`journalctl -u ollama -f`

如果使用 Docker：

`1`	`docker logs -f ollama`

你需要關注：

Ollama 是否發現相容 GPU。
模型是否顯示 100% GPU 或 CPU/GPU 混合。
每張卡顯存是否有占用。
載入模型時是否多卡顯存同時增長。
生成時 token/s 是否比 CPU/RAM 混跑明顯改善。
是否頻繁 OOM 或卸載模型。

如果只看 GPU 利用率，很容易誤判。LLM 推理時 GPU 利用率不一定長期滿載，尤其是多卡、低 batch、小上下文、慢 CPU 或慢 PCIe 環境下。

常見誤區

誤區 1：兩張 12GB 顯卡等於一張 24GB 顯卡

不完全等價。多卡可以讓模型跨裝置放置，但跨卡存取有額外開銷。它能解決「放不下」的問題，不一定等價於單張大顯存卡的速度和穩定性。

誤區 2：不同型號顯卡不能混用

不一定。只要驅動、計算能力和執行庫都支援，Ollama 可以看到多張 GPU。但混用時，速度通常受較慢卡、較小顯存和 PCIe 拓撲影響。最穩的多卡配置仍然是同型號、同顯存、同代驅動支援良好的卡。

誤區 3：多卡一定比單卡快

不一定。如果模型能完整放進單張快卡，單卡可能更快。多卡主要適合大模型、長上下文、單卡顯存不夠的情況。

誤區 4：必須有 NVLink / SLI

不需要。普通 PCIe 多卡也能被 Ollama 使用。NVLink 不是前提。

誤區 5：加 GPU 後不用重啟服務

不一定。Linux systemd 服務、Windows 背景應用、Docker 容器都可能需要重啟，才能重新識別裝置和環境變數。

選卡建議

如果目標是 Ollama 本地推理，優先級大致是：

單卡顯存越大越省心。
同型號多卡比混合多卡更容易排錯。
PCIe 通道越完整，載入大模型越舒服。
老卡要先確認 CUDA compute capability 或 ROCm 支援。
多卡電源、散熱和機箱風道要提前算清楚。

對於預算有限的二手平台：

雙 3090 仍然是很常見的大顯存方案。
P40 / M40 這類老 Tesla 顯存大，但功耗、散熱、驅動和效能都要權衡。
4070 / 4070 Ti 這類新卡能效好，但單卡顯存容量限制更明顯。
多張 8GB 老卡能折騰，但不建議為了大模型長期使用。

小結

Ollama 多顯卡支援可以理解成「顯存擴展優先，效能加速其次」。如果模型能完整放進一張 GPU，預設單卡通常更快；如果單卡放不下，多卡可以把模型分布到多張 GPU 上，避免大量落到 CPU/RAM，從而讓大模型變得可用。

實際配置時，先用 ollama ps 看模型載入位置，再用 nvidia-smi 或 ROCm 工具觀察顯存占用。需要限制 GPU 時，NVIDIA 用 CUDA_VISIBLE_DEVICES，AMD ROCm 用 ROCR_VISIBLE_DEVICES，Vulkan 用 GGML_VK_VISIBLE_DEVICES。如果在 Docker 中執行，先確保容器層面能看到 GPU。

多卡不是魔法。它能幫你裝下更大的模型，但不保證線性加速。真正穩定好用的路線，仍然是盡量選大顯存單卡或同型號多卡，並把驅動、PCIe、電源、散熱和模型量化一起考慮。

參考連結

Ollama FAQ：How does Ollama load models on multiple GPUs?：https://github.com/ollama/ollama/blob/main/docs/faq.mdx
Ollama GPU 文件：Hardware support / GPU Selection：https://github.com/ollama/ollama/blob/main/docs/gpu.mdx
Ollama Docker Hub：https://hub.docker.com/r/ollama/ollama
NVIDIA Container Toolkit：https://github.com/NVIDIA/nvidia-container-toolkit

ROCm on KnightLi的博客

AMD ROCm 7.2 + ComfyUI 相容性配置：Windows 上的 CUDA 平替怎麼用

ROCm 7.2 系列帶來了什麼

哪些硬體更適合

Windows 下推薦路線

Linux 仍然更適合重度使用者

ComfyUI 外掛相容要謹慎

AMD 顯卡跑 AI 繪圖的優勢

仍然要接受的限制

推薦配置思路

小結

參考資料

Ubuntu 26.04 LTS 的 GPU 與硬體支援更新：CUDA、ROCm、DPC++ 和更多平台變化

1. Intel DPC++ 與相關元件進入 Ubuntu Archive

2. NVIDIA CUDA toolkit 現在也能直接 apt install

3. AMD ROCm 7.1.0 進入 Universe

4. 這一輪真正的重點，是三家 GPU 生態都在落地

5. NVIDIA Dynamic Boost 預設啟用

6. Intel 新一代內顯與獨顯支援持續往前推進

7. Nvidia 桌機的掛起恢復也更穩定了

8. ARM、樹莓派、RISC-V 和 IBM Z 也有硬性門檻變化

ARM64 桌面平台

Raspberry Pi 新開機配置

Raspberry Pi 桌面映像改用 desktop-minimal

樹莓派 swap 改由 cloud-init 處理

RISC-V 門檻上調

IBM Z 最低要求提高到 z15

9. 哪些人更適合先看這篇

10. 一句話總結

解決 Ollama 使用 CPU 而不使用 GPU 運算的問題

1. 先確認是不是真的沒用到 GPU

2. 先排除最常見的誤區：模型塞不進顯存

3. 檢查顯卡驅動和底層環境是否可用

NVIDIA 方向

AMD / ROCm 方向

4. 重啟 Ollama 服務，不要只重開終端

5. 檢查服務環境變數有沒有真的傳進去

6. AMD 平台重點看 ROCm 相容性

7. Docker、WSL 或遠端環境要額外檢查裝置映射

8. 最後再看日誌，而不是一開始就亂猜

排查順序

結語

llama.cpp ollama 顯卡性能天梯：CUDA、ROCm、Vulkan

先看懂這些參數

Q4_0 是什麼

pp512 是什麼

tg128 是什麼

FA 是什麼

t/s 怎麼看

先說結論

CUDA 完整榜單

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

Apple Silicon 參考口徑

ROCm / HIP 完整榜單

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

Vulkan 完整榜單

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, FA enabled

這些表格該怎麼用

一句話總結

原始來源

Ollama 多顯卡使用筆記：顯存疊加、GPU 選擇和常見誤區

官方行為：先單卡，放不下再多卡

多 GPU 不是簡單疊算力

不需要 SLI 或 NVLink

如何限制 Ollama 使用哪些 NVIDIA GPU

AMD 和 Vulkan 的選擇變數

Docker 裡怎麼暴露多張 GPU

OLLAMA_SCHED_SPREAD 是什麼

怎麼觀察多卡是否真的用上

常見誤區

誤區 1：兩張 12GB 顯卡等於一張 24GB 顯卡

誤區 2：不同型號顯卡不能混用

誤區 3：多卡一定比單卡快

誤區 4：必須有 NVLink / SLI

誤區 5：加 GPU 後不用重啟服務

選卡建議

小結

2. NVIDIA CUDA toolkit 現在也能直接 `apt install`

`Q4_0` 是什麼

`pp512` 是什麼

`tg128` 是什麼

`FA` 是什麼

`t/s` 怎麼看

`OLLAMA_SCHED_SPREAD` 是什麼