GPU on KnightLi的博客

Ubuntu 26.04 LTS 的 GPU 與硬體支援更新：CUDA、ROCm、DPC++ 和更多平台變化

Sun, 26 Apr 2026 19:35:57 +0800

如果上一篇比較像是 Ubuntu 26.04 LTS 的桌面總覽，那這篇可以看作它在硬體與算力側的補充版。官方在這一輪 26.04 裡，把不少和 AI、GPU 計算、平台相容性直接相關的內容都推進了主倉庫或正式支援範圍。

先說結論：這次最值得關注的，不只是桌面和核心升級，而是 Ubuntu 正在把 Intel、NVIDIA、AMD 三家的 GPU 計算堆疊，更系統地納入發行版生態。

1. Intel DPC++ 與相關元件進入 Ubuntu Archive

從 26.04 開始，Intel 開源的 oneAPI DPC++ 編譯器已經可以直接從 Ubuntu Archive 取得，用來建構 SYCL 程式碼。其執行階段也包含面向 Intel GPU 的配接器。

同時進入 Ubuntu 倉庫的，還有兩個相關元件：

oneDPL，也就是 DPC++ library，提供更高生產力的開發介面
oneDNN，而且是基於 dpclang-6 建構，可在 Intel GPU 上運行

這代表如果你本來就在看 SYCL、異質運算，或是 Intel GPU 上的 AI 工作負載，Ubuntu 現在給出的路徑會直接很多，不再需要完全依賴一套獨立維護的外部環境。

官方也特別提醒一點：如果要實際調用這些 Intel GPU 相關能力，使用者需要加入 render 群組。

2. NVIDIA CUDA toolkit 現在也能直接 `apt install`

對很多開發者和維運人員來說，這可能是這份更新裡最實用的一條。

從 26.04 開始，NVIDIA CUDA toolkit 已經可以直接透過 Ubuntu Archive 安裝。命令就是：

`1`	`sudo apt install cuda-toolkit`

這背後的意義，不只是「少打幾條指令」。

對以 Ubuntu 為目標平台發佈軟體的開發者來說，新的模式意味著可以直接宣告對 CUDA runtime 的依賴，後續安裝與相容性由 Ubuntu 在發行版層面處理。這會讓 CUDA 在 Ubuntu 上更容易取得，也更接近系統原生能力，而不是額外疊上一層需要單獨維護的外部軟體堆疊。

3. AMD ROCm 7.1.0 進入 Universe

AMD 這邊，Ubuntu Universe 現在已經包含 ROCm 7.1.0。

這套函式庫主要提供的是：

面向 AMD GPU 的 AI 訓練與推論後端能力
機器學習與高效能運算相關的軟體基礎設施

官方還提到，Canonical 會在自己的 CI/CD 流程裡持續測試 ROCm 相關元件。除了 autopkgtests，也覆蓋了一些使用者態應用，包括：

llama.cpp
pytorch
Blender
Lemonade Server

這條資訊其實很關鍵，因為它說明 Ubuntu 不是單純「把套件放進倉庫」，而是把 ROCm 當成一套可維護的軟體堆疊來驗證。

4. 這一輪真正的重點，是三家 GPU 生態都在落地

把 DPC++、CUDA 和 ROCm 放在一起看，會更容易理解 26.04 的方向：

Intel：推進 SYCL / oneAPI 相關能力進入官方倉庫
NVIDIA：讓 CUDA toolkit 具備發行版級的安裝路徑
AMD：把 ROCm 7.1.0 納入 Universe，並持續做測試

如果你平常會在 Ubuntu 上碰到這些場景，這一輪更新會比較有感：

本地大模型推論
GPU 加速訓練或微調
Blender、科學運算、HPC
需要在多種 GPU 平台之間切換的開發環境

換句話說，Ubuntu 現在不只是「能裝顯卡驅動」，而是開始更完整地承接 AI 與 GPU 計算所需的使用者態軟體堆疊。

5. NVIDIA Dynamic Boost 預設啟用

從 25.04 開始，支援的 NVIDIA 筆電已經預設啟用 Dynamic Boost。

這個功能的邏輯很直接：系統會根據當前負載，在 CPU 和 GPU 之間動態分配功耗。對遊戲場景來說，常見收益就是在需要時把更多功率給 GPU，以換取更高效能。

不過它有兩個前提：

裝置接上交流電
GPU 負載夠高

在電池供電狀態下，它不會介入。

6. Intel 新一代內顯與獨顯支援持續往前推進

Ubuntu 這一輪也把對新 Intel GPU 的支援繼續往前推，重點包括：

整合顯示：

Intel Core Ultra Xe2
Intel Core Ultra Xe3

獨立顯示：

Intel Arc 5 B570
Intel Arc 5 B580
Intel Arc Pro B50
Intel Arc Pro B60
Intel Arc Pro B65
Intel Arc Pro B70

圍繞這批裝置，官方也列出了一些已經到位的特性：

基於 Intel Embree 的 GPU 與 CPU 光線追蹤渲染效能提升，像 Blender 4.2+ 這類應用可受益
“Battlemage” 裝置支援 AVC、JPEG、HEVC 和 AV1 的硬體視訊編碼
Intel Compute Runtime 引入新的 CCS 最佳化
已啟用 Intel Xe GPU 偵錯支援

如果你更關注後續版本，25.10 還會繼續帶進一些新能力，例如：

借助 Linux kernel 6.17 初步支援代號 Panther Lake 的下一代 Intel 用戶端平台
改進 IOMMU、PCIe 子系統與多 GPU 支援
Mesa 25.2.3 為 Battlemage 和 Panther Lake 啟用 VK_KHR_shader_bfloat16
intel-media-driver 25.3.0 增加 Panther Lake 解碼與 VP9 編碼支援
intel-compute-runtime 25.31 調整 Level Zero 的 USM 池與本地顯存事件配置策略
level-zero 1.24 與 level-zero-raytracing 1.1.0 帶來更完整的規範與 RTAS 擴充支援

7. Nvidia 桌機的掛起恢復也更穩定了

從 25.10 開始，Ubuntu 在專有 Nvidia 驅動中啟用了掛起恢復支援，以減少桌機喚醒後的損毀與卡死問題。

這類改動不算「看得見的新功能」，但對實際日常穩定性很重要，尤其是長時間開機、經常掛起恢復的桌面環境。

8. ARM、樹莓派、RISC-V 和 IBM Z 也有硬性門檻變化

除了 GPU 軟體堆疊，這份發行說明裡還有幾條平台層面的變化很值得單獨記一下。

ARM64 桌面平台

從 25.10 開始，linux-generic 的 ARM64 核心會提供更廣泛的桌面相容性，覆蓋那些使用 UEFI 開機的 ARM64 桌面平台。

Raspberry Pi 新開機配置

25.10 引入、26.04 持續調整的一個變化，是樹莓派開機分割區的新配置。

它的目標是提升開機可靠性：新寫入的開機資源會先被「測試」，確認沒問題後才會提交為新的 “known good” 集合。

這裡最需要注意的是韌體時間要求：

Pi 3 / 3+ / CM3+ / Zero 2W：不需要額外操作，開機韌體就在映像檔內
Pi 4 / 400 / CM4：開機韌體日期不得早於 2022-11-25
Pi 5 / 500 / CM5：開機韌體日期不得早於 2025-02-11

檢查命令是：

`1`	`sudo rpi-eeprom-update`

如果韌體太舊，而且你使用的是 Ubuntu 24.04 LTS 或更新版本，可以這樣更新：

1
2

sudo rpi-eeprom-update -a
sudo reboot

Raspberry Pi 桌面映像改用 desktop-minimal

從 25.10 開始，樹莓派版 Ubuntu Desktop 映像改為基於 desktop-minimal，而不是完整的 desktop seed。

官方給出的收益很明確：預設安裝的應用更少，未壓縮映像與實際系統都能節省大約 777MB 空間。

如果升級後想批次移除這批預設應用，可以使用：

`1`	`sudo apt purge ubuntu-desktop --autoremove`

如果你想保留其中某些應用，先用 apt 把它們標記為手動安裝即可。

樹莓派 swap 改由 cloud-init 處理

從 25.10 開始，樹莓派桌面映像裡的 swap 檔建立改由 cloud-init 負責。
如果你想在首次開機前自訂 swap 大小，可以直接修改開機分割區上的 user-data。

RISC-V 門檻上調

從 25.10 開始，Ubuntu 26.04 LTS 的 RISC-V 版本要求硬體實作 RVA23S64 ISA profile。

不符合這個要求的裝置，已經不能執行 Ubuntu 26.04 LTS。如果你手上還是較早的 RVA20 處理器板卡，那就得繼續留在 Ubuntu 24.04 LTS 這一代支援線上。

按照官方說明，截至 2026 年 4 月，現實裡還沒有可用的 RVA23S64 硬體，因此目前唯一受支援的平台，其實是基於 QEMU 並使用 -cpu rva23s64 配置的虛擬化環境。

IBM Z 最低要求提高到 z15

從 26.04 開始，s390x 架構最低要求提高到 z15。

這意味著：

z14 / LinuxONE II 以及更早的平台，已經不能安裝 Ubuntu 26.04 LTS
z15 / LinuxONE III 以及更新平台，會有更好的效能表現

9. 哪些人更適合先看這篇

如果你屬於下面這些場景，這篇會比桌面總覽更值得優先看：

在 Ubuntu 上做 CUDA、ROCm、SYCL 或本地 AI 推論
用 Intel、NVIDIA、AMD GPU 做開發或計算任務
維護 Raspberry Pi、ARM64、RISC-V、IBM Z 等非標準 x86 平台
對升級後的驅動、執行時、倉庫可用性和平台門檻更敏感

10. 一句話總結

Ubuntu 26.04 LTS 在硬體與 AI 軟體堆疊上的重點，不是哪一家顯卡單獨增強了什麼，而是 Intel 的 DPC++、NVIDIA 的 CUDA、AMD 的 ROCm，都開始以更官方、更多倉庫內、也更可維護的方式進入 Ubuntu 生態。

如果你過去把 Ubuntu 當成「先裝系統，再自己拼 GPU 環境」的底座，那從 26.04 開始，它已經更像一個願意主動承接 AI 與異質運算工作負載的發行版了。

解決 Ollama 使用 CPU 而不使用 GPU 運算的問題

Fri, 24 Apr 2026 18:30:00 +0800

本地跑大模型時，最讓人困惑的一類問題就是：機器明明有顯卡，Ollama 卻還是主要吃 CPU，速度也慢得離譜。

先說結論，這類問題通常不是單一原因。最常見的幾類分別是：

Ollama 根本沒有識別到可用 GPU
驅動、ROCm 或 CUDA 環境沒裝對
Ollama 服務啟動時沒有繼承正確的環境變數
模型太大，實際已經退回到 CPU 或 CPU/GPU 混合載入
AMD 平台存在額外相容性問題，例如 ROCm 版本、gfx 代號或裝置可見性設定不對

下面按最省時間的順序排查。

1. 先確認是不是真的沒用到 GPU

最直接的方法是看：

`1`	`ollama ps`

重點看 PROCESSOR 這一欄。

100% GPU：表示模型完整跑在顯卡上
100% CPU：表示完全沒用上顯卡
48%/52% CPU/GPU 這類結果：表示模型部分進了顯存，部分落到系統記憶體

如果你看到的是 100% CPU，後面就該重點查環境和服務設定。
如果看到的是混合載入，那不一定代表顯卡沒生效，更可能只是顯存不夠。

2. 先排除最常見的誤區：模型塞不進顯存

很多人以為只要裝了 GPU，Ollama 就一定會全顯卡推理。其實不是。

如果模型太大、上下文太長，或者機器上已經有其他模型佔著顯存，Ollama 很可能會退回到：

部分 GPU + 部分 CPU
直接 100% CPU

這時候可以先做兩個最簡單的驗證：

換一個更小的模型測試
例如先用 4B、7B 這類小模型，而不是一上來就跑更大的參數量。
卸載其他已載入的模型後再試
先看 ollama ps，確認沒有別的模型佔著顯存。

如果小模型能上 GPU、大模型不行，問題通常就不在驅動，而在顯存容量。

3. 檢查顯卡驅動和底層環境是否可用

如果連小模型都只能跑 CPU，下一步就該看底層環境。

NVIDIA 方向

先確認驅動正常、系統能看到顯卡。常見檢查方式包括：

`1`	`nvidia-smi`

如果這裡都報錯，Ollama 幾乎不可能正常使用 GPU。

AMD / ROCm 方向

如果你是 AMD GPU，尤其是 ROCm 環境，重點先看：

1
2

rocminfo
rocm-smi

如果這些工具都不能正常列出裝置，說明問題還在 Ollama 之前，先不要繼續折騰應用層。

對 AMD 來說，最常見的問題不是「有沒有裝驅動」，而是：

ROCm 版本和系統版本不匹配
當前 GPU 架構支援不完整
裝置雖然存在，但執行環境沒有正確暴露給 Ollama

4. 重啟 Ollama 服務，不要只重開終端

這是非常高頻的坑。

很多人裝完驅動、改完環境變數、補完 ROCm 之後，只是重新開一個終端，然後直接繼續 ollama run。但如果 Ollama 是以背景服務方式執行，它很可能還在用舊環境。

所以更穩的做法是：

完整重啟 Ollama 服務
必要時直接重啟系統

如果你是在 Linux 上以服務方式執行，通常要確認服務進程已經重新拉起，而不是沿用之前的舊進程。

5. 檢查服務環境變數有沒有真的傳進去

這一步在 AMD ROCm 環境尤其重要。

有些機器在終端裡手動執行命令沒問題，但 Ollama 服務還是只跑 CPU，原因就是服務進程沒有拿到你在 shell 裡設定的變數。

常見需要關注的變數包括：

1
2

ROCR_VISIBLE_DEVICES
HSA_OVERRIDE_GFX_VERSION

其中：

ROCR_VISIBLE_DEVICES 用來限制或指定 ROCm 能看到哪些 GPU
HSA_OVERRIDE_GFX_VERSION 常見於某些 AMD 平台的相容性處理

如果你只是在當前終端裡臨時 export 了變數，但 Ollama 是 systemd、桌面背景服務或其他守護進程啟動的，這些變數未必會生效。

也就是說，終端裡「看起來已經設定好了」，不代表 Ollama 真的拿到了。

6. AMD 平台重點看 ROCm 相容性

從公開頁面資訊來看，這個問題對應的影片主題本身就落在 AMD Max+ 395、strix halo、AMD ROCm 這條線上。
這類環境裡，Ollama 不走 GPU，往往比 NVIDIA 平台更依賴版本匹配。

可以優先排查下面幾項：

ROCm 版本是否適合當前系統和顯卡
當前 GPU 是否屬於 ROCm 支援較好的架構範圍
是否需要補 HSA_OVERRIDE_GFX_VERSION
是否是舊版 Ollama 或舊版底層推理庫導致相容性問題

如果你已經確認 rocminfo 正常、GPU 也能被系統識別，但 Ollama 仍然只跑 CPU，那大概率就要回到版本組合上重新檢查，而不是繼續盲目調模型參數。

7. Docker、WSL 或遠端環境要額外檢查裝置映射

如果你不是直接在裸機跑，而是在下面這些環境裡執行：

Docker
WSL
遠端容器
虛擬化環境

那還要多看一層：GPU 裝置有沒有真的暴露進去。

典型現象是：

宿主機能看到 GPU
容器裡的 Ollama 卻只能跑 CPU

這時要先確認不是 Ollama 本身的問題，而是容器或子系統根本沒拿到 GPU 存取權限。

8. 最後再看日誌，而不是一開始就亂猜

如果前面都查過了，最有效的做法不是繼續反覆重裝，而是直接看 Ollama 的啟動日誌和執行日誌。

重點看兩類資訊：

有沒有識別到 GPU
有沒有出現驅動、庫載入、裝置初始化失敗之類的報錯

只要日誌裡明確出現類似「找不到相容 GPU」或「ROCm/CUDA 初始化失敗」，排查方向就會立刻清楚很多。

排查順序

如果你只想記最短路徑，可以按這個順序來：

ollama ps 看現在到底是 GPU、CPU 還是混合載入
換一個更小的模型，排除顯存不夠
用 nvidia-smi、rocminfo、rocm-smi 先確認底層環境正常
完整重啟 Ollama 服務
檢查服務環境變數，尤其是 AMD 的 ROCR_VISIBLE_DEVICES、HSA_OVERRIDE_GFX_VERSION
如果是 Docker / WSL，再檢查裝置映射
最後看日誌定位具體報錯

結語

Ollama 使用 CPU 而不使用 GPU，本質上通常是三類問題之一：

GPU 根本沒有被識別
GPU 能被識別，但執行環境沒有傳到 Ollama
GPU 在工作，但模型太大，最後還是回落到 CPU 或混合記憶體

先把這三類分開，排查就會快很多。
如果你是 AMD 平台，尤其要把注意力放在 ROCm 版本、裝置可見性和相容性變數上，而不是只看 Ollama 命令本身。

原影片：https://www.bilibili.com/video/BV1cHoYBqE8k/

NVIDIA nvbandwidth 是什麼：GPU 頻寬測試工具怎麼用

Fri, 24 Apr 2026 14:41:35 +0800

如果你最近在排查多張 NVIDIA GPU 之間的互連效能，或是想確認 PCIe、NVLink、主機記憶體到顯存之間的實際頻寬，NVIDIA/nvbandwidth 是一個很值得知道的小工具。

它不是通用跑分軟體，也不是大模型框架裡的隱藏命令，而是 NVIDIA 開源出來、專門用來測量 GPU 相關記憶體拷貝頻寬與延遲的工具。相比只看理論頻寬，nvbandwidth 更適合回答一個實際問題：這台機器目前這組 GPU 和互連鏈路，實際到底能跑出多少頻寬。

1. `nvbandwidth` 是做什麼的

從官方 README 的定位來看，nvbandwidth 是一個用來測量 NVIDIA GPU 頻寬的命令列工具。

它重點關注的是各種 memcpy 模式下的傳輸表現，例如：

GPU -> GPU
CPU -> GPU
GPU -> CPU
多節點 GPU 之間的傳輸

這類測試特別適合下面幾種場景：

排查多卡訓練或推理時的互連瓶頸
驗證 NVLink、PCIe、C2C 等鏈路的實際表現
比較不同伺服器、不同拓撲、不同驅動或 CUDA 版本下的傳輸差異
做叢集部署前的基礎硬體驗收

簡單說，nvbandwidth 看的不是模型吞吐，而是更底層的「資料搬運能力」。

2. 它測的不是單一分數

很多人會把「頻寬測試」理解成最後只得到一個分數，但 nvbandwidth 實際輸出的資訊會更細。

它會依照測試類型給出矩陣結果。比如在 device_to_device_memcpy_write_ce 這類測試裡，輸出會按 GPU 的行列展示每一對裝置之間的頻寬。這樣你不只知道「這台機器大概有多快」，還可以看出：

哪兩張卡之間速度特別高
哪些卡之間明顯受限於 PCIe
某些 GPU 配對之間是否存在異常低頻寬
多卡拓撲是否符合預期

如果你在看八卡伺服器、雙路平台或跨節點系統，這類矩陣結果通常會比單一平均值更有參考意義。

3. `CE` 和 `SM` 兩類拷貝怎麼理解

官方文件把測試分成兩類：

CE：基於 memcpy API 的 copy engine 拷貝
SM：基於 kernel 的拷貝

這兩類結果不一定會完全一樣，因為它們代表的是不同的拷貝路徑。
如果你只是想看裝置之間的一般資料搬運表現，通常會先關注 CE；如果你要研究更細的執行路徑，再繼續看 SM 會更合適。

另外，README 也說明帶寬結果預設取多次測試的中位數；新版又補上了統計波動資訊，這對判斷結果是否穩定會更有幫助。

4. 執行它需要什麼環境

nvbandwidth 不是那種「下載就能直接跑」的純二進位小工具，它需要標準的 CUDA 開發環境。

官方 README 目前列出的基本要求包括：

CUDA Toolkit 11.x 或更高版本
支援 C++17 的編譯器
CMake 3.20+，更推薦 3.24+
Boost program_options
可用的 CUDA 裝置與相容驅動

如果你要跑多節點版本，要求會更高。當前 README 明確寫到：

多節點建置需要 CUDA Toolkit 12.3
驅動需要 550 或更高
需要 MPI
需要設定 nvidia-imex 服務

所以它更像是面向 Linux GPU 伺服器與叢集環境的工程工具，而不是給一般桌面使用者隨手裝來玩的。

5. 單機版怎麼編譯和執行

單機版建置流程很直接：

1
2

cmake .
make

在 Ubuntu / Debian 上，官方還提供了一個 debian_install.sh 腳本，用來安裝通用依賴並建置專案。

編譯完成後，可以先看幫助：

`1`	`./nvbandwidth -h`

幾個比較常用的參數包括：

-l：列出可用測試
-t：按測試名稱或索引執行指定測試
-p：按前綴批次執行測試
-b：設定 memcpy buffer 大小，預設 512 MiB
-i：設定測試迭代次數
-j：輸出 JSON
-H：啟用 huge pages 的主機記憶體配置

如果只是想先跑一輪預設測試，直接執行：

`1`	`./nvbandwidth`

如果只想測一個具體項目，例如某個裝置到裝置的拷貝：

`1`	`./nvbandwidth -t device_to_device_memcpy_read_ce`

6. 多節點支援是它比較特別的地方

nvbandwidth 不只是單機多卡測試工具，它也支援多節點場景。

從 README 來看，多節點版本的建置方式是：

1
2

cmake -DMULTINODE=1 .
make

執行時通常要搭配 mpirun，並以「每張 GPU 一個進程」的方式啟動。
官方文件也要求所有參與測試的 rank 都處在同一個 multinode clique 內，並建議在 MPI 環境下主要執行帶 multinode 前綴的測試。

這一點說明它的定位明顯更偏向高效能運算與大型 GPU 系統，而不只是工作站自測。

如果你手上是 NVLink 多節點部署、GB200 / Grace Hopper 這類更複雜的平台，nvbandwidth 的價值會比一般消費級顯卡環境大得多。

7. 新版 `v0.9` 更新了什麼

截至 2026 年 4 月 24 日，GitHub Releases 頁面顯示 nvbandwidth 的最新版本是 v0.9，發布時間是 2026 年 4 月 8 日。

這一版比較值得注意的更新主要有：

為頻寬輸出增加波動統計資訊
增加 host memory huge pages 支援（Windows 不啟用）
為裝置到裝置測試增加 pair sampling 選項
補充 troubleshooting guide
統一單機與多節點執行路徑

另外還有兩點工程層面的變化也很實用：

改進 CUDA 架構檢測，降低對實際 GPU 存取的依賴
在 CUDA Toolkit 13.0+ 場景下棄用 Volta（sm_70 / sm_72）支援

如果你之前只看過舊版資料，現在再回來看，v0.9 已經不只是「測一下頻寬」的初始版本，而是朝著更適合自動化、排障和大型系統測試的方向繼續推進了。

8. 什麼時候適合用它

nvbandwidth 最適合下面這些情況：

你想確認多張 NVIDIA GPU 之間的真實互連頻寬
你懷疑某張卡被插在了受限的 PCIe 插槽
你想比較 NVLink 和非 NVLink 路徑的差異
你在做多節點 GPU 叢集部署，需要驗證鏈路是否正常
你想把測試結果接進自動化流程，輸出 JSON

但如果你的目標只是看「訓練快不快」或「推理 tokens/s 有多少」，那它不是直接答案。
這時你還需要搭配訓練框架、推理引擎或具體 workload 的實測一起看。

9. 可以怎麼理解它的價值

很多 GPU 效能問題，本質上都不是「算力不夠」，而是資料沒有搬好。

例如：

GPU 之間沒有走到預期的鏈路
跨 NUMA 節點存取導致速度下降
某些卡配對之間頻寬異常
跨節點通訊配置不完整

這類問題如果只看 nvidia-smi、只看模型吞吐，往往不容易定位。
而 nvbandwidth 這種更底層、矩陣化的測試工具，剛好能把「鏈路層實際發生了什麼」暴露出來。

所以你可以把它理解成：給 NVIDIA GPU 系統做頻寬體檢的命令列工具。

如何檢查 Tesla V100 是否存在 ECC 錯誤

Thu, 23 Apr 2026 11:50:21 +0800

如果你手上有一張 Tesla V100，想先做最基礎的健康檢查，ECC 狀態是很值得優先看的項目。

最直接的方法，就是用 nvidia-smi 查看顯卡詳細資訊。

1
2
3

nvidia-smi -q
# 查询第 0 块 GPU
nvidia-smi -q -i 0

重點看 ECC Errors 這一段。

一張狀態正常的卡，ECC Errors 下面常見的 4 段統計都應該是 0 或 N/A。如果這裡已經出現非零值，就代表這張卡曾經出現過對應類型的 ECC 異常，需要進一步判斷是否適合繼續使用。

參考輸出如下：

nvidia-smi -q
    ECC Mode
        Current                          : Enabled
        Pending                          : Enabled
    ECC Errors
        Volatile
            Single Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : N/A
                Total                    : 0
            Double Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : 0
                Total                    : 0
        Aggregate
            Single Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : N/A
                Total                    : 0
            Double Bit
                Device Memory            : 0
                Register File            : 0
                L1 Cache                 : 0
                L2 Cache                 : 0
                Texture Memory           : N/A
                Texture Shared           : N/A
                CBU                      : 0
                Total                    : 0
    Retired Pages

可以簡單這樣理解：

Volatile 是本次上電週期內的錯誤統計
Aggregate 是累計錯誤統計
Single Bit 是可糾正錯誤
Double Bit 是不可糾正錯誤，風險更高

如果你只是想做快速篩查，先記住一個實用標準：

大部分項目應為 0
某些不適用項目顯示 N/A 也正常
如果 Double Bit 或總數不是 0，就不要只看賣家口頭描述，最好繼續做更完整的壓力測試與穩定性驗證

這一步不能取代完整驗卡，但足夠作為 V100 到手後的第一輪排查。

特斯拉 V100 現在還值得買嗎：ECC 檢查、散熱改造與 DIY 避坑

Thu, 23 Apr 2026 11:15:10 +0800

如果你最近在看二手 Tesla V100，很容易碰到兩種說法：

一種覺得它現在依然很能打，性價比很高
另一種覺得這類卡水很深，DIY 玩家一不小心就會翻車

這兩種說法其實都對。

V100 不是不能買，而是不能用普通消費級顯卡的思路去買。你真正要看的，不只是能不能點亮，也不只是賣家口中的「全新」或「原廠拆機」，而是這張卡有沒有被動過手腳、ECC 狀態怎麼樣，以及散熱與供電方案到底靠不靠譜。

這篇文章整理出幾條對實際買卡和上機最有幫助的判斷標準。

先看結論

如果你只想看最短版，先記住下面幾點：

V100 大致從 2017 年生產到 2021 年停產，16G 版本裡 2021 年的卡並不常見
光看「全零 ECC」或「原廠拆機」都不夠，很多關鍵數據與外觀狀態都有可能被處理過
真正危險的，往往不是買到一張老卡，而是買到一張被拆過、刷過、散熱方案有硬傷的卡
對 DIY 玩家來說，V100 最大的坑通常不是核心本身，而是轉接板、供電、熱點溫度與底板散熱

一、先看年份與批次，對不上就要警惕

一個很實用的判斷方法是：先看晶片年份，再看周邊器件年份是否對得上。

例如晶片表面出現 1828，通常可以理解為：

18 代表 2018 年
28 代表第 28 週

也就是說，這是一顆 2018 年第 28 週生產的晶片。

除了晶片本體，周邊電感上通常也能看到對應年份標記。如果晶片年份和電感年份差距非常大，例如：

晶片是 2017
電感卻是 2020

那就需要提高警覺。這不一定百分之百代表有問題，但至少說明它已經不是那種原始狀態非常完整的卡。

反過來說，如果年份大致能對上，例如：

2018 晶片搭配 2018 年周邊料件
2019 年末晶片搭配 2020 年周邊

這種就更正常一些。

二、外觀檢查不要只看晶片，也要看電感、彈簧與框架

外觀檢查可以拆成幾步來看。

1. 先摸電感

用手輕輕摸一圈電感，正常情況下不應該有任何一顆是鬆動的。

如果有電感已經晃動，通常代表：

焊接狀態不正常
後續使用中問題可能持續放大

這種卡即使現在能亮，也不建議輕易碰。

2. 再看固定彈簧有沒有被拆過

這裡有一個很實用的判斷邏輯：

如果賣家強調這是「原廠拆機」
那固定彈簧理論上就不應該被輕易拆過

因為正常伺服器原廠環境，通常不會特地去拆這個彈簧。

如果你輕輕一撬，彈簧就很容易下來，那大概率表示這張卡之前已經被拆過。要是賣家同時還說它是「原廠拆機、未動過」，可信度就得打個問號。

3. 框架太好拆，也不正常

中間框架拆掉之後，如果整個結構輕輕一拿就分離，通常也代表這張卡曾經被反覆拆裝過。

對二手 V100 來說，這很關鍵，因為後續的刷寫、改造與維修，往往都會留下這些拆裝痕跡。

三、底板如果太容易分離，就要懷疑刷過 VBIOS 或動過手腳

這裡有一個很重要的點：PCB 下層有一塊金屬背板，它不只是防護件，也負責輔助散熱。

在正常原裝狀態下，這塊底板通常不太容易拆。原因包括：

膠固定
結構結合很緊
本來就不是設計給人反覆拆裝的

如果稍微一用力，底板就和 PCB 很容易分開，那基本就要懷疑：

之前被拆過
裡面可能刷過 VBIOS
可能做過二次處理

這不代表它一定不能用，但如果你買的是「原裝無拆」這種口徑，那這種現象顯然不對。

四、`ECC` 怎麼看：最重要的不是是不是零，而是會不會增長

很多人買 V100 時最關心 ECC，這部分也需要單獨拆開看。

常見做法是用 nvidia-smi 的詳細查詢，把 ECC Errors 相關資訊拉出來看。

1. 即時錯誤最危險

上面那部分可以理解成「即時錯誤」。

如果在運行過程中，這部分數字持續增加，那通常就不是小問題了，往往代表這張卡已經處在明顯不穩定的狀態。

簡單說：

跑起來不報新錯，比靜態全零更重要
一壓測就開始增長錯誤，比歷史累積數字更可怕

2. 全生命週期累積錯誤不一定可怕

另一部分是全生命週期累積錯誤，也就是這張卡從出廠到現在一共出現過多少次糾錯或異常。

如果這類數字只是：

個位數
十幾次

未必就是大問題。

只要實際運行時，上面的即時錯誤沒有繼續增加，很多時候卡仍然可以正常使用。

3. 屏蔽頁更值得重點看

更值得重點關注的是下面那部分「屏蔽頁」資訊，也就是某些顯存塊因為不可糾正錯誤而被屏蔽掉。

大致可以這樣理解：

單精度和雙精度可能各自有被屏蔽的塊
兩邊加起來如果超過 10，這張卡就進入需要更謹慎的區間

這不一定代表完全不能用，但意味著它的實際可用顯存和長期穩定性已經受到影響。

五、不要迷信「全零 ECC」，因為數據本身也可能被刷過

這裡有一個很現實的提醒：

ECC 數據並不是天生就絕對可信。

如果一張卡：

數據看起來非常漂亮
但外觀拆裝痕跡又很重
結構狀態也明顯被動過

那就不能只憑「ECC 全零」這一點來判斷。

可以用一個很形象的比喻來理解：就像一台老車，到了很多年後突然顯示里程 0、輪胎幾乎沒有磨損，你很難不懷疑里程表被人動過。

放到 V100 上也是一樣：

數據太完美，不一定是好事
更重要的是數據、外觀、壓力測試結果能不能互相對得上

六、壓力測試不能省，但只測核心也不夠

可以用 gpu-burn 之類的工具做壓力測試，先壓個幾分鐘到十幾分鐘，觀察：

是否穩定
是否掉卡
是否出現新的 ECC 錯誤

但還有一點也要特別注意：

只測核心，不代表整張卡就真的沒問題。

因為 V100 的很多翻車，不是核心先死，而是：

供電部分溫度過高
底板區域散熱不足
熱點溫度過高
轉接板與散熱系統長期處在危險邊緣

所以壓力測試只能說明「這張卡現在能跑」，不能單獨證明「這套 DIY 方案能長期穩定使用」。

七、DIY 玩家最容易翻車的，不是買卡，而是散熱與供電

這大概也是整篇裡最值得記住的部分。

核心觀點很明確：

對 DIY 玩家來說，隨便拼一個底板，再壓一個普通水冷頭上去，並不是穩妥方案。

問題在於 V100 不是普通消費卡，它是一張：

功耗高
發熱大
熱分布複雜

的伺服器加速卡。

除了核心本體發熱，底板、供電區域、連接器區域同樣會發熱，而且溫度並不低。

1. 不要只盯著 GPU 平均溫度

很多監控軟體顯示的是整卡平均溫度，但真正更危險的，往往是 hot spot。

也就是說：

你看到表面溫度只有六十幾度
但局部熱點可能早就超過一百度

這也是為什麼很多看起來「溫度還行」的 DIY V100，最後還是會突然報廢。

2. 底板散熱一定要考慮

底板和供電區域散熱不能忽略。

如果只是給核心上了個散熱器，但：

MOS 沒顧到
底板沒有做好導熱
背面沒有足夠的散熱設計

那整套方案依然是不完整的。

3. 低價拼裝水冷方案風險很高

對那種「隨便找個轉接底板，再上個便宜一體水冷」的方案，顯然要抱持保留態度。

問題不在於它一定會立刻壞，而在於它經常存在：

水道覆蓋不均
供電區散熱不完整
熱點區域沒有真正壓住
長期運行後壽命不可控

八、如果一定要 DIY，至少注意這幾件事

比較核心的建議包括：

優先選成熟一點、口碑更穩定的底板方案
不要只看核心散熱，背面供電區和底板導熱也要做
水冷頭要看覆蓋和均熱能力，不是隨便能壓上去就行
壓力測試之後還要繼續觀察溫度、熱點與長期穩定性
電源品質也會影響嘯叫與整體穩定

換句話說，DIY V100 真正難的不是「裝上去能亮」，而是「裝上去之後還能長期穩定地活」。

九、嘯叫與轉接板個體差異，也都是現實問題

最後還有兩個經常被忽略的點：

1. 嘯叫不一定能徹底消除

它和卡本身體質、電感、電容、供電狀態都有關，不是換一根線或加一個小配件就一定能百分之百解決。

2. 轉接板個體差異很大

這也是為什麼有些賣家即使願意賣裸卡，也會強調：

先上機測試
記錄序號
做壓力測試
全程錄影

因為很多糾紛未必出在晶片本體，而是出在後續搭配的轉接板與散熱方案上。

結語

Tesla V100 現在還值不值得買？答案是：值得，但前提是你知道自己買的是什麼，也知道後面要怎麼用。

如果你只看：

能不能點亮
ECC 是否全零
賣家有沒有說「原廠拆機」

那遠遠不夠。

真正更值得看的，是這幾件事：

年份與批次是否對得上
外觀拆裝痕跡是否異常
底板和結構是否被明顯動過
壓力測試時錯誤是否增長
你的散熱與供電方案是否真的可靠

尤其對 DIY 玩家來說，V100 最危險的地方，往往不是「買到老卡」，而是「低估了這類卡對散熱、供電與改造品質的要求」。

llama.cpp ollama 顯卡性能天梯：CUDA、ROCm、Vulkan

Thu, 23 Apr 2026 10:22:04 +0800

先看懂這些參數

`Q4_0` 是什麼

Q4_0 是一種 4-bit 量化格式。它的意義不是「模型更強」，而是「模型更小、更省顯存、更容易塞進更多設備裡」。這些榜單大多統一使用 Llama 2 7B, Q4_0，核心目的就是減少變數，讓不同 GPU 的成績更容易橫向比較。

`pp512` 是什麼

pp512 一般可以理解為 prompt processing 512 tokens，也就是處理 512 個輸入 token 時的吞吐。

pp = prompt processing
512 = 輸入長度是 512 token
t/s = tokens per second

它更像是「吃提示詞的速度」，通常能更充分地並行，所以數字往往很高。

`tg128` 是什麼

tg128 一般可以理解為 text generation 128 tokens，也就是連續生成 128 個 token 時的速度。

tg = text generation
128 = 連續生成 128 token
t/s = tokens per second

它更接近我們平時感受到的「模型回答快不快」。因為生成階段是逐 token 遞推，所以通常明顯低於 pp512。

`FA` 是什麼

FA 是 Flash Attention。簡單理解，就是注意力計算的一種最佳化開關。

with FA 表示啟用了 Flash Attention
no FA 表示關閉 Flash Attention

在不少卡上，FA 對 pp512 的提升比對 tg128 更明顯；但不同後端、不同驅動和不同架構之間，提升幅度並不一致，個別設備甚至會出現 PP 上升、TG 變化很小，或者 PP 反而下降的情況。

`t/s` 怎麼看

t/s 就是 tokens per second。它不是幀率，也不是 FLOPS，而是模型吞吐表現的直接結果。

讀榜單時最重要的一點是：先確認你比較的是不是同一種測試。

不要把 pp512 和 tg128 直接混著比
不要把 no FA 和 with FA 混著比
不要把 CUDA、ROCm、Vulkan 的結果當成完全等價的同一條曲線

先說結論

從這幾條討論串目前可見的資料看，大致可以先記住這幾個結論：

CUDA 仍然是目前 llama.cpp GPU 跑分裡最強、樣本也最密集的一條線，特別是高階 Nvidia 卡在 pp512 上優勢很大。
ROCm 在高階 AMD 卡和 Instinct 卡上已經能給出非常像樣的成績，MI300X、7900 XTX、W7900 這些條目都不弱。
Vulkan 的優點不是「絕對最快」，而是覆蓋面最廣，Nvidia、AMD、Intel、Apple Asahi / MoltenVK，甚至很多老卡和核顯都能找到條目。
tg128 往往更接近日常體感，pp512 更適合看吞吐能力。很多「榜一」卡，在兩項裡的領先幅度並不完全一樣。

CUDA 完整榜單

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14073.41 ± 115.16	290.02 ± 1.10	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	14854.63 ± 22.73	274.20 ± 0.14	79c1160	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	9918.34 ± 176.97	267.81 ± 1.54	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	4849.53 ± 8.94	190.88 ± 0.33	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	10293.86 ± 134.72	189.33 ± 0.19	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	11992.70 ± 107.99	186.21 ± 0.13	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	8297.36 ± 9.50	181.99 ± 0.42	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	6952.38 ± 13.73	176.85 ± 0.07	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	9229.23 ± 101.78	176.07 ± 0.26	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6567.49 ± 20.30	171.19 ± 3.98	9c35706	@slaren
RTX 3090	24 GB / GDDR6X / 384 bit	5174.69 ± 21.83	158.16 ± 0.21	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	8870.49 ± 378.76	152.01 ± 0.28	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	8125.15 ± 41.05	148.33 ± 0.20	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	8031.64 ± 26.49	142.49 ± 0.16	20638e4	@Ristovski
RTX 3080	10 GB / GDDR6X / 320 bit	5013.86 ± 24.80	139.65 ± 0.99	9c35706	@slaren
RTX A6000	48 GB / GDDR6 / 384 bit	4913.93 ± 6.79	138.73 ± 2.75	4795c91	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	6924.53 ± 13.87	132.26 ± 0.16	9c35706	@Ristovski
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	4992.83 ± 113.52	131.66 ± 0.20	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4028.16 ± 19.14	130.07 ± 2.74	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	3042.64 ± 40.71	129.08 ± 0.05	51f5a45	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5184.75 ± 18.70	127.54 ± 0.46	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	4609.01 ± 10.67	124.11 ± 0.17	3470a5c	@Hedede
A30	24 GB / HBM2e / 3072 bit	2767.10 ± 1.88	124.81 ± 0.16	583cb83	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2617.46 ± 2.10	108.79 ± 0.05	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	2890.66 ± 2.42	107.51 ± 0.21	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	2751.18 ± 19.43	102.77 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	2709.95 ± 3.35	102.68 ± 0.03	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	2827.20 ± 66.43	97.32 ± 2.80	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	3737.25 ± 6.79	90.94 ± 0.02	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2088.34 ± 1.94	88.06 ± 0.28	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2684.06 ± 15.28	83.77 ± 0.37	65349f2	@TinyServal
Titan Xp	12 GB / GDDR5X / 384 bit	1154.96 ± 1.46	76.08 ± 0.08	c4510dc	@Hedede
RTX 3060	12 GB / GDDR6 / 192 bit	2137.50 ± 10.12	75.57 ± 0.07	baa9255	@QuantiusBenignus
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1536.89 ± 0.90	65.62 ± 0.62	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3394.63 ± 7.44	63.86 ± 0.01	89d1029	@mike-llamacpp
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1084.41 ± 3.01	62.49 ± 0.06	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	2779.77 ± 9.91	61.83 ± 0.04	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1420.24 ± 1.95	60.04 ± 0.01	5c0eb5e	@ggerganov
Tesla P100	16 GB / HBM2 / 4096 bit	760.80 ± 2.92	58.35 ± 0.00	b8372ee	@Hedede
DGX Spark	128 GB / LPDDR5x	3062.31 ± 11.02	57.21 ± 0.06	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1007.42 ± 1.23	54.74 ± 0.07	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	1956.22 ± 7.74	50.62 ± 0.04	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1219.06 ± 4.18	46.38 ± 0.73	d32e03f	@pt13762104
RTX 4050 Laptop	6 GB / GDDR6 / 96 bit	1725.85 + 17.85	43.72 + 0.41	d79d8f3	@TimCabbage
GTX 1660	6 GB / GDDR5 / 192 bit	148.91 ± 0.01	41.35 ± 0.02	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	282.65 ± 0.15	38.04 ± 0.02	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	714.44 ± 2.04	37.82 ± 0.02	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	991.31 ± 1.15	33.58 ± 0.14	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	514.53 ± 3.06	33.29 ± 0.00	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	406.94 ± 0.25	30.40 ± 0.02	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	416.85 ± 1.75	27.79 ± 0.02	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	79.44 ± 0.01	27.82 ± 0.18	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	309.30 ± 0.05	23.63 ± 0.00	baa9255	@TinyServal
Quadro P1000	4 GB / GDDR5 / 128 bit	183.40 ± 0.11	13.99 ± 0.13	1e74897	@aleksyx
Tesla K80	12 GB / GDDR5 / 384 bit	133.14 ± 0.55	13.80 ± 0.02	32732f2	@pebaryan

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
RTX 5090	32 GB / GDDR7 / 512 bit	14970.15 ± 381.06	300.40 ± 0.28	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bit	16618.98 ± 20.66	281.11 ± 0.41	5143fa8	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bit	11263.29 ± 98.34	280.74 ± 1.17	5143fa8	@Hedede
A100 80 GB	80 GB / HBM2e / 5120 bit	5285.96 ± 6.58	200.90 ± 0.12	5143fa8	@Hedede
RTX 4090 D	24 GB / GDDR6X / 384 bit	12506.97 ± 11.51	191.57 ± 0.03	79c1160	@autonomous-AI-lab
RTX 4090	24 GB / GDDR6X / 384 bit	14770.63 ± 102.93	188.96 ± 0.05	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bit	9487.70 ± 21.89	184.68 ± 0.05	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bit	8419.56 ± 35.50	182.43 ± 0.09	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bit	10576.85 ± 530.21	179.47 ± 0.32	b8e09f0	@Hedede
RTX 3090 Ti	24 GB / GDDR6X / 384 bit	6924.01 ± 10.76	172.26 ± 1.31	9c35706	@slaren
RTX PRO 4500 Blackwell	32 GB / GDDR7 / 256 bit	7251.66 ± 92.40	168.90 ± 0.20	becc481	@Hedede
RTX 3090	24 GB / GDDR6X / 384 bit	5560.06 ± 16.28	161.89 ± 0.18	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bit	10097.64 ± 671.22	153.76 ± 0.12	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bit	9439.01 ± 56.75	147.48 ± 1.41	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bit	9205.93 ± 22.31	143.47 ± 0.02	20638e4	@Ristovski
RTX A6000	48 GB / GDDR6 / 384 bit	5662.39 ± 13.87	144.87 ± 0.18	4795c91	@Hedede
RTX 3080	10 GB / GDDR6X / 320 bit	5569.56 ± 14.04	139.95 ± 0.95	9c35706	@slaren
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bit	5674.44 ± 139.53	136.38 ± 0.13	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bit	4552.15 ± 9.68	135.83 ± 0.11	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bit	2973.78 ± 3.62	134.76 ± 0.02	51f5a45	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bit	7612.32 ± 37.35	132.85 ± 0.31	9c35706	@Ristovski
A30	24 GB / HBM2e / 3072 bit	3068.72 ± 0.63	131.93 ± 0.18	583cb83	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bit	5783.44 ± 36.95	128.21 ± 2.52	@Spyro000	-
A40	48 GB / GDDR6 / 384 bit	5256.38 ± 19.39	126.24 ± 0.06	3470a5c	@Hedede
Titan V	12 GB / HBM2 / 3072 bit	2481.25 ± 1.31	112.17 ± 0.01	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bit	3107.61 ± 4.34	109.17 ± 0.07	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bit	3053.96 ± 1.37	104.38 ± 0.04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bit	3052.35 ± 5.64	103.63 ± 0.02	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bit	3453.10 ± 49.19	103.00 ± 0.25	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bit	4195.53 ± 1.98	93.46 ± 0.01	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bit	2293.29 ± 5.91	87.71 ± 0.29	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bit	2807.83 ± 52.44	85.17 ± 0.66	65349f2	@TinyServal
RTX 3060	12 GB / GDDR6 / 192 bit	2407.67 ± 3.73	76.92 ± 0.03	baa9255	@QuantiusBenignus
Titan Xp	12 GB / GDDR5X / 384 bit	1218.12 ± 1.82	73.84 ± 0.04	c4510dc	@Hedede
Quadro RTX 4000	8 GB / GDDR6 / 256 bit	1662.80 ± 2.04	67.62 ± 0.67	7d77f07	@Hedede
RTX 4060 Ti 8 GB	8 GB / GDDR6 / 128 bit	3803.45 ± 70.80	64.03 ± 0.53	89d1029	@mike-llamacpp
Tesla P100	16 GB / HBM2 / 4096 bit	787.36 ± 3.27	61.99 ± 0.00	b8372ee	@Hedede
GTX 1080 Ti	11 GB / GDDR5X / 352 bit	1138.14 ± 2.02	61.38 ± 0.03	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bit	3171.86 ± 4.34	61.37 ± 0.01	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bit	1563.77 ± 0.51	61.13 ± 0.05	5c0eb5e	@ggerganov
DGX Spark	128 GB / LPDDR5x	3661.37 ± 38.66	56.74 ± 0.03	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bit	1079.66 ± 0.18	53.73 ± 0.05	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bit	2250.14 ± 5.91	50.71 ± 0.01	756cfea	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bit	1309.73 ± 1.02	44.03 ± 0.57	d32e03f	@pt13762104
GTX 1660	6 GB / GDDR5 / 192 bit	154.45 ± 0.52	41.43 ± 0.01	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bit	290.17 ± 0.11	39.98 ± 0.01	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bit	790.52 ± 2.39	37.87 ± 0.00	79c1160	@pebaryan
Jetson AGX Orin	64 GB / LPDDR5 / 256 bit	1171.96 ± 4.70	35.88 ± 0.18	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bit	529.53 ± 2.12	33.12 ± 0.03	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bit	438.49 ± 0.38	30.64 ± 0.06	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bit	446.19 ± 0.81	28.18 ± 0.01	5fd160b	@pebaryan
Quadro T1000	4 GB / GDDR5 / 128 bit	27.46 ± 0.23	27.46 ± 0.23	f6da8cb	@hanabu
Quadro P2000	5 GB / GDDR5 / 160 bit	311.55 ± 0.19	23.76 ± 0.01	baa9255	@TinyServal
Tesla K80	12 GB / GDDR5 / 384 bit	133.36 ± 0.60	14.27 ± 0.32	32732f2	@pebaryan
Quadro P1000	4 GB / GDDR5 / 128 bit	173.82 ± 0.02	13.65 ± 0.14	1e74897	@aleksyx

Apple Silicon 參考口徑

#4167 這條討論和後三條最大的區別，是它更早建立了統一口徑，除了 Q4_0，還會順帶放 F16 和 Q8_0。它對理解 PP / TG / t/s 很有幫助。

討論裡直接給出的說明是：

PP 表示 prompt processing
TG 表示 text-generation
t/s 表示 tokens per second

文中可見的一個時間對比樣例，是 M2 Ultra 在同一台機器上隨著版本和 FA 演進後的成績：

時間	設備	版本/說明	頻寬 GB/s	GPU 核心	F16 PP	F16 TG	Q8_0 PP	Q8_0 TG	Q4_0 PP	Q4_0 TG
2023-11-21	M2 Ultra	8e672ef	800	76	1401.85	41.02	1248.59	66.64	1238.48	94.27
2024-11-12	M2 Ultra	86ed72d + FA	800	76	1525.95	43.15	1368.18	73.11	1391.78	108.80
2025-08-02	M2 Ultra	5c0eb5e + FA	800	76	1561.35	43.24	1386.97	73.35	1412.42	109.41

設備	Q4_0 PP	Q4_0 TG	Q8_0 PP	Q8_0 TG	F16 PP	F16 TG
M1 Pro 16 GPU	266.25	36.41	270.37	22.34	302.14	12.75
M2 Ultra 76 GPU	1238.48	94.27	1248.59	66.64	1401.85	41.02
M3 Max 40 GPU	690.99	65.85	749.37	43.00	794.26	25.27

Apple 這條線這裡不展開全文搬運，後面重點看你指定的三類獨顯後端榜單。

ROCm / HIP 完整榜單

Llama 2 7B, Q4_0, no FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11476.40 ± 72.79	232.92 ± 0.53	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3552.27 ± 101.96	167.11 ± 0.50	2f0c2db	@Diablo-D3
Instinct MI210	64 GB / HBM2e / 4096 bit	2486.22 ± 9.58	124.51 ± 0.04	8160b38	@65a
Pro W7900	48 GB / GDDR6 / 384 bit	3213.17 ± 80.47	121.18 ± 0.06	8160b38	@65a
RX 7900 XT	20 GB / GDDR6 / 320 bit	3098.38 ± 24.02	116.15 ± 0.06	1e15bfd	@AdamNiederer
RX 9070	16 GB / GDDR6 / 256 bit	2381.77 ± 3.68	114.48 ± 0.60	d0660f2	@andj1210
Instinct MI100	32 GB / HBM2 / 4096 bit	2732.83 ± 1.98	110.48 ± 0.14	9c35706	@firefox42
RX 9070 XT	16 GB / GDDR6 / 256 bit	5055.19 ± 109.58	101.27 ± 0.27	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2151.81 + 17.94	100.94 + 0.10	00131d6	@olegshulyakov
Instinct MI50	32 GB / HBM2 / 4096 bit	1057.24 ± 0.53	98.95 ± 0.25	97d5117	@wtarreau
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1456.98 ± 12.39	96.07 ± 0.10	6fa3b55	@MihaiBojescu
AI PRO R9700	32 GB / GDDR6 / 256 bit	4443.54 ± 339.25	93.84 ± 0.26	bd4ef13	@gogich77
Instinct MI60	32 GB / HBM2 / 4096 bit	1289.11 ± 0.62	91.46 ± 0.13	504af20	@Said-Akbar
RX 6900 XT	16 GB / GDDR6 / 256 bit	1889.84 ± 31.21	88.49 ± 0.00	a972fae	@notgood
Pro VII	16 GB / HBM2 / 4096 bit	1064.99 ± 1.18	87.45 ± 0.04	2739a71	@8XXD8
RX 6800 XT	16 GB / GDDR6 / 256 bit	1447.07 ± 1.36	83.92 ± 0.03	79c1160	@MrLavender
Pro V620	32 GB / GDDR6 / 256 bit	1803.65 ± 2.54	74.66 ± 0.01	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1419.67 ± 3.64	67.58 ± 0.24	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	354.17 ± 0.18	67.55 ± 0.04	c05e8c9	@daniandtheweb
Instinct MI25	16 GB / HBM2 / 2048 bit	409.83 ± 0.23	63.94 ± 0.06	2739a71	@8XXD8
AI Max+ 395	128 GB / LPDDR5	911.36 ± 1.79	50.01 ± 0.07	e60f241	@firefox42
RX 7600 XT	16 GB / GDDR6 / 128 bit	1099.64 ± 2.05	48.58 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	240.68 ± 0.09	48.46 ± 0.09	ec428b0	@davispuh
Radeon 8060S	System Shared / DDR5	351.36 ± 0.67	47.97 ± 0.33	1d0125b	@hspak
Radeon 880M	System Shared / DDR5	163.25 ± 13.86	12.97 ± 1.63	c55d53a	@Hedede

Llama 2 7B, Q4_0, with FA

Chip	Memory	pp512 t/s	tg128 t/s	Commit	Thanks to
Instinct MI300X	192 GB / HBM3 / 8192 bit	11945.97 ± 54.29	218.53 ± 0.09	ee3a9fc	@yeahdongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bit	3874.25 ± 11.92	170.12 ± 0.56	2f0c2db	@Diablo-D3
Pro W7900	48 GB / GDDR6 / 384 bit	3472.86 ± 52.86	127.43 ± 0.12	8160b38	@65a
Instinct MI210	64 GB / HBM2e / 4096 bit	2571.82 ± 2.89	130.18 ± 0.06	8160b38	@65a
RX 9070	16 GB / GDDR6 / 256 bit	2452.68 ± 1.33	115.32 ± 0.52	d0660f2	@andj1210
RX 7900 XT	20 GB / GDDR6 / 320 bit	3261.75 ± 9.09	112.30 ± 0.06	1e15bfd	@AdamNiederer
Instinct MI50	32 GB / HBM2 / 4096 bit	1129.43 ± 0.15	105.82 ± 0.07	97d5117	@wtarreau
Instinct MI100	32 GB / HBM2 / 4096 bit	2755.00 ± 3.68	104.71 ± 0.10	9c35706	@firefox42
AI PRO R9700	32 GB / GDDR6 / 256 bit	4773.07 ± 49.30	97.98 ± 0.13	bd4ef13	@gogich77
RX 7900 GRE	16 GB / GDDR6 / 256 bit	1598.79 ± 11.48	97.53 ± 0.06	6fa3b55	@MihaiBojescu
RX 9070 XT	16 GB / GDDR6 / 256 bit	4903.51 ± 96.36	97.28 ± 0.13	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bit	2304.63 + 2.85	95.99 + 0.21	00131d6	@olegshulyakov
RX 6900 XT	16 GB / GDDR6 / 256 bit	1948.31 ± 13.51	85.04 ± 0.02	a972fae	@notgood
Pro V620	32 GB / GDDR6 / 256 bit	1256.86 ± 0.55	70.83 ± 0.02	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bit	1479.27 ± 0.71	65.42 ± 0.19	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bit	314.17 ± 0.29	62.02 ± 0.05	c05e8c9	@daniandtheweb
AI Max+ 395	128 GB / LPDDR5	1003.53 ± 2.91	49.87 ± 0.02	e60f241	@firefox42
Radeon 8060S	System Shared / DDR5	366.08 ± 1.44	48.97 ± 0.15	1d0125b	@hspak
RX 7600 XT	16 GB / GDDR6 / 128 bit	1199.16 ± 1.07	47.65 ± 0.06	9c35706	@wbruna
RX Vega 64	8 GB / HBM2 / 2048 bit	153.17 ± 0.72	42.46 ± 0.40	ec428b0	@davispuh
Radeon 880M	System Shared / DDR5	213.31 ± 14.05	16.16 ± 1.41	c55d53a	@Hedede

Vulkan 完整榜單

Llama 2 7B, Q4_0, no FA

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	10381.64 ± 508.84	263.63 ± 0.91	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3531.93 ± 31.74	191.28 ± 0.20	2f0c2db
Nvidia RTX 4090	9452.03 ± 187.70	187.97 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 5080	7444.99 ± 20.11	185.10 ± 0.54	f6b533d	coopmat2
Nvidia A100	6389.86 ± 4.83	160.78 ± 0.16	2257758	coopmat2
Nvidia RTX 3090	4298.97 ± 10.59	160.13 ± 0.25	4ae88d0	coopmat2
Nvidia RTX 4080 Super	7101.18 ± 269.79	147.13 ± 5.64	81086cd	coopmat2
Nvidia RTX 3080	4287.11 ± 55.50	139.15 ± 0.05	7c7d6ce	coopmat2
Nvidia RTX A5000	3641.55 ± 9.05	139.89 ± 0.69	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	5036.04 ± 88.16	137.11 ± 0.02	e9fd8dc
Nvidia RTX 5070 Ti	6213.63 ± 27.72	135.63 ± 0.18	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4036.04 ± 34.58	130.19 ± 0.39	3191462
Nvidia Tesla V100	1391.39 ± 1.19	129.58 ± 0.58	7d77f07
Nvidia RTX 4070 Ti Super	6099.18 ± 154.30	129.45 ± 0.18	4ae88d0	coopmat2
AMD Radeon RX 7900 XT	2941.58 ± 17.17	123.18 ± 0.40	71e74a3
AMD Radeon RX 9070	3164.10 ± 66.84	119.71 ± 3.40	21c17b5
AMD Radeon RX 7800 XT	2017.33 ± 19.30	118.27 ± 0.27	4fdbc1e
AMD Radeon RX 7900 GRE	2336.31 ± 7.52	116.11 ± 0.26	4b2a477
Apple M3 Ultra	1116.83 ± 0.55	115.54 ± 0.78	2d451c8	MoltenVK
Intel Arc Pro B70	3379.00 ± 47.92	112.02 ± 1.08	b863507
Nvidia Titan V	984.36 ± 4.13	108.86 ± 0.28	e56abd2
AMD Radeon Pro VII	1078.54 ± 0.86	107.82 ± 0.14	N/A
AMD Radeon RX 6900 XT	1837.21 ± 25.44	104.60 ± 0.30	a972fae
Intel Arc Pro A60	2261.11 ± 9.53	104.25 ± 0.07	97d5117
AMD Radeon RX 6800 XT	1752.92 ± 1.71	100.32 ± 0.97	N/A
AMD Radeon VII	1059.14 ± 0.56	101.19 ± 0.53	77d6ae4
Nvidia RTX 2080 Ti	1888.24 ± 9.20	97.58 ± 6.60	N/A
AMD Radeon RX 6800	1698.69 ± 0.80	95.61 ± 0.19	4b385bf
AMD Radeon Pro W6800X Duo	687.71 ± 4.33	94.82 ± 0.12	N/A
Nvidia RTX 5060 Ti	3460.92 ± 7.16	93.51 ± 0.15	89f10ba	coopmat2
Nvidia RTX 4070	3179.37 ± 46.16	92.29 ± 0.28	9a48399
AMD Radeon Pro W6800X	510.80 ± 0.13	86.47 ± 0.46	13b4548	MoltenVK
AMD Radeon RX 6700 XT	1051.20 ± 0.98	83.88 ± 0.08	6d75883
AMD Radeon RX 6750 XT	1040.58 ± 0.35	81.98 ± 0.03	228f34c
AMD Radeon Pro V620	1595.32 ± 1.59	81.78 ± 0.06	03d4698
Nvidia RTX 3070	2113.02 ± 7.38	78.71 ± 0.13	1b8fb81
AMD Radeon Instinct MI60	369.26 ± 2.48	78.16 ± 1.40	504af20
Nvidia RTX 3060	1815.70 ± 5.85	75.94 ± 0.80	92c0b38	coopmat2
Apple M4 Max	724.77 ± 20.93	75.02 ± 0.14	1ece0cb6
Nvidia Tesla T10	1692.70 ± 2.05	75.01 ± 0.21	7f76692	coopmat2
Nvidia RTX A4000	2248.14 ± 7.59	73.74 ± 0.08	f5245b5	coopmat2
AMD Radeon RX 5700 XT	529.69 ± 0.26	70.73 ± 0.04	4fdbc1e
AMD Radeon RX 9060 XT	2141.67 ± 6.87	70.54 ± 0.74	ed52f36
Intel Arc B580	620.94 ± 15.33	70.14 ± 0.28	7f76692
AMD Radeon Pro V540	583.88 ± 6.56	69.64 ± 0.24	9da3dcd
AMD Radeon Pro W5700	449.85 ± 0.46	68.55 ± 0.15	23bc779
Intel Arc Pro B60	522.36 ± 3.60	68.55 ± 0.01	516a4ca
Nvidia GTX 1080 Ti	540.69 ± 0.71	64.99 ± 0.08	360d653
Nvidia RTX 2070 Super	1199.13 ± 7.70	64.64 ± 0.20	b7552cf
Nvidia RTX 3070 Mobile	1689.40 ± 19.57	63.64 ± 0.39	ceff6bb	coopmat2
Nvidia Tesla P100	678.14 ± 1.40	63.16 ± 0.06	eec1e33
AMD BC-250	370.66 ± 0.04	62.32 ± 0.32	5886f4f
AMD Radeon RX 6650 XT	1029.52 ± 1.21	62.14 ± 0.02	dbb852b
Nvidia RTX 4060 Mobile	2135.66 ± 23.18	59.53 ± 0.03	a5c07dc	coopmat2
Nvidia Tesla P40	488.06 ± 0.27	59.36 ± 0.16	N/A
Nvidia GTX 1660 Ti Mobile	511.67 ± 2.85	56.60 ± 0.07	b43556e
AMD Radeon Instinct MI25	439.42 ± 0.34	54.69 ± 0.03	2739a71
AMD Radeon RX 6600 XT	574.65 ± 0.86	53.92 ± 0.11	091592d
AMD Ryzen AI Max+ 395	1288.96 ± 6.49	53.59 ± 0.38	7f76692
AMD Radeon RX 7600 XT	840.85 ± 3.02	53.02 ± 0.01	01d8eaa
Intel Arc A770	1073.85 + 29.68	52.56 + 0.11	a69d54f
Nvidia GB10	2737.79 ± 19.56	52.28 ± 0.03	b9da444	coopmat2
AMD FirePro S9300 x2	247.26 ± 0.43	51.86 ± 0.11	eec1e33	Split across two GPUs
AMD Radeon RX 6600	761.89 ± 1.76	50.63 ± 0.02	b1c70e2
AMD Radeon RX Vega 56	439.87 ± 0.61	50.23 ± 0.14	92c0b38
Intel Arc B570	913.95 ± 0.90	49.64 ± 0.03	7f76692
Nvidia RTX 3060 Mobile	1059.76 ± 3.54	49.03 ± 0.13	dbb3a47
AMD Radeon RX 6800M	861.99 ± 7.67	48.71 ± 0.71	8e6f8bc
AMD Radeon RX 6600M	605.59 ± 0.65	48.21 ± 0.07	fe5b78c
Intel Arc A770M	875.92 ± 2.16	47.69 ± 0.16	eeee367
Nvidia P104-100	311.90 ± 0.22	46.18 ± 0.05	eec1e33
AMD Radeon RX Vega 64	356.08 ± 0.09	45.73 ± 0.18	ec428b0
Nvidia RTX A2000	1245.19 ± 8.76	45.52 ± 0.54	b1afcab	coopmat2
AMD Radeon RX 7600M XT	459.39 ± 2.34	45.28 ± 0.10	b9ab0a4	eGPU
AMD Radeon Pro V340	375.41 ± 0.24	45.16 ± 0.06	9da3dcd	Split across two GPUs
Nvidia GTX 1070 Ti	297.50 ± 0.54	42.86 ± 1.20	860a9e4	eGPU
Intel Arc A750	1075.94 ± 13.89	42.66 ± 0.18	c1b1876
Nvidia RTX 4050 Mobile	1154.28 + 15.76	41.89 + 0.10	d79d8f3
Nvidia GTX 1070	321.57 ± 0.93	41.48 ± 0.09	eec1e33
Intel Arc Pro B50	193.50 ± 0.24	39.99 ± 0.10	7b43f55
Nvidia Tesla M40	92.48 ± 0.02	39.35 ± 1.22	b8372ee
AMD Radeon RX 580	258.03 ± 0.71	39.32 ± 0.03	de4c07f
AMD Radeon RX 470	218.07 ± 0.56	38.63 ± 0.21	e288693
AMD Radeon Pro W5500	315.39 ± 3.76	36.82 ± 0.38	860a9e4
AMD Radeon RX 480	248.66 ± 0.28	34.71 ± 0.14	3b15924
Apple M2 Ultra	205.98 ± 0.02	34.34 ± 0.12	dbb852b	Asahi Linux
Nvidia GTX 980	186.24 ± 0.09	33.90 ± 0.51	860a9e4
Nvidia P106-100	183.78 ± 0.26	29.77 ± 0.04	23bc779
AMD FirePro W8100	155.22 ± 0.17	29.52 ± 0.05	4536363
Nvidia Tesla P4	265.54 ± 0.21	28.03 ± 0.14	24d2ee0
AMD Radeon RX 6500 XT	255.25 ± 0.35	27.81 ± 0.10	g9fdfcd
Apple M3	263.70 ± 0.02	26.39 ± 0.14	b9ab0a4	MoltenVK
AMD FirePro S10000	94.78 ± 0.02	25.32 ± 0.02	914a82d	Split across two GPUs
Nvidia Quadro P2000	169.55 ± 0.17	23.05 ± 0.03	63f8fe0
Intel Core Ultra 200 Series	544.95 ± 4.15	22.49 ± 0.09	cea560f
AMD Ryzen AI 9 300 Series	479.07 ± 0.41	22.41 ± 0.18	N/A
AMD Ryzen 6000 Series	240.89 ± 0.52	21.26 ± 0.08	ee09828
Apple M2 Pro	62.70 ± 0.03	20.95 ± 0.11	1fe0029	Asahi Linux
Nvidia GTX 1050 Ti	136.42 ± 0.67	20.96 ± 0.21	2f0c2db
AMD Ryzen 8000 Series	266.19 ± 1.36	20.53 ± 0.08	a5c07dc
AMD Ryzen 7000 Series	281.62 ± 1.56	19.91 ± 0.07	ebce03e
AMD Ryzen Z1 Extreme	199.36 ± 7.02	18.77 ± 0.02	53ff6b9
AMD FirePro D700	69.95 ± 0.04	16.62 ± 0.01	d3bd719	MoltenVK, running in FP16 mode on FP32 only chip
AMD Radeon Pro WX 4100	78.79 ± 0.10	16.05 ± 0.07	860a9e4
Apple M2	50.79 ± 0.16	13.50 ± 0.02	8c0d6bb	Asahi Linux
Apple M1	38.29 ± 0.00	12.47 ± 0.03	2370665	Asahi Linux
AMD Ryzen 5000 Series	90.55 ± 0.08	10.98 ± 0.07	d84635b
Intel Core 1100 Series	187.20 ± 1.78	10.39 ± 0.04	abb9f3c
AMD Radeon RX 550	52.66 ± 0.49	10.20 ± 0.01	N/A
AMD Ryzen 4000 Series	103.87 ± 0.02	9.63 ± 0.01	4b385bf
Nvidia Tesla K80	89.46 ± 0.10	9.39 ± 0.06	5d46bab	Running on single GPU
Nvidia Tesla K40	64.37 ± 0.09	9.30 ± 0.19	eec1e33
MediaTek Dimensity 9400	38.36 ± 15.15	8.92 ± 0.06	b9ab0a4	GPU supports coopmat but pp512 is faster with it turned off
Intel Core Ultra 100 Series	185.51 ± 0.22	8.21 ± 0.07	1d72c84
AMD Ryzen 3000 Series	48.63 ± 0.10	8.49 ± 0.01	1fe0029
CIX CD8180	2.80 ± 0.01	5.51 ± 0.00	4dca015
Intel Core 1000 Series	25.58 ± 0.00	4.25 ± 0.18	N/A
Intel Core 8000 Series	25.43 ± 0.17	3.35 ± 0.03	c4df49a
Intel N150	28.84 ± 0.02	2.93 ± 0.00	4f63cd7

Llama 2 7B, Q4_0, FA enabled

Chip	pp512 t/s	tg128 t/s	Commit	Comments
Nvidia RTX 5090	11796.38 ± 601.36	273.68 ± 0.52	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3332.90 ± 11.47	195.30 ± 0.23	2f0c2db
Nvidia RTX 5080	8054.59 ± 35.68	192.17 ± 0.21	f6b533d	coopmat2
Nvidia RTX 4090	10830.41 ± 36.25	190.10 ± 0.31	4ae88d0	coopmat2
Nvidia A100	7064.40 ± 1.63	170.56 ± 0.02	2257758	coopmat2
Nvidia RTX 3090	4732.33 ± 4.80	162.28 ± 0.21	4ae88d0	coopmat2
Nvidia RTX 4080 Super	8007.37 ± 46.03	150.20 ± 0.26	81086cd	coopmat2
Nvidia RTX 3080	4913.83 ± 21.52	145.74 ± 0.16	7c7d6ce	coopmat2
Nvidia Tesla V100	1411.25 ± 2.12	142.13 ± 0.03	7d77f07
Nvidia RTX A5000	4071.22 ± 13.13	140.43 ± 0.22	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	4911.74 ± 28.52	138.20 ± 0.18	e9fd8dc
Nvidia RTX 5070 Ti	6764.53 ± 11.95	135.65 ± 0.02	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4333.83 ± 29.36	130.90 ± 0.12	3191462
AMD Radeon RX 7900 XT	3043.93 ± 10.42	124.20 ± 0.09	71e74a3
AMD Radeon RX 7800 XT	2094.64 ± 14.38	119.63 ± 0.13	4fdbc1e
AMD Radeon RX 9070	3277.24 ± 18.17	119.55 ± 0.06	21c17b5
AMD Radeon RX 7900 GRE	2402.07 ± 22.50	116.77 ± 0.08	4b2a477
Apple M3 Ultra	1115.55 ± 0.75	115.99 ± 0.12	2d451c8	MoltenVK
Intel Arc Pro B70	3314.53 ± 17.95	111.63 ± 0.05	b863507
Nvidia Titan V	792.74 ± 4.30	109.21 ± 0.72	e56abd2
AMD Radeon Pro VII	783.94 ± 0.77	108.45 ± 0.48	N/A
AMD Radeon RX 6900 XT	1761.93 ± 4.75	106.15 ± 0.04	a972fae
Nvidia RTX 2080 Ti	1936.25 ± 32.08	100.99 ± 0.24	N/A
AMD Radeon RX 6800 XT	1704.79 ± 0.71	100.50 ± 0.06	N/A
AMD Radeon Pro W6800X Duo	795.28 ± 0.72	100.08 ± 0.02	N/A
Nvidia RTX 5060 Ti	3912.65 ± 5.86	97.01 ± 0.14	89f10ba	coopmat2
AMD Radeon RX 6800	1749.46 ± 3.36	96.65 ± 0.48	4b385bf
Nvidia RTX 4070	4293.57 ± 27.70	91.49 ± 0.89	9a48399	coopmat2
AMD Radeon RX 6750 XT	997.05 ± 0.45	82.29 ± 0.06	228f34c
AMD Radeon RX 6700 XT	1010.90 ± 12.89	81.86 ± 0.19	6d75883
Nvidia RTX 3060	2012.88 ± 10.12	80.59 ± 0.02	92c0b38	coopmat2
AMD Radeon Pro V620	1556.31 ± 2.82	79.24 ± 0.09	03d4698
Nvidia RTX A4000	2482.74 ± 26.05	76.07 ± 0.08	f5245b5	coopmat2
Nvidia Tesla T10	1840.14 ± 1.22	76.05 ± 0.13	7f76692	coopmat2
AMD Radeon RX 5700 XT	538.31 ± 0.35	74.43 ± 0.03	4fdbc1e
Intel Arc B580	419.49 ± 3.37	72.00 ± 0.24	7f76692
Apple M4 Max	557.46 ± 26.87	71.79 ± 4.16	1ece0cb6
AMD Radeon Pro W5700	446.98 ± 0.39	71.30 ± 0.24	23bc779
Intel Arc Pro B60	274.76 ± 0.27	70.54 ± 0.03	516a4ca
AMD Radeon RX 9060 XT	1915.41 ± 7.90	70.52 ± 0.16	ed52f36
Nvidia Tesla P100	685.51 ± 0.88	66.48 ± 0.02	eec1e33
AMD Radeon RX 6650 XT	1088.90 ± 0.40	64.53 ± 0.75	dbb852b
Nvidia GTX 1080 Ti	529.96 ± 0.38	64.63 ± 0.10	360d653
AMD BC-250	356.87 ± 1.24	63.14 ± 0.09	5886f4f
Nvidia RTX 3070 Mobile	1832.07 ± 57.14	62.92 ± 0.37	ceff6bb	coopmat2
Nvidia RTX 4060 Mobile	2358.03 ± 12.17	60.01 ± 0.08	a5c07dc	coopmat2
Nvidia Tesla P40	484.37 ± 0.27	59.22 ± 0.15	N/A
Nvidia GTX 1660 Ti Mobile	514.34 ± 0.88	57.30 ± 0.42	b43556e
AMD Radeon RX 7600 XT	1024.38 ± 7.56	56.11 ± 0.02	01d8eaa
AMD FirePro S9300 x2	243.33 ± 0.22	55.64 ± 0.06	eec1e33	Split across two GPUs
Nvidia GB10	3279.89 ± 26.78	53.64 ± 0.05	b9da444	coopmat2
AMD Radeon RX 6600	808.76 ± 0.15	53.24 ± 0.03	b1c70e2
Intel Arc A770	1119.68 + 30.25	53.07 + 0.09	a69d54f
AMD Ryzen AI Max+ 395	1357.07 ± 10.94	53.00 ± 0.13	7f76692
AMD Radeon RX Vega 56	428.54 ± 0.50	52.66 ± 0.03	92c0b38
Intel Arc B570	288.51 ± 0.09	50.49 ± 0.05	7f76692
Nvidia P104-100	325.30 ± 0.25	48.64 ± 0.04	eec1e33
AMD Radeon Pro V340	360.23 ± 0.74	47.54 ± 0.06	9da3dcd	Split across two GPUs
AMD Radeon RX 6800M	784.16 ± 2.76	49.06 ± 0.34	8e6f8bc
AMD Radeon RX Vega 64	320.12 ± 0.22	47.06 ± 0.01	ec428b0
Nvidia RTX A2000	1361.85 ± 3.26	45.69 ± 0.20	b1afcab	coopmat2
Intel Arc A770M	384.74 ± 0.78	45.68 ± 0.06	eeee367
Intel Arc A750	303.37 ± 1.44	43.96 ± 0.03	c1b1876
Nvidia GTX 1070 Ti	292.85 ± 0.23	43.42 ± 0.34	860a9e4	eGPU
Nvidia GTX 1070	330.84 ± 1.02	43.33 ± 0.06	360d653
Nvidia Tesla M40	93.35 ± 0.01	41.68 ± 0.01	b8372ee
Intel Arc Pro B50	132.48 ± 0.04	41.02 ± 0.04	7b43f55
AMD Radeon RX 470	197.26 ± 0.27	37.28 ± 0.11	3769fe6
AMD Radeon RX 480	194.52 ± 0.61	37.23 ± 0.09	0bcb40b
Apple M2 Ultra	198.83 ± 0.85	198.83 ± 0.85	dbb852b	Asahi Linux
Nvidia GTX 980	180.97 ± 0.74	34.16 ± 0.10	860a9e4
Nvidia P106-100	183.40 ± 0.34	30.79 ± 0.32	23bc779
AMD FirePro W8100	140.52 ± 0.34	29.28 ± 0.14	4536363
Nvidia Tesla P4	287.14 ± 0.29	28.37 ± 0.24	24d2ee0
Nvidia Quadro P2000	181.71 ± 0.12	23.77 ± 0.02	63f8fe0
Intel Core Ultra 200 Series	536.48 ± 1.27	23.05 ± 0.04	cea560f
AMD Ryzen AI 9 300 Series	532.59 ± 3.55	22.31 ± 0.06	N/A
AMD Ryzen 6000 Series	277.91 ± 0.37	21.15 ± 0.09	ee09828
Apple M2 Pro	58.86 ± 0.02	20.97 ± 0.03	1fe0029	Asahi Linux
AMD Ryzen 8000 Series	297.39 ± 1.22	20.59 ± 0.38	a5c07dc
AMD Ryzen 7000 Series	312.85 ± 2.51	20.09 ± 0.35	835b2b9
Nvidia GTX 1050 Ti	127.54 ± 1.03	20.08 ± 0.17	2f0c2db
AMD Radeon Pro WX 4100	75.59 ± 0.19	16.56 ± 0.04	860a9e4
Apple M1	35.93 ± 0.00	12.85 ± 0.02	2370665	Asahi Linux
Apple M2	46.81 ± 0.08	12.25 ± 2.30	8c0d6bb	Asahi Linux
AMD Ryzen 5000 Series	79.06 ± 0.01	10.75 ± 0.00	5d195f1
Intel Core 1100 Series	174.77 ± 4.47	10.58 ± 0.03	abb9f3c
Nvidia Tesla K40	64.37 ± 0.02	9.92 ± 0.06	eec1e33
AMD Ryzen 4000 Series	113.32 ± 0.01	9.87 ± 0.01	4b385bf
Nvidia Tesla K80	88.26 ± 0.19	9.49 ± 0.01	5d46bab	Running on single GPU
AMD Ryzen 5 3000 Series	47.41 ± 0.14	8.47 ± 0.01	1fe0029
Intel Core Ultra 100 Series	77.66 ± 2.75	7.75 ± 0.05	2e89f76
Intel Core 8000 Series	25.55 ± 0.04	3.35 ± 0.02	c4df49a
Intel N150	25.59 ± 0.00	2.91 ± 0.00	4f63cd7

這些表格該怎麼用

如果你只是想買卡，或者看手裡機器大概在哪個檔位，最實用的讀法其實是這三步：

先看你關心的是 tg128 還是 pp512。
日常對話、寫程式、聊天體感，優先看 tg128；長上下文吞吐、批次處理、服務端壓 prompt，則更應該看 pp512。
再看你實際跑的後端。
Nvidia 通常看 CUDA 更貼近真實上限；AMD 機器更應該先對照 ROCm 和 Vulkan；跨平台相容場景則更適合參考 Vulkan。
最後再看 FA。
很多卡開啟 FA 後 pp512 會漲得更明顯，但 tg128 不一定同步大漲，所以不能只看單個最高分。

一句話總結

同樣是 llama.cpp 跑分，pp512、tg128、Q4_0、FA、CUDA / ROCm / Vulkan 分別代表完全不同的維度。先把口徑分清，再看數字，榜單才有意義。

如果你只想記一個最短結論，那就是：

CUDA 目前整體最強
ROCm 在高階 AMD 卡上已經很能打
Vulkan 覆蓋最廣，老卡、核顯、Intel Arc、Apple Asahi 都能找到可比條目
tg128 比 pp512 更接近日常真實體感

原始來源

CUDA discussion #15013: https://github.com/ggml-org/llama.cpp/discussions/15013
Apple Silicon discussion #4167: https://github.com/ggml-org/llama.cpp/discussions/4167
ROCm discussion #15021: https://github.com/ggml-org/llama.cpp/discussions/15021
Vulkan discussion #10879: https://github.com/ggml-org/llama.cpp/discussions/10879

顯卡推理速度測試的常用指標具體含義：FA、pp512、tg128、Q4_0 都是什麼意思

Thu, 23 Apr 2026 00:15:00 +0800

只要你開始看本地大模型或顯卡推理速度測試，很快就會遇到一堆縮寫：FA、pp512、tg128、Q4_0。它們看起來都像是效能指標，但如果沒有上下文，確實很容易看得一頭霧水。

例如你可能會看到這樣一行：

`1`	`CUDA Scoreboard for Llama 2 7B, Q4_0 (no FA)`

再往下看，又會看到像這樣的欄位：

1
2

pp512 t/s
tg128 t/s

如果不把這些詞拆開理解，你很難真正看懂這類速度測試到底在測什麼，也很難知道兩張不同顯示卡的成績到底該怎麼比。

這篇文章不打算討論「哪張卡更值得買」，而是專門把顯卡推理速度測試裡最常見的幾個指標拆開講清楚。

先看整行標題到底在說什麼

像 CUDA Scoreboard for Llama 2 7B, Q4_0 (no FA) 這樣一行，其實已經把測試背景交代得差不多了。

它至少包含四層資訊：

CUDA：說明跑分是在 NVIDIA GPU 的 CUDA 路徑上完成的
Llama 2 7B：說明測試對象是 Llama 2 的 7B 參數版本
Q4_0：說明模型用了 4-bit 量化格式
no FA：說明這次測試關閉了 Flash Attention

也就是說，這種標題的完整意思通常是：

「在 NVIDIA 顯示卡上，執行某個量化版本的大模型，並測量它在特定推理路徑下的速度表現。」

FA 是什麼：Flash Attention

這裡的 FA，指的是 Flash Attention。

它是大模型推理和訓練中非常關鍵的一類加速技術，主要目標是優化注意力機制的計算方式。因為在 Transformer 模型裡，注意力計算本來就是最耗時、最吃顯存頻寬的部分之一。

傳統注意力實作的一個問題是：

需要頻繁讀寫顯存
中間結果很多
資料會在顯存和片上快取之間來回搬運
上下文一長，開銷會非常明顯

Flash Attention 做的事情，可以簡單理解成：

重新組織計算順序
減少中間結果落到顯存的次數
讓更多操作留在更快的快取裡完成

所以它的典型效果通常有三點：

更快
更省顯存
在數學上和普通注意力等價，不是「犧牲精度換速度」

這也是為什麼今天很多推理框架、訓練框架都把它當成非常重要的優化項。

no FA 是什麼意思

既然 FA 是 Flash Attention，那麼 no FA 就很好理解了：這次測試沒有啟用 Flash Attention。

也就是說，跑分用的是更傳統的注意力實作。

之所以很多跑分表會特地把 no FA 標出來，通常是為了下面幾件事：

做對照組，方便看出開啟 FA 後到底提升了多少
相容某些不支援 FA 的硬體或軟體環境
避免不同測試項混在一起，導致資料不可比

所以你看到 no FA 時，不要把它理解成「這張卡不行」，更準確的理解是：

「這個成績是在沒有開啟 Flash Attention 優化的前提下測出來的。」

Q4_0 是什麼：量化格式

Q4_0 指的是一種 4-bit 量化格式。

大模型原始權重通常不是這種低精度格式，直接載入時體積會非常大。量化做的事情，本質上就是把原本更高精度的權重壓縮成更低位寬的表示方式，讓模型更容易在消費級顯示卡上運行。

你可以先把它粗略理解成：

Q：Quantization，量化
4：4-bit
_0：某一種具體量化方案的標識

它的重要意義在於：

減少模型體積
降低顯存需求
讓本來裝不下的模型變得能跑起來

所以 Llama 2 7B, Q4_0 的意思，不是「一個普通的 7B 模型」，而是「一個已經經過 4-bit 量化壓縮的 7B 模型」。

pp512 t/s 是什麼意思

pp512 一般指的是：

Prompt Processing 512 tokens

它衡量的是模型處理輸入提示詞時的速度，單位通常是 t/s，也就是 tokens per second。

這裡的 512，表示測試時輸入的提示詞長度是 512 token。

這個指標測的不是「吐字速度」，而是模型在開始回答之前，對輸入內容做編碼和計算的速度。你可以把它理解成模型在「先把你說的話讀完」的階段有多快。

這個階段通常有一個很重要的特點：並行度比較高。

因為輸入序列可以成批處理，所以 GPU 在這個階段往往能把算力壓得很滿。也正因如此，pp512 的數值經常會非常高，看起來甚至高得有點誇張。

所以如果你看到：

`1`	`pp512 ≈ 14000 t/s`

不要驚訝，這測的是「輸入處理吞吐量」，不是模型一邊一邊吐字的速度。

tg128 t/s 是什麼意思

tg128 一般指的是：

Text Generation 128 tokens

它測的是模型連續生成 128 token 時的平均生成速度，單位同樣是 t/s。

這個指標更接近我們平時對「模型回答快不快」的直覺感受，因為它真的在測輸出階段。

但它和 pp512 最大的不同在於：文本生成通常是自回歸的。

簡單說就是：

要先算出第一個 token
才能繼續算第二個 token
再繼續算第三個 token

所以這個階段沒法像輸入處理那樣大規模並行，速度天然會慢很多。

這也是為什麼你經常會看到：

pp512 是上萬 t/s
tg128 卻只有幾百 t/s

這不是跑分出錯，而是它們本來就在測兩種完全不同的工作負載。

為什麼 pp512 和 tg128 會差這麼多

這是很多人第一次看 scoreboard 時最困惑的一點。

原因可以概括成一句話：

pp512 更像在測並行吞吐，tg128 更像在測逐 token 生成能力。`

再展開一點說：

輸入階段更容易並行
輸出階段更依賴逐步遞推
生成階段通常更吃顯存頻寬和快取效率
所以生成速度遠低於輸入處理速度是正常現象

也正因為這樣，很多時候兩張卡的表現會出現一種很有意思的情況：

在 pp512 上，一張卡更強
在 tg128 上，另一張卡反而略快

這並不矛盾。因為一個更偏算力峰值，一個更偏實際生成路徑下的頻寬和延遲表現。

t/s 到底怎麼理解

這裡的 t/s，就是 tokens per second。

它表示模型每秒能處理或生成多少個 token。

但需要注意，token 不是「字」，也不是「單詞」，它是模型分詞器切出來的單位。不同模型、不同語言環境下，一個 token 對應的文本長度可能差別很大。

所以在實際閱讀跑分時，t/s 更適合用來做：

同模型下不同顯示卡對比
同環境下不同參數設定對比
同一框架裡開啟或關閉某個優化項前後的對比

而不太適合直接拿來跨模型、跨框架、跨分詞器硬比「誰絕對更快」。

看 scoreboard 時，最該先抓住哪幾個點

如果你不想每次都被一堆縮寫淹沒，可以先抓這幾個核心問題：

1. 測試模型是什麼

比如是不是 Llama 2 7B，是不是同一個量化版本，例如 Q4_0。模型不同、量化不同，成績直接橫比意義不大。

2. 有沒有開啟關鍵優化

最常見的就是 FA。如果一個測試開了 Flash Attention，另一個沒開，那兩邊成績不能簡單直接對讀。

3. 看的是輸入速度還是輸出速度

pp512 和 tg128 分別在測不同階段。一個更像「讀題速度」，一個更像「回答速度」。

4. 關注的是吞吐還是體感

如果你更在意長提示詞載入速度，pp512 更有參考價值；如果你更在意模型回答時的流暢程度，tg128 往往更貼近真實體感。

一個更實用的理解方式

如果要把這些指標壓縮成一句最容易記住的話，可以這樣理解：

Q4_0：模型被壓縮成了 4-bit 量化版本
FA：是不是啟用了 Flash Attention 加速
pp512：處理 512 token 輸入時有多快
tg128：生成 128 token 輸出時有多快
t/s：速度單位，每秒多少 token

只要先把這五件事分清楚，再看類似的 CUDA Scoreboard 時，就更容易判斷「這個分數到底是在測什麼」。

結語

很多 GPU 跑分表看起來複雜，不是因為指標本身特別神祕，而是因為它把模型、量化、優化項和不同階段的吞吐都壓縮進了很短的幾行縮寫裡。

一旦把 FA、Q4_0、pp512、tg128 這些詞拆開，你會發現這類 scoreboard 其實並不難讀。

真正重要的，不是只記住某張卡跑了多少分，而是知道：

這個分數是在什麼模型下測的
有沒有開關鍵優化
它測的是輸入，還是輸出
它更反映算力，還是更接近實際生成體驗

這樣你以後再看類似跑分表時，就更容易判斷這些結果分別對應什麼測試條件和性能含義。

大模型常見張量類型入門：FP32、FP16、BF16、TF32 與 FP8

Wed, 22 Apr 2026 22:40:00 +0800

只要你開始接觸大模型訓練、推理或部署，很快就會遇到一組高頻縮寫：FP32、FP16、BF16、TF32、FP8。它們看起來像是模型頁面上的幾個附加標籤，但實際影響遠不只是「寫法不同」。

這些類型決定了數字在顯存裡怎麼存、在計算中怎麼表示，也直接影響模型訓練是否穩定、推理速度如何，以及一張顯示卡到底能裝下多大的模型。

所以如果你想真正理解大模型裡的精度取捨，最值得先補的一課，不是某個具體模型的跑分，而是先把這些常見張量類型各自是什麼、為什麼會這樣設計搞清楚。

張量類型到底在決定什麼

大模型本質上是海量參數參與的矩陣運算，而張量類型就是這些數字在顯存裡如何存、在計算中如何表示。

它的核心取捨通常圍繞三個維度展開：

精度
顯存占用
計算速度

這和圖片格式其實很像。無損格式保留細節更多，但體積大、載入慢；壓縮格式會丟掉一部分人眼不敏感的資訊，換來更小的體積與更快的處理速度。大模型之所以能接受這種取捨，是因為在極大量參數裡，很多微小數值變化並不會明顯影響最終輸出。

也正因如此，模型世界裡才會出現一整套不同精度的張量格式。

一個數字是怎麼被表示的

理解這些格式之前，可以先記住一個非常基礎的結構。一個浮點數通常由三部分組成：

符號位：決定正負
指數位：決定數值範圍
尾數位：決定數值精細程度

在大模型裡，尾數精度當然重要，但很多時候模型更怕的是數值範圍不夠，也就是指數位太小，導致溢出或訓練不穩定。很多張量格式的設計，本質上就是在「範圍」與「細節」之間重新分配有限的 bit 數。

下面這張圖可以先幫你建立一個整體印象：

FP32：最穩，但最貴

FP32 是最傳統的單精度浮點格式，總共 32 bit，也就是 4 個位元組。

它的優點很直接：

數值範圍大
精度高
訓練最穩

但問題也同樣明顯：太占顯存。

一個非常粗略的估算方式是：

`1`	`顯存占用 ≈ 參數量 × 每個參數的位元組數`

如果一個 27B 模型完全用 FP32 存權重，那麼光權重本身就大約需要：

`1`	`27B × 4 bytes ≈ 108GB`

這還沒算激活值、KV Cache、優化器狀態與其他執行期開銷。也就是說，FP32 在今天的大模型推理與訓練裡，已經不是「預設選擇」，而更像是「最穩的基線格式」。

FP16：體積減半，但穩定性一般

FP16 把每個參數壓縮到 2 個位元組，顯存占用相較 FP32 直接減半。

對同一個 27B 模型來說，如果只看權重體積：

`1`	`27B × 2 bytes ≈ 54GB`

這就已經能解釋為什麼很多部署說明裡，27B 模型的顯存需求會落在 50GB 左右。

FP16 的優勢很明顯：

顯存壓力大幅下降
吞吐更高
早期混合精度訓練大量使用

但它的問題在於指數位偏小，動態範圍不夠大。對大模型訓練來說，這會讓溢出更容易發生，需要額外依賴 loss scaling 一類技巧來補救，工程上比較麻煩。

所以現在 FP16 仍然常見，但在很多場景裡，它已經不再是最舒服的選擇。

BF16：大模型時代更實用的半精度

BF16 同樣只占 2 個位元組，但和 FP16 的設計重點不一樣。

它保留了更大的指數範圍，讓它在動態範圍上更接近 FP32，只是犧牲了一部分尾數精度。這種取捨對大模型尤其友好，因為很多時候模型對「範圍」更敏感，對尾數少幾位反而沒那麼敏感。

這也是為什麼現在很多訓練框架、很多大模型論文與大量實際部署方案，都更偏向 BF16。

你可以把它理解成：

顯存成本接近 FP16
穩定性體驗更接近 FP32

如果一套 27B 部署方案寫的是 50GB 左右顯存，而另一套經過進一步優化後接近 30GB，前者往往還停留在 FP16/BF16 這一層，後者則通常已經繼續往更低精度或量化方向走了。

TF32：不是省顯存，而是加速 FP32 工作流

TF32 很容易被誤會成「又一種更省的格式」，但它的定位其實不太一樣。

從常見理解上看，它可以近似視為一種保留較大指數範圍、但縮短尾數精度的計算格式。

不過要注意，TF32 更像是一條 Tensor Core 計算路徑裡的內部計算格式，而不是像 FP16/BF16 那樣主要拿來做權重存儲。

它主要是 NVIDIA 在較新的 GPU 上提供的一種計算模式，目標不是減少顯存占用，而是讓原本基於 FP32 的訓練流程，在盡量不大改程式碼的前提下跑得更快。

它的特點可以概括成一句話：

對外看起來還是 FP32 工作流
底層在矩陣乘法時做了更快的近似計算

所以 TF32 主要解決的是「FP32 太慢」的問題，而不是「FP32 太占顯存」的問題。如果你關心的是為什麼同一個模型部署時顯存需求不一樣，TF32 不是最主要的答案。

FP8：進一步壓縮，但更考驗工程能力

再往下走就是 FP8。它把單個數值繼續壓縮到更少 bit 數，進一步降低顯存頻寬與存儲成本。

它常見的不是單一一種格式，而是兩類變體：E4M3 和 E5M2。

但 FP8 的代價也很明顯：位數太少以後，你很難同時兼顧範圍和精度，因此實際工程裡通常會針對不同階段採用不同變體，分別照顧前向、反向與梯度的穩定性。

這類格式代表的是一種更激進的思路：

願意犧牲更多精度
換取更低的存儲與更高的吞吐
需要更成熟的硬體與訓練框架配合

它很有前景，但對一般使用者來說，日常最常碰到的核心分界點，通常還是 FP32、FP16 和 BF16。

為什麼理解這些類型很重要

很多人第一次看到這些縮寫，會把它們理解成「模型下載頁上的一些實作細節」。但實際上，它們會直接改變你對模型訓練與部署的理解方式。

例如同樣一張顯示卡：

為什麼有些模型訓練必須強調數值穩定性
為什麼有些推理方案會優先談量化與低精度
為什麼看起來參數量相近的模型，部署門檻卻差很多
為什麼有些格式適合存權重，有些格式更適合做計算路徑

這些問題往下拆，最後幾乎都會回到同一個核心：你到底怎麼在「精度、範圍、顯存和速度」之間做取捨。

也正因如此，理解 FP32、FP16、BF16、TF32 和 FP8，不只是為了看懂術語表，而是為了在面對訓練配置、推理引擎與部署門檻時，知道這些數字背後到底在交換什麼。

一個實用的理解框架

如果你不想一開始就記一堆格式細節，可以先用下面這個順序理解：

FP32：最穩、最貴
FP16：更省顯存，但範圍偏小
BF16：顯存接近 FP16，穩定性更適合大模型
TF32：主要解決 FP32 太慢，不主要解決顯存
FP8：更激進的壓縮與加速路線

當你以後再看到模型下載頁裡寫著 fp16、bf16、fp8，或者看到不同部署教學給出完全不一樣的顯存門檻時，就不會再覺得那只是「寫法不同」。它們背後其實對應的是完全不同的精度預算與工程取捨。

結語

大模型裡的張量類型，表面上是在討論 bit 數，實際上討論的是一整套工程取捨。

FP32、FP16、BF16、TF32 和 FP8 沒有絕對的好壞，它們只是分別站在不同的位置上，幫你在穩定性、範圍、精度、顯存和速度之間做平衡。

如果把這一層看懂，後面無論你是在讀訓練論文、調推理參數，還是比較不同部署方案，都會更容易抓住重點。

16G 顯卡也能跑 35B 模型：LM Studio 下 MoE 模型的顯存壓縮思路

Wed, 22 Apr 2026 21:47:34 +0800

很多人對 16G 顯存的印象是：本地部署大模型時，大概也就跑到 12B 到 14B，量化之後再往上就會變得很吃力。這個判斷不算離譜，但也不是 16G 顯卡真正的上限。

如果模型選型和參數設定都合適，16G 顯卡其實不一定只能停留在「小參數量模型」這一檔。圍繞這件事，一套比較有代表性的思路是：在 LM Studio 裡利用 MoE 模型和合理的卸載策略，把 35B 級模型跑到比較可用的速度。

01 為什麼 16G 顯卡不一定只能跑 12B 到 14B

這裡的核心觀點很直接：顯存大小固然重要，但模型架構同樣重要。

如果你拿一個標準稠密模型硬塞進 16G 顯卡，確實很快就會遇到瓶頸。因為這類模型在推理時通常要參與全部參數計算，顯存壓力和帶寬壓力都會直接上來。

但 MoE 模型不一樣。它的總參數量可以很大，可是在單次推理時，只會啟動其中一部分專家參數。以 35B 級模型為例，雖然總參數規模不小，但單次推理實際參與計算的參數量要小得多，所以它對顯存的實際要求沒有想像中那麼誇張。

也正因為這樣，16G 顯卡在面對這類模型時，並不是完全沒有操作空間。

02 實測重點：35B MoE 模型可以跑得很快

一個重點案例，是 Qwen 3.5 35B A3B 一類的 MoE 模型量化版本。在 16G 顯卡配合 LM Studio 做參數調整後，Q6 量化大約能跑到 30 多 tokens/s，此前 Q4 量化甚至能測到更高的速度。

這個結果之所以有參考價值，不只是因為「能跑」，而是因為速度已經進入了「明顯可用」的區間。

作為對比，同類大參數量但不是 MoE 的模型，在 16G 顯卡上如果直接硬跑，往往會出現爆顯存、速度明顯掉下來的情況。換句話說，決定結果的不是單純看參數總量，而是看模型在推理時到底怎麼用這些參數。

03 在 LM Studio 裡，重點不只一個參數

想在 16G 顯卡上把這類模型跑順，關鍵不是碰運氣，而是調對兩個參數：

GPU Offload
強制把部分專家層載入到 CPU 記憶體的參數

第一項比較好理解，GPU Offload 基本就是能拉多高就拉多高，讓模型盡量優先使用顯卡計算。

第二項才是這裡的重點。它的作用不是傳統意義上那種「顯存爆了之後再借系統記憶體」，而是主動把一部分專家層放到 CPU 記憶體裡，提前降低顯存占用。因為 MoE 模型本來就不是每次都要把所有專家都啟動，所以把一部分專家放到記憶體裡，對整體推理速度的影響沒有很多人想像中那麼誇張。

比較穩妥的做法，是先在一個區間裡嘗試，再根據自己的機器慢慢調：

可以先把相關參數設到 20 到 35 之間
然後結合顯存占用和記憶體壓力，逐步微調

本質上，這套方法就是用系統記憶體去換顯存空間。

04 128K 上下文下也能跑，縮小上下文還能繼續壓顯存

還有一個比較有意思的點：測試時把上下文長度拉到了 128K，在這種偏激進的設定下，35B 級 MoE 模型依然能跑出比較高的速度。

這說明一個問題，16G 顯卡的瓶頸沒有想像中那麼死板。尤其在 LM Studio 這種本地推理工具裡，很多時候不是「能不能運行」的二選一，而是：

你願不願意拿更多記憶體換顯存
你願不願意縮短上下文長度
你願不願意接受不同量化版本之間的能力差異

如果把上下文從 128K 進一步縮到 64K 或 32K，顯存壓力還可以繼續下降。也就是說，某些 35B 級 MoE 模型甚至可能在更小顯存的顯卡上勉強跑起來，只是速度和記憶體壓力要重新權衡。

05 這種方法的代價：對系統記憶體和虛擬記憶體要求更高

這類方案並不是白送性能。

需要注意的是，當顯存壓力被進一步壓縮時，系統記憶體占用會明顯上升，虛擬記憶體的壓力也會變大。換句話說，你省下來的不是成本，只是把壓力從顯卡挪到了記憶體和磁碟交換空間上。

所以如果你也想照著試，最好先確認幾件事：

你的系統記憶體是否足夠
虛擬記憶體是否留得夠大
機器背景是否還有很多佔資源的軟體在運行

如果這些條件跟不上，最後看到的可能不是「35B 也能飛快跑」，而是整台機器都被拖慢。

06 量化版本也不是越激進越好

這裡還有一個實際取捨：雖然更低位數的量化通常能進一步節省顯存，但不一定就是最合適的方案。

實際經驗是，有些模型在 Q4 下速度確實更高，但對原始能力的影響也更明顯；相對來說，Q6 在速度和能力保留之間更平衡。所以最終不一定要無腦追求最小體積，而是要看你更在意什麼：

如果你主要追求速度和塞進顯存
或者你更在意模型原有能力的保留

這兩種取向，對應的量化選擇可能並不一樣。

07 哪些模型思路值得試

從這個思路來看，最值得嘗試的並不是「盲目追大參數量」，而是優先找適合這種玩法的模型：

MoE 架構模型
在 LM Studio 裡支援較好、量化版本較全的模型
對長上下文或指令跟隨有明確優勢的模型

除了主講的 35B MoE 模型，這類方案也適合延伸到一些其他方向，比如偏長上下文記憶、指令遵循表現更好的實驗性模型，以及一些速度表現不錯的輕量量化版本。

這類推薦背後的邏輯其實很一致：先找架構上適合「記憶體換顯存」的模型，再談參數調優，而不是先看參數量再決定能不能跑。

08 簡單總結

如果你手裡正好是一張 16G 顯卡，覺得本地大模型最多只能玩 12B 到 14B，這種想法可以稍微更新一下。

更準確的說法應該是：

16G 顯卡跑大模型並不是完全沒戲
稠密模型和 MoE 模型要分開看
LM Studio 裡的 GPU Offload 和專家層轉移到 CPU 記憶體的參數，能明顯改變顯存占用情況
你實際上是在用更高的記憶體壓力，換更大的模型規模和更高的可用速度

這套思路不一定適合所有機器，但它至少說明了一點：本地部署大模型時，顯存上限不是唯一限制，模型架構和推理配置同樣重要。

Ollama 多顯卡使用筆記：顯存疊加、GPU 選擇和常見誤區

Sun, 19 Apr 2026 00:18:00 +0800

折騰 Ollama 本地推理時，經常會遇到類似問題：我現在有一張顯卡，主機板還有空 PCIe 槽，再加幾張 GPU 對 Ollama 有幫助嗎？多顯卡是否必須同型號？顯存能不能疊加？會不會像訓練框架那樣多卡並行加速？

這篇整理一下 Ollama 多顯卡的實際行為。重點先說結論：

Ollama 支援多 GPU。
多 GPU 最大價值通常是讓更大的模型放進總顯存，而不是線性提升 token/s。
預設策略下，如果模型能完整放進某一張 GPU，Ollama 傾向於放在單卡上。
如果模型無法完整放進單張 GPU，Ollama 會把模型分布到可用 GPU 上。
不同型號 GPU 可以被 Ollama 看到並使用，但效能和分配效果不一定理想。
不需要 SLI / NVLink 才能用多卡。
想限制 Ollama 使用哪些 GPU，需要用 CUDA_VISIBLE_DEVICES、ROCR_VISIBLE_DEVICES 或 GGML_VK_VISIBLE_DEVICES。

官方行為：先單卡，放不下再多卡

Ollama FAQ 裡對多 GPU 載入邏輯說得比較直接：載入新模型時，Ollama 會估算模型所需 VRAM，並和目前可用顯存比較。如果模型能完整放進某一張 GPU，它會載入到那張 GPU 上；如果單張 GPU 放不下，才會分布到所有可用 GPU 上。

這個策略的原因是效能。單卡載入通常能減少推理時跨 PCIe 匯流排的資料傳輸，因此往往更快。

所以不要把 Ollama 的多 GPU 理解成「有幾張卡就自動幾倍加速」。更準確的理解是：

小模型能進單卡：通常單卡跑。
大模型單卡放不下：跨多卡分層載入。
顯存仍不夠：一部分會落到系統記憶體，速度會明顯下降。

可以用下面命令確認模型到底載入到了哪裡：

`1`	`ollama ps`

輸出裡的 PROCESSOR 會顯示類似：

1
2
3

100% GPU
48%/52% CPU/GPU
100% CPU

如果看到 48%/52% CPU/GPU，說明已經有一部分在系統記憶體裡了。此時多加 GPU 或換更大顯存的卡，通常比繼續依賴 CPU/RAM 更有意義。

多 GPU 不是簡單疊算力

本地大模型推理和遊戲裡的 SLI 不是一回事。Ollama 多卡時，更常見的是把模型的不同層或張量放到不同裝置上。這樣可以用多張卡的顯存裝下更大的模型，但推理過程中仍然可能需要裝置之間傳遞資料。

因此，多 GPU 帶來的收益通常分兩種：

顯存收益：更容易裝下大模型，或者避免落到 CPU/RAM。
效能收益：只有在原本單卡裝不下或嚴重混 CPU 時，提升才會很明顯。

如果一個 8B 或 14B 模型本來就能完整放進單張 3090，強行拆到兩張卡不一定更快，甚至可能因為跨卡傳輸變慢。Ollama 官方預設「能單卡就單卡」的策略，就是為了避免這類不必要的跨 PCIe 開銷。

不需要 SLI 或 NVLink

Ollama 多 GPU 不依賴 SLI。多張普通 PCIe GPU 只要驅動和 Ollama 能識別，就可以被調度。

NVLink 或更高 PCIe 頻寬可能對某些跨卡場景有幫助，但它不是 Ollama 多 GPU 的前提條件。很多二手 GPU 伺服器或工作站，靠普通 PCIe 多卡也能跑。

真正要注意的是 PCIe 頻寬。x1、x4、x8、x16 的差異會影響模型載入到顯存的速度；如果頻繁切換大模型，PCIe 鏈路會更容易成為瓶頸。模型載入完成後，生成階段受 PCIe 的影響通常會小一些，但跨卡分層仍然可能帶來額外開銷。

比較穩的建議是：

能用 x16 / x8 就不要用礦卡 x1 轉接。
大模型頻繁切換時，PCIe 頻寬更重要。
如果模型長期常駐顯存，PCIe 頻寬瓶頸會相對不明顯。
多卡機器要重點看主機板 PCIe 拓撲和 CPU 直連通道。

如何限制 Ollama 使用哪些 NVIDIA GPU

NVIDIA 多卡環境下，用 CUDA_VISIBLE_DEVICES 控制 Ollama 能看到哪些卡。

臨時執行：

`1`	`CUDA_VISIBLE_DEVICES=0,1 ollama serve`

只讓 Ollama 用第二張卡：

`1`	`CUDA_VISIBLE_DEVICES=1 ollama serve`

強制不用 NVIDIA GPU，可以給一個無效 ID：

`1`	`CUDA_VISIBLE_DEVICES=-1 ollama serve`

官方文件提醒，數字 ID 的順序可能變化，更可靠的是用 GPU UUID。先查看 UUID：

`1`	`nvidia-smi -L`

輸出類似：

1
2

GPU 0: NVIDIA GeForce RTX 3090 (UUID: GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx)
GPU 1: NVIDIA GeForce RTX 3070 (UUID: GPU-yyyyyyyy-yyyy-yyyy-yyyy-yyyyyyyyyyyy)

然後指定 UUID：

`1`	`CUDA_VISIBLE_DEVICES=GPU-xxxxxxxx-xxxx-xxxx-xxxx-xxxxxxxxxxxx ollama serve`

如果 Ollama 是 Linux systemd 服務安裝的，需要寫到服務環境變數裡：

`1`	`sudo systemctl edit ollama.service`

加入：

1
2

[Service]
Environment="CUDA_VISIBLE_DEVICES=0,1"

然後重載並重啟：

1
2

sudo systemctl daemon-reload
sudo systemctl restart ollama

AMD 和 Vulkan 的選擇變數

AMD ROCm 環境下，用 ROCR_VISIBLE_DEVICES 控制可見 GPU：

`1`	`ROCR_VISIBLE_DEVICES=0,1 ollama serve`

如果要強制不用 ROCm GPU，也可以用無效 ID：

`1`	`ROCR_VISIBLE_DEVICES=-1 ollama serve`

Ollama 官方 GPU 文件還提到，如果用實驗性的 Vulkan 支援，可以透過 GGML_VK_VISIBLE_DEVICES 選擇 Vulkan GPU：

`1`	`OLLAMA_VULKAN=1 GGML_VK_VISIBLE_DEVICES=0 ollama serve`

如果 Vulkan 裝置有問題，可以停用：

`1`	`GGML_VK_VISIBLE_DEVICES=-1 ollama serve`

AMD 多卡比 NVIDIA 更容易遇到驅動、ROCm 版本、GFX 版本支援的問題。官方文件中也提到 Linux 下 ROCm 驅動版本、HSA_OVERRIDE_GFX_VERSION 等相容性處理。多張不同代 AMD 卡混用時，先確認每張卡是否單獨可用，再考慮多卡。

Docker 裡怎麼暴露多張 GPU

如果用 Docker 跑 Ollama，NVIDIA 環境通常需要先安裝 nvidia-container-toolkit，然後用 --gpus 暴露裝置。

暴露全部 GPU：

docker run -d \
  --gpus=all \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

只暴露指定 GPU：

docker run -d \
  --gpus '"device=0,1"' \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

也可以結合環境變數：

docker run -d \
  --gpus=all \
  -e CUDA_VISIBLE_DEVICES=0,1 \
  -v ollama:/root/.ollama \
  -p 11434:11434 \
  --name ollama \
  ollama/ollama

如果容器裡 nvidia-smi 看不到卡，Ollama 也不可能用到 GPU。先排查 Docker GPU passthrough，再排查 Ollama。

`OLLAMA_SCHED_SPREAD` 是什麼

在一些多 GPU 配置討論裡，會看到 OLLAMA_SCHED_SPREAD=1 或 OLLAMA_SCHED_SPREAD=true。它和 Ollama 的調度策略有關，常被用於希望模型或請求更分散地利用多張 GPU 的場景。

可以這樣設定：

`1`	`OLLAMA_SCHED_SPREAD=1 ollama serve`

或者 systemd：

1
2

[Service]
Environment="OLLAMA_SCHED_SPREAD=true"

不過它不是萬能開關。開啟後並不等於 token/s 線性增長，也可能因為多個模型同時載入、顯存估算、上下文長度和 KV cache 增長導致 OOM。官方 FAQ 的核心策略仍然是：如果單 GPU 能完整容納模型，單 GPU 通常更高效；單 GPU 放不下時才跨多 GPU。

所以建議把 OLLAMA_SCHED_SPREAD 當成進階調度實驗項，而不是多卡必開項。先理解預設行為，再根據實際 ollama ps、日誌和 nvidia-smi 觀察結果調整。

怎麼觀察多卡是否真的用上

常用觀察命令：

`1`	`ollama ps`

`1`	`watch -n 0.5 nvidia-smi`

查看 Ollama 服務日誌：

`1`	`journalctl -u ollama -f`

如果使用 Docker：

`1`	`docker logs -f ollama`

你需要關注：

Ollama 是否發現相容 GPU。
模型是否顯示 100% GPU 或 CPU/GPU 混合。
每張卡顯存是否有占用。
載入模型時是否多卡顯存同時增長。
生成時 token/s 是否比 CPU/RAM 混跑明顯改善。
是否頻繁 OOM 或卸載模型。

如果只看 GPU 利用率，很容易誤判。LLM 推理時 GPU 利用率不一定長期滿載，尤其是多卡、低 batch、小上下文、慢 CPU 或慢 PCIe 環境下。

常見誤區

誤區 1：兩張 12GB 顯卡等於一張 24GB 顯卡

不完全等價。多卡可以讓模型跨裝置放置，但跨卡存取有額外開銷。它能解決「放不下」的問題，不一定等價於單張大顯存卡的速度和穩定性。

誤區 2：不同型號顯卡不能混用

不一定。只要驅動、計算能力和執行庫都支援，Ollama 可以看到多張 GPU。但混用時，速度通常受較慢卡、較小顯存和 PCIe 拓撲影響。最穩的多卡配置仍然是同型號、同顯存、同代驅動支援良好的卡。

誤區 3：多卡一定比單卡快

不一定。如果模型能完整放進單張快卡，單卡可能更快。多卡主要適合大模型、長上下文、單卡顯存不夠的情況。

誤區 4：必須有 NVLink / SLI

不需要。普通 PCIe 多卡也能被 Ollama 使用。NVLink 不是前提。

誤區 5：加 GPU 後不用重啟服務

不一定。Linux systemd 服務、Windows 背景應用、Docker 容器都可能需要重啟，才能重新識別裝置和環境變數。

選卡建議

如果目標是 Ollama 本地推理，優先級大致是：

單卡顯存越大越省心。
同型號多卡比混合多卡更容易排錯。
PCIe 通道越完整，載入大模型越舒服。
老卡要先確認 CUDA compute capability 或 ROCm 支援。
多卡電源、散熱和機箱風道要提前算清楚。

對於預算有限的二手平台：

雙 3090 仍然是很常見的大顯存方案。
P40 / M40 這類老 Tesla 顯存大，但功耗、散熱、驅動和效能都要權衡。
4070 / 4070 Ti 這類新卡能效好，但單卡顯存容量限制更明顯。
多張 8GB 老卡能折騰，但不建議為了大模型長期使用。

小結

Ollama 多顯卡支援可以理解成「顯存擴展優先，效能加速其次」。如果模型能完整放進一張 GPU，預設單卡通常更快；如果單卡放不下，多卡可以把模型分布到多張 GPU 上，避免大量落到 CPU/RAM，從而讓大模型變得可用。

實際配置時，先用 ollama ps 看模型載入位置，再用 nvidia-smi 或 ROCm 工具觀察顯存占用。需要限制 GPU 時，NVIDIA 用 CUDA_VISIBLE_DEVICES，AMD ROCm 用 ROCR_VISIBLE_DEVICES，Vulkan 用 GGML_VK_VISIBLE_DEVICES。如果在 Docker 中執行，先確保容器層面能看到 GPU。

多卡不是魔法。它能幫你裝下更大的模型，但不保證線性加速。真正穩定好用的路線，仍然是盡量選大顯存單卡或同型號多卡，並把驅動、PCIe、電源、散熱和模型量化一起考慮。

參考連結

Ollama FAQ：How does Ollama load models on multiple GPUs?：https://github.com/ollama/ollama/blob/main/docs/faq.mdx
Ollama GPU 文件：Hardware support / GPU Selection：https://github.com/ollama/ollama/blob/main/docs/gpu.mdx
Ollama Docker Hub：https://hub.docker.com/r/ollama/ollama
NVIDIA Container Toolkit：https://github.com/NVIDIA/nvidia-container-toolkit

如何判斷 Ollama 模型是否已載入到 GPU

Mon, 06 Apr 2026 10:15:18 +0800

想確認 Ollama 模型是否真的跑在 GPU 上，最直接的方法就是查看目前已載入模型的處理器占用資訊。

使用指令

`1`	`ollama ps`

範例輸出

1
2

NAME        ID            SIZE    PROCESSOR   UNTIL
llama3:70b  bcfb190ca3a7  42 GB   100% GPU    4 minutes from now

如何解讀 `PROCESSOR` 欄位

100% GPU：模型完全載入在 GPU 顯存中。
100% CPU：模型完全載入在系統記憶體中（未使用 GPU 推理）。
48%/52% CPU/GPU：模型部分在系統記憶體、部分在 GPU 顯存中，屬於混合載入。

實用建議

如果你預期使用 GPU，但看到 100% CPU，先檢查顯卡驅動、CUDA/ROCm 環境與 Ollama 執行參數。
模型參數量較大、顯存不足時，通常會出現 CPU/GPU 混合載入。
排查效能問題時，先執行 ollama ps 再看速度數據，能更快定位瓶頸。

總結

ollama ps 是判斷模型是否真正使用 GPU 的第一步。重點看 PROCESSOR 欄位，就能快速確認目前載入位置，並據此決定後續優化方向。

GPU on KnightLi的博客

Ubuntu 26.04 LTS 的 GPU 與硬體支援更新：CUDA、ROCm、DPC++ 和更多平台變化

1. Intel DPC++ 與相關元件進入 Ubuntu Archive

2. NVIDIA CUDA toolkit 現在也能直接 apt install

3. AMD ROCm 7.1.0 進入 Universe

4. 這一輪真正的重點，是三家 GPU 生態都在落地

5. NVIDIA Dynamic Boost 預設啟用

6. Intel 新一代內顯與獨顯支援持續往前推進

7. Nvidia 桌機的掛起恢復也更穩定了

8. ARM、樹莓派、RISC-V 和 IBM Z 也有硬性門檻變化

ARM64 桌面平台

Raspberry Pi 新開機配置

Raspberry Pi 桌面映像改用 desktop-minimal

樹莓派 swap 改由 cloud-init 處理

RISC-V 門檻上調

IBM Z 最低要求提高到 z15

9. 哪些人更適合先看這篇

10. 一句話總結

解決 Ollama 使用 CPU 而不使用 GPU 運算的問題

1. 先確認是不是真的沒用到 GPU

2. 先排除最常見的誤區：模型塞不進顯存

3. 檢查顯卡驅動和底層環境是否可用

NVIDIA 方向

AMD / ROCm 方向

4. 重啟 Ollama 服務，不要只重開終端

5. 檢查服務環境變數有沒有真的傳進去

6. AMD 平台重點看 ROCm 相容性

7. Docker、WSL 或遠端環境要額外檢查裝置映射

8. 最後再看日誌，而不是一開始就亂猜

排查順序

結語

NVIDIA nvbandwidth 是什麼：GPU 頻寬測試工具怎麼用

1. nvbandwidth 是做什麼的

2. 它測的不是單一分數

3. CE 和 SM 兩類拷貝怎麼理解

4. 執行它需要什麼環境

5. 單機版怎麼編譯和執行

6. 多節點支援是它比較特別的地方

7. 新版 v0.9 更新了什麼

8. 什麼時候適合用它

9. 可以怎麼理解它的價值

相關連結

如何檢查 Tesla V100 是否存在 ECC 錯誤

特斯拉 V100 現在還值得買嗎：ECC 檢查、散熱改造與 DIY 避坑

先看結論

一、先看年份與批次，對不上就要警惕

二、外觀檢查不要只看晶片，也要看電感、彈簧與框架

1. 先摸電感

2. 再看固定彈簧有沒有被拆過

3. 框架太好拆，也不正常

三、底板如果太容易分離，就要懷疑刷過 VBIOS 或動過手腳

四、ECC 怎麼看：最重要的不是是不是零，而是會不會增長

1. 即時錯誤最危險

2. 全生命週期累積錯誤不一定可怕

3. 屏蔽頁更值得重點看

五、不要迷信「全零 ECC」，因為數據本身也可能被刷過

六、壓力測試不能省，但只測核心也不夠

七、DIY 玩家最容易翻車的，不是買卡，而是散熱與供電

1. 不要只盯著 GPU 平均溫度

2. 底板散熱一定要考慮

3. 低價拼裝水冷方案風險很高

八、如果一定要 DIY，至少注意這幾件事

九、嘯叫與轉接板個體差異，也都是現實問題

1. 嘯叫不一定能徹底消除

2. 轉接板個體差異很大

結語

llama.cpp ollama 顯卡性能天梯：CUDA、ROCm、Vulkan

先看懂這些參數

Q4_0 是什麼

pp512 是什麼

tg128 是什麼

FA 是什麼

t/s 怎麼看

先說結論

CUDA 完整榜單

Llama 2 7B, Q4_0, no FA

Llama 2 7B, Q4_0, with FA

Apple Silicon 參考口徑

ROCm / HIP 完整榜單

Llama 2 7B, Q4_0, no FA

2. NVIDIA CUDA toolkit 現在也能直接 `apt install`

1. `nvbandwidth` 是做什麼的

3. `CE` 和 `SM` 兩類拷貝怎麼理解

7. 新版 `v0.9` 更新了什麼

四、`ECC` 怎麼看：最重要的不是是不是零，而是會不會增長

`Q4_0` 是什麼

`pp512` 是什麼

`tg128` 是什麼

`FA` 是什麼

`t/s` 怎麼看

`OLLAMA_SCHED_SPREAD` 是什麼

如何解讀 `PROCESSOR` 欄位