🍥

KnightLi的博客

记录并分享日常

AI工具

如何判斷 Ollama 模型是否已載入到 GPU

透過 `ollama ps` 快速判斷模型是在 GPU、CPU，還是 CPU/GPU 混合記憶體中執行，並理解 `PROCESSOR` 欄位意義。

想確認 Ollama 模型是否真的跑在 GPU 上，最直接的方法就是查看目前已載入模型的處理器占用資訊。

使用指令

1

ollama ps

範例輸出

1
2


NAME        ID            SIZE    PROCESSOR   UNTIL
llama3:70b  bcfb190ca3a7  42 GB   100% GPU    4 minutes from now

如何解讀 `PROCESSOR` 欄位

100% GPU：模型完全載入在 GPU 顯存中。
100% CPU：模型完全載入在系統記憶體中（未使用 GPU 推理）。
48%/52% CPU/GPU：模型部分在系統記憶體、部分在 GPU 顯存中，屬於混合載入。

實用建議

如果你預期使用 GPU，但看到 100% CPU，先檢查顯卡驅動、CUDA/ROCm 環境與 Ollama 執行參數。
模型參數量較大、顯存不足時，通常會出現 CPU/GPU 混合載入。
排查效能問題時，先執行 ollama ps 再看速度數據，能更快定位瓶頸。

總結

ollama ps 是判斷模型是否真正使用 GPU 的第一步。重點看 PROCESSOR 欄位，就能快速確認目前載入位置，並據此決定後續優化方向。

相關文章