如何判斷 Ollama 模型是否已載入到 GPU

透過 `ollama ps` 快速判斷模型是在 GPU、CPU,還是 CPU/GPU 混合記憶體中執行,並理解 `PROCESSOR` 欄位意義。

想確認 Ollama 模型是否真的跑在 GPU 上,最直接的方法就是查看目前已載入模型的處理器占用資訊。

使用指令

1
ollama ps

範例輸出

1
2
NAME        ID            SIZE    PROCESSOR   UNTIL
llama3:70b  bcfb190ca3a7  42 GB   100% GPU    4 minutes from now

如何解讀 PROCESSOR 欄位

  • 100% GPU:模型完全載入在 GPU 顯存中。
  • 100% CPU:模型完全載入在系統記憶體中(未使用 GPU 推理)。
  • 48%/52% CPU/GPU:模型部分在系統記憶體、部分在 GPU 顯存中,屬於混合載入。

實用建議

  1. 如果你預期使用 GPU,但看到 100% CPU,先檢查顯卡驅動、CUDA/ROCm 環境與 Ollama 執行參數。
  2. 模型參數量較大、顯存不足時,通常會出現 CPU/GPU 混合載入。
  3. 排查效能問題時,先執行 ollama ps 再看速度數據,能更快定位瓶頸。

總結

ollama ps 是判斷模型是否真正使用 GPU 的第一步。重點看 PROCESSOR 欄位,就能快速確認目前載入位置,並據此決定後續優化方向。

相關文章

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計