如何判断 Ollama 模型是否已加载到 GPU

通过 `ollama ps` 快速判断模型是在 GPU、CPU 还是 CPU/GPU 混合内存中运行,并理解 `PROCESSOR` 列含义。

想确认 Ollama 模型有没有真正跑在 GPU 上,最直接的方法是查看当前已加载模型的处理器占用信息。

使用命令

1
ollama ps

示例输出

1
2
NAME        ID            SIZE    PROCESSOR   UNTIL
llama3:70b  bcfb190ca3a7  42 GB   100% GPU    4 minutes from now

如何解读 PROCESSOR

  • 100% GPU:模型完全加载在 GPU 显存中。
  • 100% CPU:模型完全加载在系统内存中(未使用 GPU 推理)。
  • 48%/52% CPU/GPU:模型部分在内存、部分在显存中,属于混合加载。

实用建议

  1. 如果你预期使用 GPU,但看到 100% CPU,先检查显卡驱动、CUDA/ROCm 环境和 Ollama 运行参数。
  2. 模型参数量较大、显存不足时,通常会出现 CPU/GPU 混合加载。
  3. 排查性能问题时,先执行 ollama ps 再看速度数据,能更快定位瓶颈。

总结

ollama ps 是判断模型是否真正使用 GPU 的第一步。重点看 PROCESSOR 列即可快速确认当前加载位置,并据此决定后续优化方向。

相关文章

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计