🍥

KnightLi的博客

记录并分享日常

AI工具

如何判断 Ollama 模型是否已加载到 GPU

通过 `ollama ps` 快速判断模型是在 GPU、CPU 还是 CPU/GPU 混合内存中运行，并理解 `PROCESSOR` 列含义。

想确认 Ollama 模型有没有真正跑在 GPU 上，最直接的方法是查看当前已加载模型的处理器占用信息。

使用命令

1

ollama ps

示例输出

1
2


NAME        ID            SIZE    PROCESSOR   UNTIL
llama3:70b  bcfb190ca3a7  42 GB   100% GPU    4 minutes from now

如何解读 `PROCESSOR` 列

100% GPU：模型完全加载在 GPU 显存中。
100% CPU：模型完全加载在系统内存中（未使用 GPU 推理）。
48%/52% CPU/GPU：模型部分在内存、部分在显存中，属于混合加载。

实用建议

如果你预期使用 GPU，但看到 100% CPU，先检查显卡驱动、CUDA/ROCm 环境和 Ollama 运行参数。
模型参数量较大、显存不足时，通常会出现 CPU/GPU 混合加载。
排查性能问题时，先执行 ollama ps 再看速度数据，能更快定位瓶颈。

总结

ollama ps 是判断模型是否真正使用 GPU 的第一步。重点看 PROCESSOR 列即可快速确认当前加载位置，并据此决定后续优化方向。

相关文章