从 Hugging Face 下载 GGUF 模型并导入 Ollama

当模型没有现成的 Ollama 版本时,可以先从 Hugging Face 下载 GGUF 文件,再通过 Modelfile 导入到 Ollama。

如果某个模型在 Ollama 官方库里没有现成版本,或者你想使用 Hugging Face 上的特定 GGUF 文件,可以手动下载后再导入 Ollama。

第 1 步:从 Hugging Face 下载 GGUF 文件

先在 Hugging Face 上找到目标模型对应的 GGUF 文件。通常会看到多个量化版本,例如:

  • Q4_K_M
  • Q5_K_M
  • Q8_0

选择哪个版本,取决于你的显存、内存和你对速度、质量的取舍。下载后把 .gguf 文件放到固定目录,后面在 Modelfile 里直接引用。

第 2 步:编写 Modelfile

在模型文件同目录新建一个 Modelfile。最基本的写法如下:

1
FROM ./model.gguf

如果文件名不同,就改成实际文件名,例如:

1
FROM ./gemma-3-12b-it-q4_k_m.gguf

如果只是先跑起来,通常这一行 FROM 就够了。

第 3 步:导入到 Ollama

然后执行:

1
ollama create myModelName -f Modelfile
  • myModelName 是你希望在 Ollama 里使用的本地模型名
  • -f Modelfile 表示从这个配置文件创建模型

创建成功后,这个 GGUF 文件就会成为一个可直接调用的本地模型。

第 4 步:运行模型

创建完成后直接运行:

1
ollama run myModelName

之后它的使用方式就和 ollama pull 下来的模型基本一致。

如何查看现有模型的 Modelfile

如果你不确定 Modelfile 应该怎么写,可以直接查看现有模型的配置:

1
ollama show --modelfile llama3.2

这条命令会输出 llama3.2Modelfile 内容,适合拿来参考:

  • FROM 应该怎么写
  • 模板和 system prompt 是怎么组织的
  • 参数是如何声明的

什么时候适合用这条路线

下面这些场景适合从 Hugging Face 手动导入:

  • Ollama 官方库里还没有你要的模型
  • 你想使用某个特定量化版本
  • 你已经手动下载好了 GGUF 文件
  • 你想更精细地控制模型封装方式

如果官方库里已经有现成版本,直接 pull 通常更省事;但当你需要特定量化或自定义封装时,GGUF + Modelfile 会更灵活。

常见注意点

  • FROM 后面的路径必须和实际 .gguf 文件位置一致。
  • 文件名里如果有空格或特殊字符,建议先改成更简单的名字。
  • 不同 GGUF 量化版本对内存和速度影响很大,导入成功不代表运行一定流畅。
  • 如果模型是聊天模型,后续通常还需要根据其格式调整 prompt 模板,效果才会更稳定。

结论

从 Hugging Face 下载 GGUF 文件再导入 Ollama 并不复杂。准备好模型文件,写一个最小可用的 Modelfile,再执行 ollama create,就可以把第三方 GGUF 模型接入 Ollama。

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计