Ollama 接入 Codex App:本地大模型如何变成 AI 编程 Agent

解读 Ollama Launch 对 Codex App 的支持:通过 ollama launch codex-app,把 Codex App 接到本地或云端模型,让本地大模型从聊天工具进入 AI 编程 Agent 工作流。

Ollama 最近把本地大模型和 AI 编程工具之间的距离又拉近了一步:通过 ollama launch codex-app,用户可以把 Codex App 接到 Ollama 管理的本地或云端模型上。

这件事的意义不只是“换一个模型后端”。它更像是把本地大模型从聊天窗口推到开发工作流里:模型不再只是回答问题,而是可以进入代码项目、理解文件结构、辅助修改代码、运行任务,成为 AI 编程 Agent 的一部分。

先澄清:这不是 OpenAI 全功能永久免费

网上很多说法会把这件事概括成“Codex 免费了”。这个说法容易误解。

更准确的理解是:

  • Codex App 是 OpenAI 的 AI 编程工具;
  • Ollama Launch 可以帮助 Codex App 使用 Ollama 模型;
  • 模型可以是本地模型,也可以是 Ollama 的云端模型;
  • 如果使用本地模型,推理成本主要变成自己的硬件、电费和时间,而不是按 API token 计费;
  • Codex App、OpenAI 账号权益、不同模型可用性和官方限制,仍然要以 OpenAI 与 Ollama 的当前规则为准。

所以它不是“所有 Codex 能力都永久免费”,而是多了一条本地化路线:让 AI 编程 Agent 可以不完全依赖 OpenAI API、Claude API 或 Gemini API。

ollama launch codex-app 做了什么?

Ollama 官方文档里,Codex App 的接入命令很简单:

1
ollama launch codex-app

如果想指定模型,可以写成:

1
ollama launch codex-app --model gpt-oss:120b

也可以只生成配置,不马上启动:

1
ollama launch codex-app --config

如果想恢复原来的 Codex 配置:

1
ollama launch codex-app --restore

它的价值在于减少手动配置成本。过去要让一个 AI 编程工具接入本地模型,经常要自己改环境变量、OpenAI-compatible endpoint、config.toml、模型名和 profile。现在 Ollama Launch 把这些步骤包装成一个更直接的流程。

为什么本地模型接入 Agent 很重要?

以前本地大模型最常见的用法是聊天:

  • 写一段文案;
  • 回答一个问题;
  • 解释一段代码;
  • 做简单补全;
  • 总结文档。

这些都很有用,但还停留在“问答工具”的层面。

AI 编程 Agent 的区别在于,它面对的是一个真实项目。它需要读目录、看文件、理解报错、修改代码、运行命令、检查结果,再继续迭代。也就是说,它不是只输出答案,而是参与执行任务。

当本地模型接入 Codex App、Claude Code、OpenCode、Aider、OpenHands 这类工具时,本地 AI 的角色就变了:

  • 可以扫描项目结构;
  • 可以定位 Bug;
  • 可以改文件;
  • 可以生成新页面或小游戏;
  • 可以解释和重构代码;
  • 可以在开发循环里反复执行、验证、修正。

这也是本地大模型从“能聊”走向“能干活”的关键一步。

本地 Agent 的优势

1. 成本更可控

大型项目很容易消耗大量 token。一次项目扫描、长上下文分析、多轮修复,放在云端模型上可能很快积累费用。

本地模型虽然也有成本,比如显卡、内存、电费和时间,但它不会按 token 直接收费。对于大量试错、个人项目、离线实验,本地路线更适合慢慢折腾。

2. 可以离线工作

如果模型、工具和依赖都已经在本机准备好,本地 Agent 在很多场景下可以断网继续工作。它可以读本地代码、分析项目、修改文件、生成页面或脚本。

当然,涉及联网搜索、下载依赖、访问在线 API 的任务仍然需要网络。但基础代码分析和本地项目修改,不一定非要依赖云端模型。

3. 隐私边界更清楚

很多代码库、内部文档、实验项目并不适合直接发给云端模型。把模型放在本地,可以减少代码内容离开机器的机会。

这不代表本地路线天然安全。Agent 仍然可能执行命令、改文件、访问敏感路径,所以权限、沙箱、Git diff review 仍然很重要。但至少在模型推理层面,本地化给了用户更多控制权。

模型怎么选?

Ollama 的官方 ollama launch 文档建议,代码类工具最好使用较大的上下文窗口,推荐至少 64K tokens。原因很简单:AI 编程任务经常需要同时读项目结构、多个文件、报错日志、需求说明和历史修改。

本地模型可以从这些方向尝试:

  • qwen3-coder:偏代码任务;
  • gpt-oss:20b:适合本地尝试;
  • glm-4.7-flash:Ollama 官方推荐的 coding 模型之一;
  • 更大的云端模型:如果本地硬件不够,可以用 Ollama cloud 模型换取更完整上下文。

中文场景下,Qwen 系列仍然值得优先尝试。它在中文理解、代码生成、推理和本地生态适配上都比较成熟。

硬件门槛没有想象中那么高

很多人一提到 AI Agent,就默认需要 RTX 4090、24GB 显存、甚至企业级 GPU。

实际情况更灵活。小模型、量化模型、MoE 模型、KV cache 量化和 CPU/GPU 混合 offload 让 6GB、8GB、12GB 显存机器也能做不少事情。

当然,低显存机器不适合追求极致体验:

  • 速度会慢;
  • 上下文不能太大;
  • 大项目扫描会吃力;
  • 多并发基本不现实;
  • 模型质量和 100B+ 云端模型仍有差距。

但如果目标是个人项目、脚本修复、简单前端页面、小游戏、代码解释、离线实验,本地模型已经足够进入“可用”阶段。

也可以用 llama.cpp 接 OpenAI-compatible 接口

除了 Ollama,另一条常见路线是用 llama.cppllama-server 提供本地 OpenAI-compatible API,再让 AI 编程工具连接到本地端口。

一个典型的 llama.cpp 启动命令类似这样:

1
2
3
4
5
6
7
8
9
llama-server.exe ^
 -m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^
 -ngl 999 ^
 -c 16384 ^
 -n 2048 ^
 -fa on ^
 --jinja ^
 --host 127.0.0.1 ^
 --port 8080

然后在工具配置里把模型 provider 指向:

1
2
3
4
[model_providers.llamacpp]
name = "llama.cpp"
base_url = "http://127.0.0.1:8080/v1/"
wire_api = "responses"

这条路线更灵活,但也更折腾。Ollama Launch 的优势是简单;llama.cpp 的优势是可控参数更多,适合想细调显存、上下文、量化和推理后端的用户。

使用本地 AI Agent 时要注意什么?

本地不等于无风险。Agent 能改文件、跑命令、创建项目,就意味着它也可能误删文件、改错代码、执行不该执行的操作。

建议:

  1. 在 Git 仓库里操作,确保随时能看 diff 和回滚。
  2. 不要给 Agent 过大的系统权限。
  3. 先在测试项目里试,不要直接扔生产代码库。
  4. 重要文件修改前后都要人工 review。
  5. 不要把密钥、账号、生产环境配置暴露给 Agent。
  6. 本地模型能力有限,复杂架构决策不要完全交给它。

把本地 Agent 当成“会执行任务的助手”,而不是“完全可靠的工程师”,体验会更健康。

我的理解

Ollama 接入 Codex App 的意义在于,它把本地模型真正接进了 AI 编程工作流。

过去,本地模型更多是一个聊天框;现在,它开始能进入项目、读代码、改文件、跑任务。这个变化会让很多普通开发者重新评估手里的电脑:也许不需要最贵的显卡,也能先搭起一个低成本、可离线、可控的 AI 编程环境。

云端模型仍然强,特别是在复杂推理、大上下文、多模态和长任务稳定性上。但本地模型正在补上“执行工具”这一块。

未来的 AI 编程,很可能不是纯云端或纯本地,而是混合形态:

  • 小任务、本地代码、隐私项目交给本地模型;
  • 高难推理、大上下文、跨系统任务交给云端模型;
  • Ollama、Codex App、Claude Code、OpenCode 这类工具负责把两边接到同一个工作流里。

这才是本地 AI Agent 真正值得关注的地方。

参考链接

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计