Ollama 接入 Codex App：本地大模型如何变成 AI 编程 Agent

Ollama 最近把本地大模型和 AI 编程工具之间的距离又拉近了一步：通过 ollama launch codex-app，用户可以把 Codex App 接到 Ollama 管理的本地或云端模型上。

这件事的意义不只是“换一个模型后端”。它更像是把本地大模型从聊天窗口推到开发工作流里：模型不再只是回答问题，而是可以进入代码项目、理解文件结构、辅助修改代码、运行任务，成为 AI 编程 Agent 的一部分。

先澄清：这不是 OpenAI 全功能永久免费

网上很多说法会把这件事概括成“Codex 免费了”。这个说法容易误解。

更准确的理解是：

Codex App 是 OpenAI 的 AI 编程工具；
Ollama Launch 可以帮助 Codex App 使用 Ollama 模型；
模型可以是本地模型，也可以是 Ollama 的云端模型；
如果使用本地模型，推理成本主要变成自己的硬件、电费和时间，而不是按 API token 计费；
Codex App、OpenAI 账号权益、不同模型可用性和官方限制，仍然要以 OpenAI 与 Ollama 的当前规则为准。

所以它不是“所有 Codex 能力都永久免费”，而是多了一条本地化路线：让 AI 编程 Agent 可以不完全依赖 OpenAI API、Claude API 或 Gemini API。

`ollama launch codex-app` 做了什么？

Ollama 官方文档里，Codex App 的接入命令很简单：

1

ollama launch codex-app

如果想指定模型，可以写成：

1

ollama launch codex-app --model gpt-oss:120b

也可以只生成配置，不马上启动：

1

ollama launch codex-app --config

如果想恢复原来的 Codex 配置：

1

ollama launch codex-app --restore

它的价值在于减少手动配置成本。过去要让一个 AI 编程工具接入本地模型，经常要自己改环境变量、OpenAI-compatible endpoint、config.toml、模型名和 profile。现在 Ollama Launch 把这些步骤包装成一个更直接的流程。

为什么本地模型接入 Agent 很重要？

以前本地大模型最常见的用法是聊天：

写一段文案；
回答一个问题；
解释一段代码；
做简单补全；
总结文档。

这些都很有用，但还停留在“问答工具”的层面。

AI 编程 Agent 的区别在于，它面对的是一个真实项目。它需要读目录、看文件、理解报错、修改代码、运行命令、检查结果，再继续迭代。也就是说，它不是只输出答案，而是参与执行任务。

当本地模型接入 Codex App、Claude Code、OpenCode、Aider、OpenHands 这类工具时，本地 AI 的角色就变了：

可以扫描项目结构；
可以定位 Bug；
可以改文件；
可以生成新页面或小游戏；
可以解释和重构代码；
可以在开发循环里反复执行、验证、修正。

这也是本地大模型从“能聊”走向“能干活”的关键一步。

本地 Agent 的优势

1. 成本更可控

大型项目很容易消耗大量 token。一次项目扫描、长上下文分析、多轮修复，放在云端模型上可能很快积累费用。

本地模型虽然也有成本，比如显卡、内存、电费和时间，但它不会按 token 直接收费。对于大量试错、个人项目、离线实验，本地路线更适合慢慢折腾。

2. 可以离线工作

如果模型、工具和依赖都已经在本机准备好，本地 Agent 在很多场景下可以断网继续工作。它可以读本地代码、分析项目、修改文件、生成页面或脚本。

当然，涉及联网搜索、下载依赖、访问在线 API 的任务仍然需要网络。但基础代码分析和本地项目修改，不一定非要依赖云端模型。

3. 隐私边界更清楚

很多代码库、内部文档、实验项目并不适合直接发给云端模型。把模型放在本地，可以减少代码内容离开机器的机会。

这不代表本地路线天然安全。Agent 仍然可能执行命令、改文件、访问敏感路径，所以权限、沙箱、Git diff review 仍然很重要。但至少在模型推理层面，本地化给了用户更多控制权。

模型怎么选？

Ollama 的官方 ollama launch 文档建议，代码类工具最好使用较大的上下文窗口，推荐至少 64K tokens。原因很简单：AI 编程任务经常需要同时读项目结构、多个文件、报错日志、需求说明和历史修改。

本地模型可以从这些方向尝试：

qwen3-coder：偏代码任务；
gpt-oss:20b：适合本地尝试；
glm-4.7-flash：Ollama 官方推荐的 coding 模型之一；
更大的云端模型：如果本地硬件不够，可以用 Ollama cloud 模型换取更完整上下文。

中文场景下，Qwen 系列仍然值得优先尝试。它在中文理解、代码生成、推理和本地生态适配上都比较成熟。

硬件门槛没有想象中那么高

很多人一提到 AI Agent，就默认需要 RTX 4090、24GB 显存、甚至企业级 GPU。

实际情况更灵活。小模型、量化模型、MoE 模型、KV cache 量化和 CPU/GPU 混合 offload 让 6GB、8GB、12GB 显存机器也能做不少事情。

当然，低显存机器不适合追求极致体验：

速度会慢；
上下文不能太大；
大项目扫描会吃力；
多并发基本不现实；
模型质量和 100B+ 云端模型仍有差距。

但如果目标是个人项目、脚本修复、简单前端页面、小游戏、代码解释、离线实验，本地模型已经足够进入“可用”阶段。

也可以用 llama.cpp 接 OpenAI-compatible 接口

除了 Ollama，另一条常见路线是用 llama.cpp 的 llama-server 提供本地 OpenAI-compatible API，再让 AI 编程工具连接到本地端口。

一个典型的 llama.cpp 启动命令类似这样：

1
2
3
4
5
6
7
8
9


llama-server.exe ^
 -m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^
 -ngl 999 ^
 -c 16384 ^
 -n 2048 ^
 -fa on ^
 --jinja ^
 --host 127.0.0.1 ^
 --port 8080

然后在工具配置里把模型 provider 指向：

1
2
3
4


[model_providers.llamacpp]
name = "llama.cpp"
base_url = "http://127.0.0.1:8080/v1/"
wire_api = "responses"

这条路线更灵活，但也更折腾。Ollama Launch 的优势是简单；llama.cpp 的优势是可控参数更多，适合想细调显存、上下文、量化和推理后端的用户。

使用本地 AI Agent 时要注意什么？

本地不等于无风险。Agent 能改文件、跑命令、创建项目，就意味着它也可能误删文件、改错代码、执行不该执行的操作。

建议：

在 Git 仓库里操作，确保随时能看 diff 和回滚。
不要给 Agent 过大的系统权限。
先在测试项目里试，不要直接扔生产代码库。
重要文件修改前后都要人工 review。
不要把密钥、账号、生产环境配置暴露给 Agent。
本地模型能力有限，复杂架构决策不要完全交给它。

把本地 Agent 当成“会执行任务的助手”，而不是“完全可靠的工程师”，体验会更健康。

我的理解

Ollama 接入 Codex App 的意义在于，它把本地模型真正接进了 AI 编程工作流。

过去，本地模型更多是一个聊天框；现在，它开始能进入项目、读代码、改文件、跑任务。这个变化会让很多普通开发者重新评估手里的电脑：也许不需要最贵的显卡，也能先搭起一个低成本、可离线、可控的 AI 编程环境。

云端模型仍然强，特别是在复杂推理、大上下文、多模态和长任务稳定性上。但本地模型正在补上“执行工具”这一块。

未来的 AI 编程，很可能不是纯云端或纯本地，而是混合形态：

小任务、本地代码、隐私项目交给本地模型；
高难推理、大上下文、跨系统任务交给云端模型；
Ollama、Codex App、Claude Code、OpenCode 这类工具负责把两边接到同一个工作流里。

这才是本地 AI Agent 真正值得关注的地方。

Ollama 接入 Codex App：本地大模型如何变成 AI 编程 Agent

解读 Ollama Launch 对 Codex App 的支持：通过 ollama launch codex-app，把 Codex App 接到本地或云端模型，让本地大模型从聊天工具进入 AI 编程 Agent 工作流。

先澄清：这不是 OpenAI 全功能永久免费

`ollama launch codex-app` 做了什么？

为什么本地模型接入 Agent 很重要？

本地 Agent 的优势

1. 成本更可控

2. 可以离线工作

3. 隐私边界更清楚

模型怎么选？

硬件门槛没有想象中那么高

也可以用 llama.cpp 接 OpenAI-compatible 接口

使用本地 AI Agent 时要注意什么？

我的理解

参考链接

先澄清：这不是 OpenAI 全功能永久免费

ollama launch codex-app 做了什么？

为什么本地模型接入 Agent 很重要？

本地 Agent 的优势

1. 成本更可控

2. 可以离线工作

3. 隐私边界更清楚

模型怎么选？

硬件门槛没有想象中那么高

也可以用 llama.cpp 接 OpenAI-compatible 接口

使用本地 AI Agent 时要注意什么？

我的理解

参考链接

`ollama launch codex-app` 做了什么？