Ollama 接入 Codex App：本地大模型如何變成 AI 編程 Agent

Ollama 最近把本地大模型和 AI 編程工具之間的距離又拉近了一步：透過 ollama launch codex-app，使用者可以把 Codex App 接到 Ollama 管理的本地或雲端模型上。

這件事的意義不只是「換一個模型後端」。它更像是把本地大模型從聊天視窗推到開發工作流裡：模型不再只是回答問題，而是可以進入程式碼專案、理解檔案結構、輔助修改程式碼、執行任務，成為 AI 編程 Agent 的一部分。

先釐清：這不是 OpenAI 全功能永久免費

網上很多說法會把這件事概括成「Codex 免費了」。這個說法容易誤解。

更準確的理解是：

Codex App 是 OpenAI 的 AI 編程工具；
Ollama Launch 可以幫助 Codex App 使用 Ollama 模型；
模型可以是本地模型，也可以是 Ollama 的雲端模型；
如果使用本地模型，推理成本主要變成自己的硬體、電費和時間，而不是按 API token 計費；
Codex App、OpenAI 帳號權益、不同模型可用性和官方限制，仍然要以 OpenAI 與 Ollama 的當前規則為準。

所以它不是「所有 Codex 能力都永久免費」，而是多了一條本地化路線：讓 AI 編程 Agent 可以不完全依賴 OpenAI API、Claude API 或 Gemini API。

`ollama launch codex-app` 做了什麼？

Ollama 官方文件裡，Codex App 的接入命令很簡單：

1

ollama launch codex-app

如果想指定模型，可以寫成：

1

ollama launch codex-app --model gpt-oss:120b

也可以只生成配置，不馬上啟動：

1

ollama launch codex-app --config

如果想恢復原本的 Codex 配置：

1

ollama launch codex-app --restore

它的價值在於減少手動配置成本。過去要讓一個 AI 編程工具接入本地模型，經常要自己改環境變數、OpenAI-compatible endpoint、config.toml、模型名和 profile。現在 Ollama Launch 把這些步驟包裝成一個更直接的流程。

為什麼本地模型接入 Agent 很重要？

以前本地大模型最常見的用法是聊天：

寫一段文案；
回答一個問題；
解釋一段程式碼；
做簡單補全；
總結文件。

這些都很有用，但還停留在「問答工具」的層面。

AI 編程 Agent 的區別在於，它面對的是一個真實專案。它需要讀目錄、看檔案、理解報錯、修改程式碼、執行命令、檢查結果，再繼續迭代。也就是說，它不是只輸出答案，而是參與執行任務。

當本地模型接入 Codex App、Claude Code、OpenCode、Aider、OpenHands 這類工具時，本地 AI 的角色就變了：

可以掃描專案結構；
可以定位 Bug；
可以改檔案；
可以生成新頁面或小遊戲；
可以解釋和重構程式碼；
可以在開發循環裡反覆執行、驗證、修正。

這也是本地大模型從「能聊」走向「能幹活」的關鍵一步。

本地 Agent 的優勢

1. 成本更可控

大型專案很容易消耗大量 token。一次專案掃描、長上下文分析、多輪修復，放在雲端模型上可能很快累積費用。

本地模型雖然也有成本，比如顯卡、記憶體、電費和時間，但它不會按 token 直接收費。對於大量試錯、個人專案、離線實驗，本地路線更適合慢慢折騰。

2. 可以離線工作

如果模型、工具和依賴都已經在本機準備好，本地 Agent 在很多場景下可以斷網繼續工作。它可以讀本地程式碼、分析專案、修改檔案、生成頁面或腳本。

當然，涉及聯網搜尋、下載依賴、存取線上 API 的任務仍然需要網路。但基礎程式碼分析和本地專案修改，不一定非要依賴雲端模型。

3. 隱私邊界更清楚

很多程式碼庫、內部文件、實驗專案並不適合直接發給雲端模型。把模型放在本地，可以減少程式碼內容離開機器的機會。

這不代表本地路線天然安全。Agent 仍然可能執行命令、改檔案、存取敏感路徑，所以權限、沙箱、Git diff review 仍然很重要。但至少在模型推理層面，本地化給了使用者更多控制權。

模型怎麼選？

Ollama 的官方 ollama launch 文件建議，程式碼類工具最好使用較大的上下文視窗，推薦至少 64K tokens。原因很簡單：AI 編程任務經常需要同時讀專案結構、多個檔案、報錯日誌、需求說明和歷史修改。

本地模型可以從這些方向嘗試：

qwen3-coder：偏程式碼任務；
gpt-oss:20b：適合本地嘗試；
glm-4.7-flash：Ollama 官方推薦的 coding 模型之一；
更大的雲端模型：如果本地硬體不夠，可以用 Ollama cloud 模型換取更完整上下文。

中文場景下，Qwen 系列仍然值得優先嘗試。它在中文理解、程式碼生成、推理和本地生態適配上都比較成熟。

硬體門檻沒有想像中那麼高

很多人一提到 AI Agent，就預設需要 RTX 4090、24GB 顯存、甚至企業級 GPU。

實際情況更靈活。小模型、量化模型、MoE 模型、KV cache 量化和 CPU/GPU 混合 offload 讓 6GB、8GB、12GB 顯存機器也能做不少事情。

當然，低顯存機器不適合追求極致體驗：

速度會慢；
上下文不能太大；
大專案掃描會吃力；
多併發基本不現實；
模型品質和 100B+ 雲端模型仍有差距。

但如果目標是個人專案、腳本修復、簡單前端頁面、小遊戲、程式碼解釋、離線實驗，本地模型已經足夠進入「可用」階段。

也可以用 llama.cpp 接 OpenAI-compatible 介面

除了 Ollama，另一條常見路線是用 llama.cpp 的 llama-server 提供本地 OpenAI-compatible API，再讓 AI 編程工具連接到本地連接埠。

一個典型的 llama.cpp 啟動命令類似這樣：

1
2
3
4
5
6
7
8
9


llama-server.exe ^
 -m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^
 -ngl 999 ^
 -c 16384 ^
 -n 2048 ^
 -fa on ^
 --jinja ^
 --host 127.0.0.1 ^
 --port 8080

然後在工具配置裡把模型 provider 指向：

1
2
3
4


[model_providers.llamacpp]
name = "llama.cpp"
base_url = "http://127.0.0.1:8080/v1/"
wire_api = "responses"

這條路線更靈活，但也更折騰。Ollama Launch 的優勢是簡單；llama.cpp 的優勢是可控參數更多，適合想細調顯存、上下文、量化和推理後端的使用者。

使用本地 AI Agent 時要注意什麼？

本地不等於無風險。Agent 能改檔案、跑命令、建立專案，就意味著它也可能誤刪檔案、改錯程式碼、執行不該執行的操作。

建議：

在 Git 倉庫裡操作，確保隨時能看 diff 和回滾。
不要給 Agent 過大的系統權限。
先在測試專案裡試，不要直接丟生產程式碼庫。
重要檔案修改前後都要人工 review。
不要把密鑰、帳號、生產環境配置暴露給 Agent。
本地模型能力有限，複雜架構決策不要完全交給它。

把本地 Agent 當成「會執行任務的助手」，而不是「完全可靠的工程師」，體驗會更健康。

我的理解

Ollama 接入 Codex App 的意義在於，它把本地模型真正接進了 AI 編程工作流。

過去，本地模型更多是一個聊天框；現在，它開始能進入專案、讀程式碼、改檔案、跑任務。這個變化會讓很多普通開發者重新評估手裡的電腦：也許不需要最貴的顯卡，也能先搭起一個低成本、可離線、可控的 AI 編程環境。

雲端模型仍然強，特別是在複雜推理、大上下文、多模態和長任務穩定性上。但本地模型正在補上「執行工具」這一塊。

未來的 AI 編程，很可能不是純雲端或純本地，而是混合形態：

小任務、本地程式碼、隱私專案交給本地模型；
高難推理、大上下文、跨系統任務交給雲端模型；
Ollama、Codex App、Claude Code、OpenCode 這類工具負責把兩邊接到同一個工作流裡。

這才是本地 AI Agent 真正值得關注的地方。

Ollama 接入 Codex App：本地大模型如何變成 AI 編程 Agent

解讀 Ollama Launch 對 Codex App 的支援：透過 ollama launch codex-app，把 Codex App 接到本地或雲端模型，讓本地大模型從聊天工具進入 AI 編程 Agent 工作流。

先釐清：這不是 OpenAI 全功能永久免費

`ollama launch codex-app` 做了什麼？

為什麼本地模型接入 Agent 很重要？

本地 Agent 的優勢

1. 成本更可控

2. 可以離線工作

3. 隱私邊界更清楚

模型怎麼選？

硬體門檻沒有想像中那麼高

也可以用 llama.cpp 接 OpenAI-compatible 介面

使用本地 AI Agent 時要注意什麼？

我的理解

參考連結

先釐清：這不是 OpenAI 全功能永久免費

ollama launch codex-app 做了什麼？

為什麼本地模型接入 Agent 很重要？

本地 Agent 的優勢

1. 成本更可控

2. 可以離線工作

3. 隱私邊界更清楚

模型怎麼選？

硬體門檻沒有想像中那麼高

也可以用 llama.cpp 接 OpenAI-compatible 介面

使用本地 AI Agent 時要注意什麼？

我的理解

參考連結

`ollama launch codex-app` 做了什麼？