Ollama 接入 Codex App:本地大模型如何變成 AI 編程 Agent

解讀 Ollama Launch 對 Codex App 的支援:透過 ollama launch codex-app,把 Codex App 接到本地或雲端模型,讓本地大模型從聊天工具進入 AI 編程 Agent 工作流。

Ollama 最近把本地大模型和 AI 編程工具之間的距離又拉近了一步:透過 ollama launch codex-app,使用者可以把 Codex App 接到 Ollama 管理的本地或雲端模型上。

這件事的意義不只是「換一個模型後端」。它更像是把本地大模型從聊天視窗推到開發工作流裡:模型不再只是回答問題,而是可以進入程式碼專案、理解檔案結構、輔助修改程式碼、執行任務,成為 AI 編程 Agent 的一部分。

先釐清:這不是 OpenAI 全功能永久免費

網上很多說法會把這件事概括成「Codex 免費了」。這個說法容易誤解。

更準確的理解是:

  • Codex App 是 OpenAI 的 AI 編程工具;
  • Ollama Launch 可以幫助 Codex App 使用 Ollama 模型;
  • 模型可以是本地模型,也可以是 Ollama 的雲端模型;
  • 如果使用本地模型,推理成本主要變成自己的硬體、電費和時間,而不是按 API token 計費;
  • Codex App、OpenAI 帳號權益、不同模型可用性和官方限制,仍然要以 OpenAI 與 Ollama 的當前規則為準。

所以它不是「所有 Codex 能力都永久免費」,而是多了一條本地化路線:讓 AI 編程 Agent 可以不完全依賴 OpenAI API、Claude API 或 Gemini API。

ollama launch codex-app 做了什麼?

Ollama 官方文件裡,Codex App 的接入命令很簡單:

1
ollama launch codex-app

如果想指定模型,可以寫成:

1
ollama launch codex-app --model gpt-oss:120b

也可以只生成配置,不馬上啟動:

1
ollama launch codex-app --config

如果想恢復原本的 Codex 配置:

1
ollama launch codex-app --restore

它的價值在於減少手動配置成本。過去要讓一個 AI 編程工具接入本地模型,經常要自己改環境變數、OpenAI-compatible endpoint、config.toml、模型名和 profile。現在 Ollama Launch 把這些步驟包裝成一個更直接的流程。

為什麼本地模型接入 Agent 很重要?

以前本地大模型最常見的用法是聊天:

  • 寫一段文案;
  • 回答一個問題;
  • 解釋一段程式碼;
  • 做簡單補全;
  • 總結文件。

這些都很有用,但還停留在「問答工具」的層面。

AI 編程 Agent 的區別在於,它面對的是一個真實專案。它需要讀目錄、看檔案、理解報錯、修改程式碼、執行命令、檢查結果,再繼續迭代。也就是說,它不是只輸出答案,而是參與執行任務。

當本地模型接入 Codex App、Claude Code、OpenCode、Aider、OpenHands 這類工具時,本地 AI 的角色就變了:

  • 可以掃描專案結構;
  • 可以定位 Bug;
  • 可以改檔案;
  • 可以生成新頁面或小遊戲;
  • 可以解釋和重構程式碼;
  • 可以在開發循環裡反覆執行、驗證、修正。

這也是本地大模型從「能聊」走向「能幹活」的關鍵一步。

本地 Agent 的優勢

1. 成本更可控

大型專案很容易消耗大量 token。一次專案掃描、長上下文分析、多輪修復,放在雲端模型上可能很快累積費用。

本地模型雖然也有成本,比如顯卡、記憶體、電費和時間,但它不會按 token 直接收費。對於大量試錯、個人專案、離線實驗,本地路線更適合慢慢折騰。

2. 可以離線工作

如果模型、工具和依賴都已經在本機準備好,本地 Agent 在很多場景下可以斷網繼續工作。它可以讀本地程式碼、分析專案、修改檔案、生成頁面或腳本。

當然,涉及聯網搜尋、下載依賴、存取線上 API 的任務仍然需要網路。但基礎程式碼分析和本地專案修改,不一定非要依賴雲端模型。

3. 隱私邊界更清楚

很多程式碼庫、內部文件、實驗專案並不適合直接發給雲端模型。把模型放在本地,可以減少程式碼內容離開機器的機會。

這不代表本地路線天然安全。Agent 仍然可能執行命令、改檔案、存取敏感路徑,所以權限、沙箱、Git diff review 仍然很重要。但至少在模型推理層面,本地化給了使用者更多控制權。

模型怎麼選?

Ollama 的官方 ollama launch 文件建議,程式碼類工具最好使用較大的上下文視窗,推薦至少 64K tokens。原因很簡單:AI 編程任務經常需要同時讀專案結構、多個檔案、報錯日誌、需求說明和歷史修改。

本地模型可以從這些方向嘗試:

  • qwen3-coder:偏程式碼任務;
  • gpt-oss:20b:適合本地嘗試;
  • glm-4.7-flash:Ollama 官方推薦的 coding 模型之一;
  • 更大的雲端模型:如果本地硬體不夠,可以用 Ollama cloud 模型換取更完整上下文。

中文場景下,Qwen 系列仍然值得優先嘗試。它在中文理解、程式碼生成、推理和本地生態適配上都比較成熟。

硬體門檻沒有想像中那麼高

很多人一提到 AI Agent,就預設需要 RTX 4090、24GB 顯存、甚至企業級 GPU。

實際情況更靈活。小模型、量化模型、MoE 模型、KV cache 量化和 CPU/GPU 混合 offload 讓 6GB、8GB、12GB 顯存機器也能做不少事情。

當然,低顯存機器不適合追求極致體驗:

  • 速度會慢;
  • 上下文不能太大;
  • 大專案掃描會吃力;
  • 多併發基本不現實;
  • 模型品質和 100B+ 雲端模型仍有差距。

但如果目標是個人專案、腳本修復、簡單前端頁面、小遊戲、程式碼解釋、離線實驗,本地模型已經足夠進入「可用」階段。

也可以用 llama.cpp 接 OpenAI-compatible 介面

除了 Ollama,另一條常見路線是用 llama.cppllama-server 提供本地 OpenAI-compatible API,再讓 AI 編程工具連接到本地連接埠。

一個典型的 llama.cpp 啟動命令類似這樣:

1
2
3
4
5
6
7
8
9
llama-server.exe ^
 -m "models\Qwen3.6-27B-UD-Q5_K_XL.gguf" ^
 -ngl 999 ^
 -c 16384 ^
 -n 2048 ^
 -fa on ^
 --jinja ^
 --host 127.0.0.1 ^
 --port 8080

然後在工具配置裡把模型 provider 指向:

1
2
3
4
[model_providers.llamacpp]
name = "llama.cpp"
base_url = "http://127.0.0.1:8080/v1/"
wire_api = "responses"

這條路線更靈活,但也更折騰。Ollama Launch 的優勢是簡單;llama.cpp 的優勢是可控參數更多,適合想細調顯存、上下文、量化和推理後端的使用者。

使用本地 AI Agent 時要注意什麼?

本地不等於無風險。Agent 能改檔案、跑命令、建立專案,就意味著它也可能誤刪檔案、改錯程式碼、執行不該執行的操作。

建議:

  1. 在 Git 倉庫裡操作,確保隨時能看 diff 和回滾。
  2. 不要給 Agent 過大的系統權限。
  3. 先在測試專案裡試,不要直接丟生產程式碼庫。
  4. 重要檔案修改前後都要人工 review。
  5. 不要把密鑰、帳號、生產環境配置暴露給 Agent。
  6. 本地模型能力有限,複雜架構決策不要完全交給它。

把本地 Agent 當成「會執行任務的助手」,而不是「完全可靠的工程師」,體驗會更健康。

我的理解

Ollama 接入 Codex App 的意義在於,它把本地模型真正接進了 AI 編程工作流。

過去,本地模型更多是一個聊天框;現在,它開始能進入專案、讀程式碼、改檔案、跑任務。這個變化會讓很多普通開發者重新評估手裡的電腦:也許不需要最貴的顯卡,也能先搭起一個低成本、可離線、可控的 AI 編程環境。

雲端模型仍然強,特別是在複雜推理、大上下文、多模態和長任務穩定性上。但本地模型正在補上「執行工具」這一塊。

未來的 AI 編程,很可能不是純雲端或純本地,而是混合形態:

  • 小任務、本地程式碼、隱私專案交給本地模型;
  • 高難推理、大上下文、跨系統任務交給雲端模型;
  • Ollama、Codex App、Claude Code、OpenCode 這類工具負責把兩邊接到同一個工作流裡。

這才是本地 AI Agent 真正值得關注的地方。

參考連結

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計