Ollama 最近把本地大模型和 AI 編程工具之間的距離又拉近了一步:透過 ollama launch codex-app,使用者可以把 Codex App 接到 Ollama 管理的本地或雲端模型上。
這件事的意義不只是「換一個模型後端」。它更像是把本地大模型從聊天視窗推到開發工作流裡:模型不再只是回答問題,而是可以進入程式碼專案、理解檔案結構、輔助修改程式碼、執行任務,成為 AI 編程 Agent 的一部分。
先釐清:這不是 OpenAI 全功能永久免費
網上很多說法會把這件事概括成「Codex 免費了」。這個說法容易誤解。
更準確的理解是:
- Codex App 是 OpenAI 的 AI 編程工具;
- Ollama Launch 可以幫助 Codex App 使用 Ollama 模型;
- 模型可以是本地模型,也可以是 Ollama 的雲端模型;
- 如果使用本地模型,推理成本主要變成自己的硬體、電費和時間,而不是按 API token 計費;
- Codex App、OpenAI 帳號權益、不同模型可用性和官方限制,仍然要以 OpenAI 與 Ollama 的當前規則為準。
所以它不是「所有 Codex 能力都永久免費」,而是多了一條本地化路線:讓 AI 編程 Agent 可以不完全依賴 OpenAI API、Claude API 或 Gemini API。
ollama launch codex-app 做了什麼?
Ollama 官方文件裡,Codex App 的接入命令很簡單:
|
|
如果想指定模型,可以寫成:
|
|
也可以只生成配置,不馬上啟動:
|
|
如果想恢復原本的 Codex 配置:
|
|
它的價值在於減少手動配置成本。過去要讓一個 AI 編程工具接入本地模型,經常要自己改環境變數、OpenAI-compatible endpoint、config.toml、模型名和 profile。現在 Ollama Launch 把這些步驟包裝成一個更直接的流程。
為什麼本地模型接入 Agent 很重要?
以前本地大模型最常見的用法是聊天:
- 寫一段文案;
- 回答一個問題;
- 解釋一段程式碼;
- 做簡單補全;
- 總結文件。
這些都很有用,但還停留在「問答工具」的層面。
AI 編程 Agent 的區別在於,它面對的是一個真實專案。它需要讀目錄、看檔案、理解報錯、修改程式碼、執行命令、檢查結果,再繼續迭代。也就是說,它不是只輸出答案,而是參與執行任務。
當本地模型接入 Codex App、Claude Code、OpenCode、Aider、OpenHands 這類工具時,本地 AI 的角色就變了:
- 可以掃描專案結構;
- 可以定位 Bug;
- 可以改檔案;
- 可以生成新頁面或小遊戲;
- 可以解釋和重構程式碼;
- 可以在開發循環裡反覆執行、驗證、修正。
這也是本地大模型從「能聊」走向「能幹活」的關鍵一步。
本地 Agent 的優勢
1. 成本更可控
大型專案很容易消耗大量 token。一次專案掃描、長上下文分析、多輪修復,放在雲端模型上可能很快累積費用。
本地模型雖然也有成本,比如顯卡、記憶體、電費和時間,但它不會按 token 直接收費。對於大量試錯、個人專案、離線實驗,本地路線更適合慢慢折騰。
2. 可以離線工作
如果模型、工具和依賴都已經在本機準備好,本地 Agent 在很多場景下可以斷網繼續工作。它可以讀本地程式碼、分析專案、修改檔案、生成頁面或腳本。
當然,涉及聯網搜尋、下載依賴、存取線上 API 的任務仍然需要網路。但基礎程式碼分析和本地專案修改,不一定非要依賴雲端模型。
3. 隱私邊界更清楚
很多程式碼庫、內部文件、實驗專案並不適合直接發給雲端模型。把模型放在本地,可以減少程式碼內容離開機器的機會。
這不代表本地路線天然安全。Agent 仍然可能執行命令、改檔案、存取敏感路徑,所以權限、沙箱、Git diff review 仍然很重要。但至少在模型推理層面,本地化給了使用者更多控制權。
模型怎麼選?
Ollama 的官方 ollama launch 文件建議,程式碼類工具最好使用較大的上下文視窗,推薦至少 64K tokens。原因很簡單:AI 編程任務經常需要同時讀專案結構、多個檔案、報錯日誌、需求說明和歷史修改。
本地模型可以從這些方向嘗試:
qwen3-coder:偏程式碼任務;gpt-oss:20b:適合本地嘗試;glm-4.7-flash:Ollama 官方推薦的 coding 模型之一;- 更大的雲端模型:如果本地硬體不夠,可以用 Ollama cloud 模型換取更完整上下文。
中文場景下,Qwen 系列仍然值得優先嘗試。它在中文理解、程式碼生成、推理和本地生態適配上都比較成熟。
硬體門檻沒有想像中那麼高
很多人一提到 AI Agent,就預設需要 RTX 4090、24GB 顯存、甚至企業級 GPU。
實際情況更靈活。小模型、量化模型、MoE 模型、KV cache 量化和 CPU/GPU 混合 offload 讓 6GB、8GB、12GB 顯存機器也能做不少事情。
當然,低顯存機器不適合追求極致體驗:
- 速度會慢;
- 上下文不能太大;
- 大專案掃描會吃力;
- 多併發基本不現實;
- 模型品質和 100B+ 雲端模型仍有差距。
但如果目標是個人專案、腳本修復、簡單前端頁面、小遊戲、程式碼解釋、離線實驗,本地模型已經足夠進入「可用」階段。
也可以用 llama.cpp 接 OpenAI-compatible 介面
除了 Ollama,另一條常見路線是用 llama.cpp 的 llama-server 提供本地 OpenAI-compatible API,再讓 AI 編程工具連接到本地連接埠。
一個典型的 llama.cpp 啟動命令類似這樣:
|
|
然後在工具配置裡把模型 provider 指向:
|
|
這條路線更靈活,但也更折騰。Ollama Launch 的優勢是簡單;llama.cpp 的優勢是可控參數更多,適合想細調顯存、上下文、量化和推理後端的使用者。
使用本地 AI Agent 時要注意什麼?
本地不等於無風險。Agent 能改檔案、跑命令、建立專案,就意味著它也可能誤刪檔案、改錯程式碼、執行不該執行的操作。
建議:
- 在 Git 倉庫裡操作,確保隨時能看 diff 和回滾。
- 不要給 Agent 過大的系統權限。
- 先在測試專案裡試,不要直接丟生產程式碼庫。
- 重要檔案修改前後都要人工 review。
- 不要把密鑰、帳號、生產環境配置暴露給 Agent。
- 本地模型能力有限,複雜架構決策不要完全交給它。
把本地 Agent 當成「會執行任務的助手」,而不是「完全可靠的工程師」,體驗會更健康。
我的理解
Ollama 接入 Codex App 的意義在於,它把本地模型真正接進了 AI 編程工作流。
過去,本地模型更多是一個聊天框;現在,它開始能進入專案、讀程式碼、改檔案、跑任務。這個變化會讓很多普通開發者重新評估手裡的電腦:也許不需要最貴的顯卡,也能先搭起一個低成本、可離線、可控的 AI 編程環境。
雲端模型仍然強,特別是在複雜推理、大上下文、多模態和長任務穩定性上。但本地模型正在補上「執行工具」這一塊。
未來的 AI 編程,很可能不是純雲端或純本地,而是混合形態:
- 小任務、本地程式碼、隱私專案交給本地模型;
- 高難推理、大上下文、跨系統任務交給雲端模型;
- Ollama、Codex App、Claude Code、OpenCode 這類工具負責把兩邊接到同一個工作流裡。
這才是本地 AI Agent 真正值得關注的地方。