Ollama は、ローカル LLM と AI コーディングツールの距離をさらに縮めました。ollama launch codex-app により、Codex App を Ollama が管理するローカルまたはクラウドモデルへ接続できます。
これは単に「モデルバックエンドを変える」だけではありません。ローカル LLM をチャット画面から開発ワークフローへ押し出す動きです。モデルは質問に答えるだけでなく、コードプロジェクトに入り、ファイル構造を理解し、コード修正を支援し、タスクを実行し、AI コーディング Agent の一部になります。
まず確認:OpenAI の全機能が永久無料になったわけではない
ネット上では、この話を「Codex が無料になった」とまとめる言い方もあります。しかし、それは誤解を招きやすい表現です。
より正確には次のように理解できます。
- Codex App は OpenAI の AI コーディングツール;
- Ollama Launch は Codex App が Ollama モデルを使うための設定を支援する;
- モデルはローカルモデルでも Ollama のクラウドモデルでもよい;
- ローカルモデルを使う場合、推論コストは API token 課金ではなく、自分のハードウェア、電気代、時間になる;
- Codex App、OpenAI アカウント権限、モデル利用可否、公式制限は、引き続き OpenAI と Ollama の現在のルールに従う。
つまり「Codex の全能力が永久無料」という話ではなく、AI コーディング Agent が OpenAI API、Claude API、Gemini API に完全依存しないためのローカルルートが増えた、ということです。
ollama launch codex-app は何をするのか
Ollama の公式ドキュメントでは、Codex App 連携のコマンドはシンプルです。
|
|
モデルを指定したい場合は次のように書けます。
|
|
すぐ起動せず、設定だけ生成することもできます。
|
|
元の Codex 設定に戻したい場合:
|
|
価値は、手動設定の手間を減らすことです。これまでは AI コーディングツールをローカルモデルへ接続するために、環境変数、OpenAI-compatible endpoint、config.toml、モデル名、profile を自分で編集することがよくありました。Ollama Launch はその手順をより直接的な流れにまとめています。
なぜローカルモデルの Agent 接続が重要なのか
以前のローカル LLM の主な用途はチャットでした。
- 短い文章を書く;
- 質問に答える;
- コード片を説明する;
- 簡単な補完をする;
- ドキュメントを要約する。
これらは有用ですが、まだ「質問応答ツール」の段階です。
AI コーディング Agent の違いは、実際のプロジェクトを相手にすることです。ディレクトリを読み、ファイルを確認し、エラーを理解し、コードを修正し、コマンドを実行し、結果を検査して、さらに反復します。つまり、答えを出すだけではなく、タスク実行に参加します。
ローカルモデルが Codex App、Claude Code、OpenCode、Aider、OpenHands のようなツールへ接続されると、ローカル AI の役割は変わります。
- プロジェクト構造をスキャンできる;
- Bug を特定できる;
- ファイルを変更できる;
- 新しいページや小さなゲームを生成できる;
- コードを説明しリファクタリングできる;
- 開発ループの中で実行、検証、修正を繰り返せる。
これは、ローカル LLM が「会話できる」状態から「作業できる」状態へ進む重要な一歩です。
ローカル Agent の利点
1. コストを制御しやすい
大規模プロジェクトは大量の token を消費しがちです。プロジェクト全体のスキャン、長いコンテキスト分析、複数回の修正ループをクラウドモデルで行うと、費用がすぐ積み上がることがあります。
ローカルモデルにも GPU、メモリ、電気代、時間といったコストはあります。しかし token 単位で直接課金されません。大量の試行錯誤、個人プロジェクト、オフライン実験には、ローカルルートの方がじっくり試しやすいです。
2. オフラインでも作業できる
モデル、ツール、依存関係がすでにローカルに準備されていれば、ローカル Agent は多くの場面でネットワークなしでも作業を続けられます。ローカルコードを読み、プロジェクトを分析し、ファイルを変更し、ページやスクリプトを生成できます。
もちろん、Web 検索、依存関係のダウンロード、オンライン API へのアクセスが必要なタスクにはネットワークが必要です。それでも、基本的なコード分析やローカルプロジェクト修正は、必ずしもクラウドモデルに依存しません。
3. プライバシー境界が明確になる
多くのコードベース、社内文書、実験プロジェクトは、そのままクラウドモデルへ送るのに向いていません。モデルをローカルに置けば、コード内容がマシン外へ出る機会を減らせます。
ただし、ローカルだから自動的に安全というわけではありません。Agent はコマンド実行、ファイル編集、機密パスへのアクセスを行う可能性があるため、権限、サンドボックス、Git diff review は引き続き重要です。それでもモデル推論レイヤーでは、ローカル化によりユーザーの制御は増えます。
どのモデルを選ぶべきか
Ollama の公式 ollama launch ドキュメントでは、コード系ツールには大きめのコンテキストウィンドウ、少なくとも 64K tokens が推奨されています。AI コーディングタスクでは、プロジェクト構造、複数ファイル、エラーログ、要求仕様、過去の変更を同時に読む必要があるからです。
ローカルモデルでは次の方向を試せます。
qwen3-coder:コードタスク寄り;gpt-oss:20b:ローカル実験向け;glm-4.7-flash:Ollama が推奨する coding モデルの一つ;- より大きなクラウドモデル:ローカルハードウェアが足りない場合、Ollama cloud モデルでより完全なコンテキストを得る。
中国語シナリオでは、Qwen 系列は引き続き優先的に試す価値があります。中国語理解、コード生成、推論、ローカルエコシステム対応が比較的成熟しています。
ハードウェア要件は思ったほど高くない
AI Agent と聞くと、RTX 4090、24GB VRAM、あるいは企業向け GPU が必要だと考える人も多いです。
実際はもっと柔軟です。小型モデル、量子化モデル、MoE モデル、KV cache 量子化、CPU/GPU mixed offload により、6GB、8GB、12GB VRAM のマシンでもかなりのことができます。
もちろん、低 VRAM マシンで最高の体験は期待しにくいです。
- 速度は遅くなる;
- コンテキストは大きくできない;
- 大規模プロジェクトのスキャンは重い;
- 複数同時実行は現実的でない;
- モデル品質は 100B+ クラウドモデルにはまだ及ばない。
それでも、個人プロジェクト、スクリプト修正、簡単なフロントエンドページ、小さなゲーム、コード説明、オフライン実験が目的なら、ローカルモデルはすでに「使える」段階に入っています。
llama.cpp で OpenAI-compatible API に接続する方法もある
Ollama 以外にも、llama.cpp の llama-server でローカル OpenAI-compatible API を提供し、AI コーディングツールをローカルポートへ接続する方法があります。
典型的な llama.cpp 起動コマンドは次のような形です。
|
|
そしてツール設定で model provider を次のように指定します。
|
|
このルートはより柔軟ですが、設定はやや複雑です。Ollama Launch の利点は簡単さ、llama.cpp の利点は VRAM、コンテキスト、量子化、推論バックエンドを細かく制御できることです。
ローカル AI Agent 利用時の注意点
ローカルだからリスクがないわけではありません。Agent がファイルを変更し、コマンドを実行し、プロジェクトを作成できるなら、誤ってファイルを消したり、間違ったコードを変更したり、不適切なコマンドを実行したりする可能性もあります。
推奨事項:
- Git リポジトリ内で作業し、いつでも diff を確認して戻せるようにする。
- Agent に過大なシステム権限を与えない。
- まずテストプロジェクトで試し、本番コードベースへ直接投入しない。
- 重要なファイル変更は必ず人間が review する。
- 鍵、アカウント、本番環境設定を Agent に見せない。
- ローカルモデルには限界があるため、複雑なアーキテクチャ判断を完全に任せない。
ローカル Agent は「タスクを実行できる助手」として扱い、「完全に信頼できるエンジニア」とは見なさない方が健全です。
私の理解
Ollama が Codex App に接続する意味は、ローカルモデルを本当に AI コーディングワークフローへ入れることです。
以前のローカルモデルは、多くの場合チャットボックスでした。今はプロジェクトに入り、コードを読み、ファイルを変更し、タスクを実行し始めています。この変化は、多くの一般開発者に手元の PC を見直させるはずです。最も高価な GPU がなくても、低コストでオフライン可能、かつ制御しやすい AI コーディング環境を作れるかもしれません。
クラウドモデルは今も強力です。特に複雑な推論、大きなコンテキスト、マルチモーダル、長時間タスクの安定性では優位があります。しかしローカルモデルは「実行ツール」としての部分を埋め始めています。
今後の AI コーディングは、純クラウドでも純ローカルでもなく、ハイブリッドになる可能性が高いです。
- 小さなタスク、ローカルコード、プライベートプロジェクトはローカルモデルへ;
- 難しい推論、大きなコンテキスト、複数システムにまたがるタスクはクラウドモデルへ;
- Ollama、Codex App、Claude Code、OpenCode のようなツールが両方を一つのワークフローへ接続する。
これこそ、ローカル AI Agent が本当に注目に値する理由です。