OpenAI は 2026 年 6 月 26 日に GPT-5.6 系列の限定プレビューを開始した。今回は単一モデルの発表ではなく、新しいモデル階層の導入だ。Sol は旗艦モデル、Terra は日常業務向けのバランス型、Luna は速度とコストを重視する。
OpenAI によると、Terra は GPT-5.5 と競える性能を GPT-5.5 の約半分のコストで提供し、Luna はさらに低価格で強い能力を提供する。今回の中心は Sol で、OpenAI はこれを現時点で最強のモデルとし、これまでで最も堅牢な安全スタックを組み合わせている。
まず限定プレビュー、その後拡大
GPT-5.6 系列は最初から全面公開されない。プレビュー期間中、モデルはまず API と Codex を通じて、一部の信頼できるパートナーや組織に提供される。その後、ChatGPT、Codex、API ユーザーへ速やかに拡大する計画だ。
今回の段階的公開には特別な背景もある。OpenAI は公開前に米国政府とモデル計画や能力について協議した。政府の要請により、OpenAI はまず少数の信頼できるパートナーに開放し、その参加者情報を政府と共有した。一方で OpenAI は、このような政府アクセス手続きが長期的なデフォルトになるべきではないとも強調している。開発者、企業、サイバー防御者、世界のパートナーがモデル能力へアクセスする時期を遅らせるからだ。
現在の GPT-5.6 の状態は次のように整理できる。
- 限定プレビューは開始済み。
- まず API と Codex を通じて一部の信頼できるパートナーに提供。
- ChatGPT、Codex、API ユーザーへのより広い提供は進行中。
- 正式な利用範囲、レート制限、デフォルト入口は後続発表待ち。
Sol、Terra、Luna:新しいモデル階層
OpenAI は GPT-5.6 でより明確な命名方式を導入した。数字はモデル世代を示し、Sol、Terra、Luna は長期的に安定した能力階層を示す。各階層はそれぞれのペースで進化できる。
これは、ひとつのモデル名にバージョン番号を足す方式とは違う。ユーザーにより直接的な選択フレームを与える。
| モデル | 位置づけ | 公開価格 |
|---|---|---|
| GPT-5.6 Sol | 旗艦モデル、最高能力 | 入力 100 万 token あたり 5 ドル、出力 30 ドル |
| GPT-5.6 Terra | 日常業務向けバランス型 | 入力 100 万 token あたり 2.50 ドル、出力 15 ドル |
| GPT-5.6 Luna | 高速・低コスト | 入力 100 万 token あたり 1 ドル、出力 6 ドル |
GPT-5.6 では、より予測しやすいプロンプトキャッシュも導入される。明示的なキャッシュ区切りと、最低 30 分のキャッシュ寿命に対応する。GPT-5.6 以降のモデルでは、キャッシュ書き込みは未キャッシュ入力価格の 1.25 倍、キャッシュ読み取りは引き続きキャッシュ入力 90% 割引となる。
新機能:max 推論強度と ultra モード
Sol の能力向上は、コーディング、生物学、サイバーセキュリティの三方向に集中している。
OpenAI は、GPT-5.6 に新しい max 推論強度を導入し、Sol が深い推論により多くの時間を使えるようにしたという。さらに新しい ultra モードでは、サブ Agent を使って単一 Agent を超える能力を引き出し、複雑なタスクを加速する。
開発者にとって注目すべきなのは、コーディングとツール協調だ。OpenAI は、GPT-5.6 Sol が Terminal-Bench 2.1 で新たな最高水準に達したとしている。この benchmark は、計画、反復、ツール協調が必要なコマンドラインワークフローを対象としており、Codex 系の利用に近い。
生物学では GeneBench v1 が挙げられている。Sol は長期的なゲノミクスや定量生物学分析で、GPT-5.5 より少ない token でより強い結果を出したという。
強いサイバー能力と重い防護
発表では安全にかなりの紙幅が割かれている。OpenAI は、GPT-5.6 Sol が同社で最もサイバーセキュリティ能力の高いモデルであり、脆弱性研究や exploit 関連を含む長期的なセキュリティタスクの性能と効率を高めると述べている。
ただし結論は「攻撃能力をより開放する」ではない。モデルは脆弱性の発見と修正を支援するのが得意であり、エンドツーエンド攻撃を信頼して実行できるわけではない。Chromium と Firefox の評価では、Sol は脆弱性や exploit primitive を識別できたが、テスト条件下で完全に使える攻撃チェーンを自律的に生成しなかった。
OpenAI は、GPT-5.6 Sol が Preparedness Framework のサイバーセキュリティ Critical 閾値を超えていないとも説明している。それでも段階的公開を採用するのは、benchmark がモデルの組み合わせ利用のすべてを覆えないためだ。
階層化された安全スタック
GPT-5.6 の安全機構は単一の拒否ルールではなく、複数の防護層で構成される。
- 禁止されたサイバー支援を拒否する安全行動をモデルに訓練。
- 生成中のリアルタイムなサイバーセキュリティ・生物学悪用分類器。
- 高リスク生成を一時停止し、より大きな推論モデルで審査。
- アカウントレベルのリスクシグナルと関連会話レビュー。
- 差異化アクセス、監視、執行、継続テスト。
この代償として、プレビュー中は正当なユーザーでも誤ブロックや遅延に遭う可能性がある。サイバーセキュリティのようなデュアルユース領域では、防御テストと攻撃活動が初期リクエストでは似て見えることがある。OpenAI は、プレビューの目的のひとつがフィードバックを集め、不要なブロックや遅延を減らすことだとしている。
大規模な自動レッドチーム
OpenAI は自動レッドチームへの大きな投入も明かした。汎用 jailbreak を見つけるために、700,000 A100 相当 GPU 時間以上を使ったという。これは狭いシナリオだけを狙うものではなく、多様なプロンプトやコンテキストにまたがって有効になり得る jailbreak だ。
これは、フロンティアモデルの安全テストが「人間が攻撃例をいくつか探す」段階から、大規模な自動探索と継続評価へ移っていることを示す。OpenAI は第三者専門家によるレッドチームも組み合わせ、新しく見つかった問題を再現、評価、優先順位付け、修正し、今後の評価セットに追加する。
Cerebras 上の高速版
OpenAI は、GPT-5.6 Sol が 7 月に Cerebras に登場し、最大毎秒 750 token に達するとしている。初期アクセスは一部顧客に限定され、容量拡大に応じて広がる。
これは注目に値する。最高能力モデルと高い出力速度が同じ線上に置かれるからだ。コーディング Agent、長文書処理、インタラクティブ分析では、推論速度が製品体験に直結する。
この発表が示すもの
GPT-5.6 Sol の限定プレビューは、OpenAI が同時に三つのことを進めていることを示す。
- Sol、Terra、Luna による明確なモデル階層。
- より強い Agent、コーディング、生物学、サイバーセキュリティ能力を新世代モデルへ投入。
- 高能力モデルに対する慎重な段階的公開と複雑な安全防護。
一般ユーザーは短期的に急いで移行する必要はない。GPT-5.6 はまだ全面公開されていない。開発者や企業が先に見るべきなのは、新価格、プロンプトキャッシュ規則、max 推論強度と ultra モードが Agent ワークフローへ与える影響だ。
OpenAI が計画通り利用範囲を広げるなら、GPT-5.6 系列は GPT-5.5 後の新しい主力ラインになるかもしれない。Sol は最高能力、Terra は日常の費用対効果、Luna はより安く速いワークロードを担当する。この階層化は、単一の「最強モデル名」を追うより実際の製品選定に向いている。
開発者の準備
GPT-5.6 Sol はまだ限定プレビューであり、一般開発者がすぐ使えるとは限らない。それでも移行準備はできる。最も実用的なのは、既存の GPT-5.5 や他モデルで使っている高価値タスクを評価セットにまとめることだ。複雑なコード変更、ツール利用、長コンテキスト分析、構造化出力、拒否境界、コスト敏感なタスクを含めたい。
Sol、Terra、Luna が広く使えるようになっても、Sol だけを試すべきではない。Sol は最高難度タスク向けだが、日常プロダクトで本当に量が出るのは Terra や Luna だ。モデル階層の意味は、すべてのリクエストを旗艦モデルへ投げることではなく、タスクを適切な能力層へ置くことにある。
Codex ユーザーは二点を見るとよい。Sol が複数ファイル変更、テスト失敗修正、リポジトリ理解で安定するか。そして ultra モードと max 推論強度が追加コストに見合うか。高い推論コストは、人間の手戻りを大きく減らす場合にだけ意味がある。
選び方
三つの階層をひとつのパイプラインとして考えるとよい。Luna は分類、クリーニング、軽量要約、高スループット。Terra はデフォルト会話、通常のコーディング、コンテンツ生成。Sol は複雑な Agent、難問、失敗時の再試行。
成熟した接続方式は、設定でひとつのモデルを固定することではない。タスク種別、リスク、コンテキスト長、失敗回数に応じて動的にルーティングすることだ。そうして初めて、新モデルの能力とコスト優位性を同時に得られる。