OpenAI 在 2026 年 6 月 26 日開始 GPT-5.6 系列的有限預覽。這次不是單一模型發布,而是一次新的模型分層:Sol 是旗艦模型,Terra 面向日常工作的均衡模型,Luna 則主打速度和成本。
按 OpenAI 的說法,Terra 的性能可與 GPT-5.5 競爭,成本約為 GPT-5.5 的一半;Luna 則以更低價格提供較強能力。Sol 是這次預覽的重點,OpenAI 稱它是目前最強模型,並配套了迄今最穩健的安全棧。
先有限預覽,再逐步擴大
GPT-5.6 系列不會一開始就全面開放。OpenAI 表示,預覽期內模型最初會透過 API 和 Codex,面向部分可信合作夥伴與組織開放。之後計畫很快擴大到 ChatGPT、Codex 和 API 使用者。
這次分階段發布還有一個特殊背景:OpenAI 在發布前與美國政府溝通了模型計畫和能力。應政府要求,OpenAI 先向一小部分可信合作夥伴開放,並向政府共享這些參與方資訊。OpenAI 同時強調,這種政府訪問流程不應成為長期預設做法,因為它會推遲開發者、企業、網路防禦者和全球合作夥伴取得模型能力。
所以,GPT-5.6 的目前狀態可以概括為:
- 已發布有限預覽。
- 先透過 API 和 Codex 面向部分可信合作夥伴開放。
- ChatGPT、Codex 和 API 的更廣泛開放仍在推進中。
- 正式可用範圍、速率限制和預設入口還需要等後續公告。
Sol、Terra、Luna:新的模型層級
OpenAI 在 GPT-5.6 中引入了更清楚的命名方式。數字代表模型代際,Sol、Terra、Luna 代表長期穩定的能力層級,並且這些層級可以按各自節奏演進。
這和只用一個模型名再加版本號的方式不同。它給使用者一個更直接的選擇框架:
| 模型 | 定位 | 官方公布價格 |
|---|---|---|
| GPT-5.6 Sol | 旗艦模型,最高能力 | 輸入 5 美元 / 百萬 token,輸出 30 美元 / 百萬 token |
| GPT-5.6 Terra | 日常工作均衡模型 | 輸入 2.50 美元 / 百萬 token,輸出 15 美元 / 百萬 token |
| GPT-5.6 Luna | 快速、低成本模型 | 輸入 1 美元 / 百萬 token,輸出 6 美元 / 百萬 token |
GPT-5.6 還引入更可預測的提示快取:支援顯式快取斷點,以及 30 分鐘最低快取生命週期。對 GPT-5.6 及後續模型,快取寫入按未快取輸入價格的 1.25 倍計費,快取讀取繼續享受快取輸入 90% 折扣。
新能力:max 推理強度和 ultra 模式
Sol 的能力提升集中在三個方向:編碼、生物學和網路安全。
OpenAI 表示,GPT-5.6 引入新的 max 推理強度,讓 Sol 有更多時間做深度推理。除此之外,還有新的 ultra 模式,透過子智能體超越單一智能體能力,用於加速複雜任務。
對開發者來說,最值得注意的是編碼和工具協作能力。OpenAI 稱 GPT-5.6 Sol 在 Terminal-Bench 2.1 上達到新的最佳水平。這個基準關注命令列工作流,需要規劃、迭代和工具協調,和 Codex 類產品的使用方式比較接近。
在生物學方向,OpenAI 提到 GeneBench v1。Sol 在長週期基因組學和定量生物學分析中,相比 GPT-5.5 使用更少 token,但取得更強結果。
網路安全能力變強,也帶來更重防護
這篇公告裡安全部分寫得很重。OpenAI 明確表示,GPT-5.6 Sol 是目前網路安全能力最強的模型,能推動長週期安全任務的性能和效率,包括漏洞研究和漏洞利用相關任務。
但 OpenAI 的結論不是「開放更多攻擊能力」,而是強調模型更擅長幫助使用者發現和修復漏洞,並不可靠執行端到端攻擊。在涉及 Chromium 和 Firefox 的評估中,Sol 能識別漏洞和漏洞利用原語,但在測試條件下沒有自主生成完整可用的攻擊鏈。
OpenAI 也稱,GPT-5.6 Sol 沒有跨越其 Preparedness Framework 中的網路安全 Critical 閾值。即便如此,OpenAI 仍採用分階段發布,因為 benchmark 無法覆蓋模型被組合使用的所有方式。
分層防護棧如何工作
GPT-5.6 的安全機制不是單一拒答規則,而是一組分層防護:
- 訓練進模型的安全行為,拒絕被禁止的網路安全協助。
- 生成過程中的即時網路安全和生物學濫用分類器。
- 對高風險生成進行暫停,並交給更大的推理模型審查。
- 帳號級風險訊號和相關對話審查。
- 差異化訪問、監測、執行和持續測試。
這套機制的代價是:預覽期內,合法使用者可能遇到誤攔截或延遲。尤其在網路安全這種雙重用途領域,防禦性測試和攻擊性活動在早期請求裡可能看起來相似。OpenAI 表示,預覽期的目標之一就是收集回饋,減少不必要的阻止和延遲。
自動化紅隊測試投入很大
OpenAI 還披露了自動化紅隊測試投入:超過 700,000 個 A100 等效 GPU 小時,用於發現通用越獄。這類越獄不是只針對某個狹窄場景,而是可能跨多種提示和上下文生效。
這說明前沿模型的安全測試正在從「人工找幾個攻擊樣例」,變成更大規模的自動化搜尋和持續評估。OpenAI 還會結合第三方專家紅隊測試,並把新發現的問題複現、評估、排序、修復,再加入後續評估集。
Cerebras 上的高速版本
OpenAI 還提到,GPT-5.6 Sol 將在 7 月登陸 Cerebras,最高速度可達每秒 750 token。初期訪問會限制在部分客戶,後續隨容量擴大。
這個資訊值得關注,因為它把「最高能力模型」和「高輸出速度」放到同一條線上。對編碼 Agent、長文檔處理、互動式分析這類場景,推理速度往往直接影響產品體驗。
這次發布釋放了什麼信號
GPT-5.6 Sol 的有限預覽說明,OpenAI 正在同時推進三件事:
- 用 Sol、Terra、Luna 建立更清楚的模型層級。
- 把更強的 Agent、編碼、生物學和網路安全能力放進新一代模型。
- 對高能力模型採用更謹慎的分階段發布和更複雜的安全防護。
對普通使用者來說,短期內還不用急著遷移,因為 GPT-5.6 尚未全面開放。對開發者和企業來說,值得提前關注的是三項變化:新的模型價格、提示快取規則,以及 max 推理強度和 ultra 模式對 Agent 工作流的影響。
如果 OpenAI 後續按計畫擴大可用範圍,GPT-5.6 系列可能會成為 GPT-5.5 之後新的主力模型線。Sol 負責最高能力,Terra 負責日常高性價比,Luna 負責更便宜、更快的工作負載。這種分層,比單純追逐一個「最強模型名」更適合實際產品選型。
開發者該怎麼準備
GPT-5.6 Sol 仍處於有限預覽,普通開發者短期內不一定能直接使用。但這不妨礙提前做遷移準備。最實用的做法,是把現有 GPT-5.5 或其他模型的高價值任務整理成評測集:複雜程式碼修改、工具調用、長上下文分析、結構化輸出、拒答邊界和成本敏感任務都要覆蓋。
等 Sol、Terra、Luna 更廣泛開放後,不要只測 Sol。Sol 適合最高難度任務,但日常產品裡真正跑量的通常是 Terra 或 Luna。模型分層的意義,就是把任務放到合適的能力檔,而不是所有請求都打到旗艦模型。
對於 Codex 使用者,可以重點觀察兩件事:一是 Sol 在多檔修改、測試失敗修復、倉庫理解上的穩定性;二是 ultra 模式和 max 推理強度是否真的值得額外成本。只有當它顯著減少人工返工時,高推理成本才有意義。
選型思路
可以把三檔模型想成一條流水線:Luna 負責分類、清洗、輕量摘要和高吞吐;Terra 負責預設對話、普通編碼和內容生成;Sol 負責複雜 Agent、難題攻關和失敗重試。
真正成熟的接入方式不是在配置裡寫死一個模型,而是按任務類型、風險等級、上下文長度和失敗次數動態路由。這樣才能同時吃到新模型能力和成本優勢。