GPT-5.6 Sol 有限預覽：OpenAI 的新模型分層與安全發布節奏

OpenAI 在 2026 年 6 月 26 日開始 GPT-5.6 系列的有限預覽。這次不是單一模型發布，而是一次新的模型分層：Sol 是旗艦模型，Terra 面向日常工作的均衡模型，Luna 則主打速度和成本。

按 OpenAI 的說法，Terra 的性能可與 GPT-5.5 競爭，成本約為 GPT-5.5 的一半；Luna 則以更低價格提供較強能力。Sol 是這次預覽的重點，OpenAI 稱它是目前最強模型，並配套了迄今最穩健的安全棧。

先有限預覽，再逐步擴大

GPT-5.6 系列不會一開始就全面開放。OpenAI 表示，預覽期內模型最初會透過 API 和 Codex，面向部分可信合作夥伴與組織開放。之後計畫很快擴大到 ChatGPT、Codex 和 API 使用者。

這次分階段發布還有一個特殊背景：OpenAI 在發布前與美國政府溝通了模型計畫和能力。應政府要求，OpenAI 先向一小部分可信合作夥伴開放，並向政府共享這些參與方資訊。OpenAI 同時強調，這種政府訪問流程不應成為長期預設做法，因為它會推遲開發者、企業、網路防禦者和全球合作夥伴取得模型能力。

所以，GPT-5.6 的目前狀態可以概括為：

OpenAI 在 GPT-5.6 中引入了更清楚的命名方式。數字代表模型代際，Sol、Terra、Luna 代表長期穩定的能力層級，並且這些層級可以按各自節奏演進。

這和只用一個模型名再加版本號的方式不同。它給使用者一個更直接的選擇框架：

GPT-5.6 還引入更可預測的提示快取：支援顯式快取斷點，以及 30 分鐘最低快取生命週期。對 GPT-5.6 及後續模型，快取寫入按未快取輸入價格的 1.25 倍計費，快取讀取繼續享受快取輸入 90% 折扣。

Sol 的能力提升集中在三個方向：編碼、生物學和網路安全。

OpenAI 表示，GPT-5.6 引入新的 max 推理強度，讓 Sol 有更多時間做深度推理。除此之外，還有新的 ultra 模式，透過子智能體超越單一智能體能力，用於加速複雜任務。

對開發者來說，最值得注意的是編碼和工具協作能力。OpenAI 稱 GPT-5.6 Sol 在 Terminal-Bench 2.1 上達到新的最佳水平。這個基準關注命令列工作流，需要規劃、迭代和工具協調，和 Codex 類產品的使用方式比較接近。

在生物學方向，OpenAI 提到 GeneBench v1。Sol 在長週期基因組學和定量生物學分析中，相比 GPT-5.5 使用更少 token，但取得更強結果。

這篇公告裡安全部分寫得很重。OpenAI 明確表示，GPT-5.6 Sol 是目前網路安全能力最強的模型，能推動長週期安全任務的性能和效率，包括漏洞研究和漏洞利用相關任務。

但 OpenAI 的結論不是「開放更多攻擊能力」，而是強調模型更擅長幫助使用者發現和修復漏洞，並不可靠執行端到端攻擊。在涉及 Chromium 和 Firefox 的評估中，Sol 能識別漏洞和漏洞利用原語，但在測試條件下沒有自主生成完整可用的攻擊鏈。

OpenAI 也稱，GPT-5.6 Sol 沒有跨越其 Preparedness Framework 中的網路安全 Critical 閾值。即便如此，OpenAI 仍採用分階段發布，因為 benchmark 無法覆蓋模型被組合使用的所有方式。

GPT-5.6 的安全機制不是單一拒答規則，而是一組分層防護：

這套機制的代價是：預覽期內，合法使用者可能遇到誤攔截或延遲。尤其在網路安全這種雙重用途領域，防禦性測試和攻擊性活動在早期請求裡可能看起來相似。OpenAI 表示，預覽期的目標之一就是收集回饋，減少不必要的阻止和延遲。

OpenAI 還披露了自動化紅隊測試投入：超過 700,000 個 A100 等效 GPU 小時，用於發現通用越獄。這類越獄不是只針對某個狹窄場景，而是可能跨多種提示和上下文生效。

這說明前沿模型的安全測試正在從「人工找幾個攻擊樣例」，變成更大規模的自動化搜尋和持續評估。OpenAI 還會結合第三方專家紅隊測試，並把新發現的問題複現、評估、排序、修復，再加入後續評估集。

OpenAI 還提到，GPT-5.6 Sol 將在 7 月登陸 Cerebras，最高速度可達每秒 750 token。初期訪問會限制在部分客戶，後續隨容量擴大。

這個資訊值得關注，因為它把「最高能力模型」和「高輸出速度」放到同一條線上。對編碼 Agent、長文檔處理、互動式分析這類場景，推理速度往往直接影響產品體驗。

GPT-5.6 Sol 的有限預覽說明，OpenAI 正在同時推進三件事：

對普通使用者來說，短期內還不用急著遷移，因為 GPT-5.6 尚未全面開放。對開發者和企業來說，值得提前關注的是三項變化：新的模型價格、提示快取規則，以及 max 推理強度和 ultra 模式對 Agent 工作流的影響。

如果 OpenAI 後續按計畫擴大可用範圍，GPT-5.6 系列可能會成為 GPT-5.5 之後新的主力模型線。Sol 負責最高能力，Terra 負責日常高性價比，Luna 負責更便宜、更快的工作負載。這種分層，比單純追逐一個「最強模型名」更適合實際產品選型。

GPT-5.6 Sol 仍處於有限預覽，普通開發者短期內不一定能直接使用。但這不妨礙提前做遷移準備。最實用的做法，是把現有 GPT-5.5 或其他模型的高價值任務整理成評測集：複雜程式碼修改、工具調用、長上下文分析、結構化輸出、拒答邊界和成本敏感任務都要覆蓋。

等 Sol、Terra、Luna 更廣泛開放後，不要只測 Sol。Sol 適合最高難度任務，但日常產品裡真正跑量的通常是 Terra 或 Luna。模型分層的意義，就是把任務放到合適的能力檔，而不是所有請求都打到旗艦模型。

對於 Codex 使用者，可以重點觀察兩件事：一是 Sol 在多檔修改、測試失敗修復、倉庫理解上的穩定性；二是 ultra 模式和 max 推理強度是否真的值得額外成本。只有當它顯著減少人工返工時，高推理成本才有意義。

可以把三檔模型想成一條流水線：Luna 負責分類、清洗、輕量摘要和高吞吐；Terra 負責預設對話、普通編碼和內容生成；Sol 負責複雜 Agent、難題攻關和失敗重試。

真正成熟的接入方式不是在配置裡寫死一個模型，而是按任務類型、風險等級、上下文長度和失敗次數動態路由。這樣才能同時吃到新模型能力和成本優勢。