GPT-5.6 Sol 有限预览：OpenAI 的新模型分层和安全发布节奏

OpenAI 在 2026 年 6 月 26 日开始 GPT-5.6 系列的有限预览。这次不是单个模型发布，而是一次新的模型分层：Sol 是旗舰模型，Terra 面向日常工作的均衡模型，Luna 则主打速度和成本。

按 OpenAI 的说法，Terra 的性能可与 GPT-5.5 竞争，成本约为 GPT-5.5 的一半；Luna 则以更低价格提供较强能力。Sol 是这次预览的重点，OpenAI 称它是目前最强模型，并配套了迄今最稳健的安全栈。

先有限预览，再逐步扩大

GPT-5.6 系列不会一开始就全面开放。OpenAI 表示，预览期内模型最初会通过 API 和 Codex，面向部分可信合作伙伴与组织开放。之后计划很快扩大到 ChatGPT、Codex 和 API 用户。

这次分阶段发布还有一个特殊背景：OpenAI 在发布前与美国政府沟通了模型计划和能力。应政府要求，OpenAI 先向一小部分可信合作伙伴开放，并向政府共享这些参与方信息。OpenAI 同时强调，这种政府访问流程不应成为长期默认做法，因为它会推迟开发者、企业、网络防御者和全球合作伙伴获得模型能力。

所以，GPT-5.6 的当前状态可以概括为：

OpenAI 在 GPT-5.6 中引入了更清晰的命名方式。数字代表模型代际，Sol、Terra、Luna 代表长期稳定的能力层级，并且这些层级可以按各自节奏演进。

这和只用一个模型名再加版本号的方式不同。它给用户一个更直接的选择框架：

GPT-5.6 还引入更可预测的提示缓存：支持显式缓存断点，以及 30 分钟最低缓存生命周期。对 GPT-5.6 及后续模型，缓存写入按未缓存输入价格的 1.25 倍计费，缓存读取继续享受缓存输入 90% 折扣。

Sol 的能力提升集中在三个方向：编码、生物学和网络安全。

OpenAI 表示，GPT-5.6 引入新的 max 推理强度，让 Sol 获得更多时间做深度推理。除此之外，还有新的 ultra 模式，通过子智能体来超越单一智能体的能力，用于加速复杂任务。

对开发者来说，最值得注意的是编码和工具协作能力。OpenAI 称 GPT-5.6 Sol 在 Terminal-Bench 2.1 上达到新的最佳水平。这个基准关注命令行工作流，需要规划、迭代和工具协调，和 Codex 类产品的使用方式比较接近。

在生物学方向，OpenAI 提到 GeneBench v1。Sol 在长周期基因组学和定量生物学分析中，相比 GPT-5.5 使用更少 token，但取得更强结果。

这篇公告里安全部分写得很重。OpenAI 明确表示，GPT-5.6 Sol 是目前网络安全能力最强的模型，能推动长周期安全任务的性能和效率，包括漏洞研究和漏洞利用相关任务。

但 OpenAI 的结论不是“开放更多攻击能力”，而是强调模型更擅长帮助用户发现和修复漏洞，并不可靠执行端到端攻击。在涉及 Chromium 和 Firefox 的评估中，Sol 能识别漏洞和漏洞利用原语，但在测试条件下没有自主生成完整可用的攻击链。

OpenAI 也称，GPT-5.6 Sol 没有跨越其 Preparedness Framework 中的网络安全 Critical 阈值。即便如此，OpenAI 仍采用分阶段发布，因为 benchmark 无法覆盖模型被组合使用的所有方式。

GPT-5.6 的安全机制不是单一拒答规则，而是一组分层防护：

这套机制的代价是：预览期内，合法用户可能遇到误拦截或延迟。尤其在网络安全这种双重用途领域，防御性测试和攻击性活动在早期请求里可能看起来相似。OpenAI 表示，预览期的目标之一就是收集反馈，减少不必要的阻止和延迟。

OpenAI 还披露了自动化红队测试投入：超过 700,000 个 A100 等效 GPU 小时，用于发现通用越狱。这类越狱不是只针对某个狭窄场景，而是可能跨多种提示和上下文生效。

这说明前沿模型的安全测试正在从“人工找几个攻击样例”，变成更大规模的自动化搜索和持续评估。OpenAI 还会结合第三方专家红队测试，并把新发现的问题复现、评估、排序、修复，再加入后续评估集。

OpenAI 还提到，GPT-5.6 Sol 将在 7 月登陆 Cerebras，最高速度可达每秒 750 token。初期访问会限制在部分客户，后续随容量扩大。

这个信息值得关注，因为它把“最高能力模型”和“高输出速度”放到同一条线上。对编码 Agent、长文档处理、交互式分析这类场景，推理速度往往直接影响产品体验。

GPT-5.6 Sol 的有限预览说明，OpenAI 正在同时推进三件事：

对普通用户来说，短期内还不用急着迁移，因为 GPT-5.6 尚未全面开放。对开发者和企业来说，值得提前关注的是三项变化：新的模型价格、提示缓存规则，以及 max 推理强度和 ultra 模式对 Agent 工作流的影响。

如果 OpenAI 后续按计划扩大可用范围，GPT-5.6 系列可能会成为 GPT-5.5 之后新的主力模型线。Sol 负责最高能力，Terra 负责日常高性价比，Luna 负责更便宜、更快的工作负载。这种分层，比单纯追逐一个“最强模型名”更适合实际产品选型。

GPT-5.6 Sol 仍处于有限预览，普通开发者短期内不一定能直接使用。但这不妨碍提前做迁移准备。最实用的做法，是把现有 GPT-5.5 或其他模型的高价值任务整理成评测集：复杂代码修改、工具调用、长上下文分析、结构化输出、拒答边界和成本敏感任务都要覆盖。

等 Sol、Terra、Luna 更广泛开放后，不要只测 Sol。Sol 适合最高难度任务，但日常产品里真正跑量的通常是 Terra 或 Luna。模型分层的意义，就是把任务放到合适的能力档，而不是所有请求都打到旗舰模型。

对于 Codex 用户，可以重点观察两件事：一是 Sol 在多文件修改、测试失败修复、仓库理解上的稳定性；二是 ultra 模式和 max 推理强度是否真的值得额外成本。只有当它显著减少人工返工时，高推理成本才有意义。

可以把三档模型想成一条流水线：Luna 负责分类、清洗、轻量摘要和高吞吐；Terra 负责默认对话、普通编码和内容生成；Sol 负责复杂 Agent、难题攻关和失败重试。

真正成熟的接入方式不是在配置里写死一个模型，而是按任务类型、风险等级、上下文长度和失败次数动态路由。这样才能同时吃到新模型能力和成本优势。