GPT-5.6 Sol 有限预览:OpenAI 的新模型分层和安全发布节奏

OpenAI 预览 GPT-5.6 Sol、Terra 和 Luna,采用有限预览、分层防护和新定价体系,先通过 API 与 Codex 面向可信合作伙伴开放。

OpenAI 在 2026 年 6 月 26 日开始 GPT-5.6 系列的有限预览。这次不是单个模型发布,而是一次新的模型分层:Sol 是旗舰模型,Terra 面向日常工作的均衡模型,Luna 则主打速度和成本。

按 OpenAI 的说法,Terra 的性能可与 GPT-5.5 竞争,成本约为 GPT-5.5 的一半;Luna 则以更低价格提供较强能力。Sol 是这次预览的重点,OpenAI 称它是目前最强模型,并配套了迄今最稳健的安全栈。

先有限预览,再逐步扩大

GPT-5.6 系列不会一开始就全面开放。OpenAI 表示,预览期内模型最初会通过 API 和 Codex,面向部分可信合作伙伴与组织开放。之后计划很快扩大到 ChatGPT、Codex 和 API 用户。

这次分阶段发布还有一个特殊背景:OpenAI 在发布前与美国政府沟通了模型计划和能力。应政府要求,OpenAI 先向一小部分可信合作伙伴开放,并向政府共享这些参与方信息。OpenAI 同时强调,这种政府访问流程不应成为长期默认做法,因为它会推迟开发者、企业、网络防御者和全球合作伙伴获得模型能力。

所以,GPT-5.6 的当前状态可以概括为:

  • 已发布有限预览。
  • 先通过 API 和 Codex 面向部分可信合作伙伴开放。
  • ChatGPT、Codex 和 API 的更广泛开放仍在推进中。
  • 正式可用范围、速率限制和默认入口还需要等后续公告。

Sol、Terra、Luna:新的模型层级

OpenAI 在 GPT-5.6 中引入了更清晰的命名方式。数字代表模型代际,Sol、Terra、Luna 代表长期稳定的能力层级,并且这些层级可以按各自节奏演进。

这和只用一个模型名再加版本号的方式不同。它给用户一个更直接的选择框架:

模型 定位 官方公布价格
GPT-5.6 Sol 旗舰模型,最高能力 输入 5 美元 / 百万 token,输出 30 美元 / 百万 token
GPT-5.6 Terra 日常工作均衡模型 输入 2.50 美元 / 百万 token,输出 15 美元 / 百万 token
GPT-5.6 Luna 快速、低成本模型 输入 1 美元 / 百万 token,输出 6 美元 / 百万 token

GPT-5.6 还引入更可预测的提示缓存:支持显式缓存断点,以及 30 分钟最低缓存生命周期。对 GPT-5.6 及后续模型,缓存写入按未缓存输入价格的 1.25 倍计费,缓存读取继续享受缓存输入 90% 折扣。

新能力:max 推理强度和 ultra 模式

Sol 的能力提升集中在三个方向:编码、生物学和网络安全。

OpenAI 表示,GPT-5.6 引入新的 max 推理强度,让 Sol 获得更多时间做深度推理。除此之外,还有新的 ultra 模式,通过子智能体来超越单一智能体的能力,用于加速复杂任务。

对开发者来说,最值得注意的是编码和工具协作能力。OpenAI 称 GPT-5.6 Sol 在 Terminal-Bench 2.1 上达到新的最佳水平。这个基准关注命令行工作流,需要规划、迭代和工具协调,和 Codex 类产品的使用方式比较接近。

在生物学方向,OpenAI 提到 GeneBench v1。Sol 在长周期基因组学和定量生物学分析中,相比 GPT-5.5 使用更少 token,但取得更强结果。

网络安全能力变强,也带来更重防护

这篇公告里安全部分写得很重。OpenAI 明确表示,GPT-5.6 Sol 是目前网络安全能力最强的模型,能推动长周期安全任务的性能和效率,包括漏洞研究和漏洞利用相关任务。

但 OpenAI 的结论不是“开放更多攻击能力”,而是强调模型更擅长帮助用户发现和修复漏洞,并不可靠执行端到端攻击。在涉及 Chromium 和 Firefox 的评估中,Sol 能识别漏洞和漏洞利用原语,但在测试条件下没有自主生成完整可用的攻击链。

OpenAI 也称,GPT-5.6 Sol 没有跨越其 Preparedness Framework 中的网络安全 Critical 阈值。即便如此,OpenAI 仍采用分阶段发布,因为 benchmark 无法覆盖模型被组合使用的所有方式。

分层防护栈如何工作

GPT-5.6 的安全机制不是单一拒答规则,而是一组分层防护:

  • 训练进模型的安全行为,拒绝被禁止的网络安全协助。
  • 生成过程中的实时网络安全和生物学滥用分类器。
  • 对高风险生成进行暂停,并交给更大的推理模型审查。
  • 账号级风险信号和相关对话审查。
  • 差异化访问、监测、执行和持续测试。

这套机制的代价是:预览期内,合法用户可能遇到误拦截或延迟。尤其在网络安全这种双重用途领域,防御性测试和攻击性活动在早期请求里可能看起来相似。OpenAI 表示,预览期的目标之一就是收集反馈,减少不必要的阻止和延迟。

自动化红队测试投入很大

OpenAI 还披露了自动化红队测试投入:超过 700,000 个 A100 等效 GPU 小时,用于发现通用越狱。这类越狱不是只针对某个狭窄场景,而是可能跨多种提示和上下文生效。

这说明前沿模型的安全测试正在从“人工找几个攻击样例”,变成更大规模的自动化搜索和持续评估。OpenAI 还会结合第三方专家红队测试,并把新发现的问题复现、评估、排序、修复,再加入后续评估集。

Cerebras 上的高速版本

OpenAI 还提到,GPT-5.6 Sol 将在 7 月登陆 Cerebras,最高速度可达每秒 750 token。初期访问会限制在部分客户,后续随容量扩大。

这个信息值得关注,因为它把“最高能力模型”和“高输出速度”放到同一条线上。对编码 Agent、长文档处理、交互式分析这类场景,推理速度往往直接影响产品体验。

这次发布释放了什么信号

GPT-5.6 Sol 的有限预览说明,OpenAI 正在同时推进三件事:

  1. 用 Sol、Terra、Luna 建立更清楚的模型层级。
  2. 把更强的 Agent、编码、生物学和网络安全能力放进新一代模型。
  3. 对高能力模型采用更谨慎的分阶段发布和更复杂的安全防护。

对普通用户来说,短期内还不用急着迁移,因为 GPT-5.6 尚未全面开放。对开发者和企业来说,值得提前关注的是三项变化:新的模型价格、提示缓存规则,以及 max 推理强度和 ultra 模式对 Agent 工作流的影响。

如果 OpenAI 后续按计划扩大可用范围,GPT-5.6 系列可能会成为 GPT-5.5 之后新的主力模型线。Sol 负责最高能力,Terra 负责日常高性价比,Luna 负责更便宜、更快的工作负载。这种分层,比单纯追逐一个“最强模型名”更适合实际产品选型。

开发者该怎么准备

GPT-5.6 Sol 仍处于有限预览,普通开发者短期内不一定能直接使用。但这不妨碍提前做迁移准备。最实用的做法,是把现有 GPT-5.5 或其他模型的高价值任务整理成评测集:复杂代码修改、工具调用、长上下文分析、结构化输出、拒答边界和成本敏感任务都要覆盖。

等 Sol、Terra、Luna 更广泛开放后,不要只测 Sol。Sol 适合最高难度任务,但日常产品里真正跑量的通常是 Terra 或 Luna。模型分层的意义,就是把任务放到合适的能力档,而不是所有请求都打到旗舰模型。

对于 Codex 用户,可以重点观察两件事:一是 Sol 在多文件修改、测试失败修复、仓库理解上的稳定性;二是 ultra 模式和 max 推理强度是否真的值得额外成本。只有当它显著减少人工返工时,高推理成本才有意义。

选型思路

可以把三档模型想成一条流水线:Luna 负责分类、清洗、轻量摘要和高吞吐;Terra 负责默认对话、普通编码和内容生成;Sol 负责复杂 Agent、难题攻关和失败重试。

真正成熟的接入方式不是在配置里写死一个模型,而是按任务类型、风险等级、上下文长度和失败次数动态路由。这样才能同时吃到新模型能力和成本优势。

原文:预览 GPT-5.6 Sol:新一代模型

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计