知乎上有一个热门问题在讨论 GPT-5.6:有开发者据称在 OpenAI Codex 后端日志里看到未官宣模型痕迹,其中 iris-alpha 被传支持约 150 万 token 上下文窗口。问题的核心不是“这个爆料有多刺激”,而是如果长上下文继续扩大,会怎样改变大模型竞争。
先说结论:截至 2026 年 6 月 12 日,我没有看到 OpenAI 官方发布 GPT-5.6,也没有看到官方确认 iris-alpha、150 万 token 上下文或具体发布时间。能确认的是,OpenAI 已经发布 GPT-5.5,官方标注为 100 万 token 上下文;Anthropic 已经发布 Claude Fable 5,并把它定位为面向长任务、编码和复杂知识工作的模型。
所以这篇更适合按“传闻如何解释竞争方向”来看,而不是把 GPT-5.6 当作已经发布的产品。
150 万上下文真正意味着什么
如果 GPT-5.6 真的把上下文窗口从 GPT-5.5 的 100 万 token 提到 150 万 token,表面上是长度增加 50%,但影响不只是“能塞更多文字”。
长上下文会直接改变几类任务:
- 代码库级理解:一次放入更多仓库结构、依赖、接口和测试信息。
- 长文档处理:合同、论文、报告、会议记录和资料包可以减少切片。
- Agent 长任务:模型在多步骤任务里保留更多历史决策和中间结果。
- 企业知识检索:减少对外部 RAG 管线的依赖,但不会完全取代检索。
不过,上下文越长,成本、延迟和注意力稳定性也越难处理。真正有价值的不是“窗口最大值”,而是模型在超长输入里能不能找到关键事实、保持指令一致、避免被无关内容干扰,并把结果稳定地落到工具调用和可验证产物上。
也就是说,150 万上下文如果属实,它首先会强化 Agent 和企业工作流,而不是单纯让聊天窗口变长。
Anthropic 给了 OpenAI 很大压力
这次 GPT-5.6 传闻之所以被放大,是因为 Anthropic 已经正式发布 Claude Fable 5。
Anthropic 官方把 Claude Fable 5 定位为面向最困难知识工作和编码问题的新一代模型,并强调它适合长时间 Agent 任务、复杂代码迁移、企业工作流和视觉文档理解。官方模型页还写明,Claude Fable 5 在 API、Claude Platform、AWS、Google Cloud 和 Microsoft Foundry 等渠道可用,价格为每百万输入 token 10 美元、每百万输出 token 50 美元。
这意味着 Anthropic 的打法很明确:不只是拼聊天能力,而是把模型推向“可以连续干活”的 Agent 场景。
对 OpenAI 来说,GPT-5.5 官方已经有 100 万上下文和较强的代码、研究、数据分析能力。但如果 Anthropic 在编码和长任务 benchmark 上形成强势叙事,OpenAI 就需要用新模型、价格或平台能力回应。
价格战可能比参数更关键
原帖提到 OpenAI 可能考虑降低 token 定价。这个点虽然还没有官方确认,但方向并不奇怪。
长上下文和 Agent 编程都会放大 token 消耗。一个普通问答可能只用几千 token;一次代码库分析、自动修复、测试循环和报告生成,可能消耗几十万甚至上百万 token。企业在使用 AI 编程工具时,真正关心的会变成:
- 每个完成任务的总成本是多少?
- 失败重试要消耗多少 token?
- 长上下文是否真的减少人工时间?
- 模型更贵但更少返工,是否反而更划算?
- 预算花在 OpenAI、Anthropic、Google 还是本地模型上?
所以,大模型竞争会从“每百万 token 单价”转向“每个任务的完成成本”。如果一个模型单价高,但一次就能完成复杂任务,它仍然可能更便宜;如果模型单价低,但反复跑偏、反复重试,总成本未必低。
算力基础设施成为模型发布节奏的一部分
关于 OpenAI 租赁俄亥俄州 10GW 数据中心园区的说法,目前也主要来自媒体报道。Data Center Dynamics 和 The Information 等报道称,OpenAI 正在谈判租赁 SB Energy 在俄亥俄州的超大规模数据中心园区,首期约 800MW,预计 2028 年开始运营,完整规模可能达到 10GW。
这类消息未必会立刻影响某个模型发布,但它说明一个趋势:前沿模型竞争已经不只是算法、数据和产品,而是电力、芯片、园区、融资和长期租约的竞争。
长上下文、长任务 Agent、更高并发、更低价格,这些需求最后都会落到算力账本上。模型越能干,用户越会把更多工作交给它;使用量越大,基础设施压力越明显。OpenAI 如果想同时维持高性能和低价格,就必须继续扩张算力供应。
Google 也不会缺席
原帖还提到 Gemini 3.5 Pro 和 200 万 token 上下文。这里同样要区分传闻和官方确认:具体型号、发布时间和上下文窗口都应以 Google 官方公告为准。
但方向上,Google 确实天然适合打长上下文和基础设施牌。它有自研 TPU、云平台、搜索和 Workspace 生态,也有把模型嵌入办公、开发和企业数据流的入口。
如果 OpenAI、Anthropic 和 Google 都把下一阶段重点放在长上下文与 Agent,那么竞争会越来越像平台竞争:
- 模型能不能长时间稳定执行任务。
- 能不能接入开发工具、办公套件和企业系统。
- 权限、审计、数据隔离是否足够企业使用。
- 单次任务完成成本是否可控。
- 是否有足够算力支撑大规模部署。
对开发者意味着什么
对开发者来说,长上下文模型会让一些工作方式发生变化。
过去使用 AI 编程助手时,关键是把问题切小,把相关文件逐段喂给模型。未来如果上下文足够长,开发者可以把更完整的仓库结构、需求文档、测试输出和设计约束交给模型,让它在更大的问题空间里做计划。
但这并不等于“上下文越长越无脑”。更大的上下文也需要更好的任务组织:
- 提前说明目标、非目标和验收标准。
- 把关键文件、日志和错误输出放在明确位置。
- 要求模型输出计划、补丁和测试结果。
- 对高风险修改设置人工确认节点。
- 不把密钥、隐私数据和生产权限随意塞进上下文。
未来优秀开发者的能力,很可能不只是会写代码,而是会管理 Agent 的上下文、权限、工具和验收流程。
小结
GPT-5.6 和 150 万上下文目前仍是传闻,不能当作已发布事实。但这条传闻之所以引发讨论,是因为它正好踩中了大模型竞争的核心变化:模型正在从回答问题,走向接管更长、更复杂、更接近真实工作的任务。
下一轮竞争不会只看谁的 benchmark 多赢几个点,而会看谁能在长上下文、Agent 执行、企业安全、价格和算力供给之间找到平衡。
如果 GPT-5.6 最终发布,真正值得看的也不是上下文数字本身,而是它能否把更大的上下文变成更低的任务成本、更少的人工监督和更稳定的交付结果。
参考链接
- 知乎问题与回答:https://www.zhihu.com/question/2042539496676352614/answer/2048691276334231679
- OpenAI GPT-5.5 官方介绍:https://openai.com/index/introducing-gpt-5-5/
- Anthropic Claude Fable 5 官方介绍:https://www.anthropic.com/news/claude-fable-5-mythos-5
- Anthropic Claude Fable 模型页:https://www.anthropic.com/claude/fable
- Data Center Dynamics:https://www.datacenterdynamics.com/en/news/openai-in-talks-to-lease-10gw-data-center-from-sb-energy-in-ohio/