GPT-5.5 on KnightLi的博客

GPT-5.5 Prompt 迁移指南：旧提示词为什么要先删再改

Fri, 15 May 2026 01:17:35 +0800

OpenAI 在 API 文档里更新了 GPT-5.5 prompting guide。这份文档最有价值的地方，不是又给了一套更长的提示词模板，而是提醒开发者：迁移到 GPT-5.5 时，很多旧 prompt 反而应该变短。

官方文档地址：https://developers.openai.com/api/docs/guides/prompt-guidance

如果只看一句话，GPT-5.5 的提示词方向是：少写过程，多写结果；少堆规则，多定义验收；少用“永远必须”，多写清楚什么时候停止、什么时候验证、什么时候补证据。

旧 prompt 为什么需要重写

很多生产系统里的 prompt 是一层层堆出来的。模型不稳定时，加一条规则；工具调用出错时，再加一条禁止；输出啰嗦时，再加一段格式要求。时间久了，系统 prompt 会变成一份厚重的操作手册。

这种写法在旧模型上有时有用，因为模型需要更多步骤约束才能不跑偏。但到了 GPT-5.5，OpenAI 的建议很明确：不要把旧 prompt stack 原样搬过来。

原因很简单。过度指定过程会带来几类副作用：

噪声变多，模型要在大量旧规则里找真正重要的约束。
搜索空间变窄，模型不敢选择更高效的解法。
输出变机械，看起来像在执行脚本，而不是解决问题。
旧规则之间可能互相冲突，导致工具调用和最终回答都变笨。

GPT-5.5 更适合让 prompt 描述目标状态、约束、可用证据和最终输出，而不是把每一步都写死。

outcome-first：先定义什么叫完成

官方文档反复强调一个方向：GPT-5.5 最适合 outcome-first prompt。

也就是说，提示词里应该优先写：

目标结果是什么。
什么条件算成功。
哪些约束不能突破。
当前可用上下文是什么。
最终答案需要包含哪些字段或部分。
证据不足时怎么处理。

不太推荐的写法是：

`1`	`先检查 A，再检查 B，然后比较所有字段，再思考全部异常情况，再决定调用哪个工具，再调用工具，最后解释完整过程。`

更适合 GPT-5.5 的写法是：

解决用户的问题。成功标准：
- 基于可用政策和账户数据完成判断
- 如果允许执行操作，先完成操作再回复
- 最终输出包含 completed_actions、customer_message、blockers
- 如果缺少关键证据，只询问最小必要字段

这不是让 prompt 变得含糊，而是把控制点从“过程顺序”移到“结果和边界”。模型可以自己选择搜索、推理和工具调用路径，但必须对成功标准负责。

少用绝对规则，多写决策规则

旧 prompt 里常见大量 ALWAYS、NEVER、must、only。这些词不是不能用，但应该只留给真正不可违反的约束，比如安全规则、必填字段、禁止执行的动作。

对于“什么时候搜索”“什么时候问用户”“什么时候继续迭代”“什么时候停止”这类判断，GPT-5.5 更适合使用决策规则。

例如，不要只写：

`1`	`永远先搜索三次。`

可以改成：

先做一次覆盖核心问题的检索。如果前几个结果已经能支持关键事实，就停止检索并作答。只有当证据冲突、缺失或不足以支撑结论时，才继续搜索。

这种写法给了模型判断空间，也给了它停止条件。对需要联网、检索、文件搜索或数据库查询的产品来说，这一点很关键，因为每多一轮工具调用都会带来延迟和成本。

给检索设置 retrieval budget

GPT-5.5 prompt 里值得单独加的一类规则是 retrieval budget。

它不是预算金额，而是检索停止规则。它告诉模型：什么时候证据已经足够，什么时候应该继续找，什么时候该承认缺证据。

一个实用写法是：

普通问答先做一次宽检索，关键词要短且有区分度。如果前几个结果已经能支持核心请求，就基于这些结果回答，不再继续搜索。只有当结果冲突、缺失关键事实或不能支持结论时，才追加检索。

这类规则能减少两种常见问题：

搜索不够，答案没有证据。
搜索过头，模型在工具循环里浪费时间。

更重要的是，文档还提醒：没有搜到证据，不应该自动变成事实上的“否”。有时正确行为是说明证据不足，或者换一个更小的问题继续查。

reasoning effort 不要一上来拉高

GPT-5.5 的推理效率更高，所以 OpenAI 建议重新评估 low 和 medium，不要一遇到质量问题就直接把 reasoning effort 往上加。

更稳的顺序是：

先确认 prompt 是否写清楚了目标、输出格式和停止条件。
加上验证循环，比如测试、引用、复核或渲染检查。
为工具调用补上持久性规则和完成标准。
仍然不够时，再提高 reasoning effort。

换句话说，reasoning.effort 更像最后的调参旋钮，不应该替代清晰的 prompt 设计。

如果任务是短分类、字段抽取、支持工单分流、格式转换，可以先从低推理成本开始。如果是长文档综合、多源冲突判断、策略写作、复杂研究，再考虑 medium 或更高。

text.verbosity 控制输出，不等于控制思考

GPT-5.5 对输出格式很可控。官方文档建议使用 text.verbosity 配合 prompt 里的输出要求。

默认 text.verbosity 是 medium。如果产品需要更短、更干净的回复，可以使用 low。但这不意味着所有内容都要变短。

一个典型做法是：

面向用户的状态更新和最终总结保持简短。
代码、配置、结构化结果需要清楚时，仍然要求可读性。
不要为了“简短”牺牲字段完整性、引用和必要 caveat。

这对代码类产品尤其有用。可以让聊天回复短一点，但要求生成的代码保持可读变量名、清楚结构和必要注释。

preamble 和 phase：让长任务更可感知

GPT-5.5 在复杂任务中可能先做推理、计划或准备工具调用，然后才输出可见文字。对流式产品来说，用户会明显感知首 token 等待时间。

官方建议是：对多步骤、工具密集或长时间运行的任务，让模型先发一个短 preamble。它不需要解释完整计划，只要告诉用户“我会先做什么”。

例如：

`1`	`我会先检查相关文件和现有配置，然后再给出修改方案。`

在 Responses API 的长任务或工具密集工作流里，还要注意 assistant item 的 phase。如果应用使用 previous_response_id，API 会自动保留前序 assistant 状态；如果应用手动回放 assistant 输出，就要保留原来的 phase 值。

常见约定是：

phase: "commentary"：中间状态更新。
phase: "final_answer"：最终答案。
不要给 user message 添加 phase。

这部分看起来像底层实现细节，但对有工具调用、状态更新和最终回答的产品很重要。手动回放时弄丢 phase，容易让模型分不清中间进度和最终结论。

提示模型检查自己的工作

GPT-5.5 guide 里还有一条非常实用：在可以验证的任务里，给模型验证工具和验证规则。

对代码 Agent，可以明确要求：

修改后运行相关单元测试。
必要时运行 type check 或 lint。
影响包较大时跑 build。
全量验证太贵时，至少做最小 smoke test。
如果验证无法运行，要解释原因和下一个最好检查方式。

对视觉或页面产物，可以要求先渲染再检查布局、裁切、间距、缺失内容和视觉一致性。

对工程方案，可以要求计划里包含需求对应关系、涉及文件/API/系统、状态流转、验证命令、失败行为、隐私和安全考虑，以及真正影响实现的开放问题。

这类规则比“请认真一点”有效得多。它把“认真”落到了可执行检查上。

一个更适合 GPT-5.5 的 prompt 骨架

OpenAI 文档给出的结构可以简化成这样：

Role:
你是什么角色，要在什么上下文里工作。

# Personality
语气、协作方式、是否需要温度或观点。

# Goal
用户可见的目标结果。

# Success criteria
最终回答前必须满足的条件。

# Constraints
安全、业务、证据、权限、成本和副作用边界。

# Output
输出结构、长度、语气、字段要求。

# Stop rules
什么时候继续、什么时候重试、什么时候降级、什么时候询问、什么时候停止。

这个骨架的重点不是“每个 prompt 都要写这么多标题”。它真正想表达的是：复杂任务的 prompt 应该让模型知道目的地、边界和交付物，而不是把每一步都硬编码进去。

迁移旧 prompt 的实际顺序

如果你现在有一套 GPT-4.1、GPT-4o、GPT-5.2 或 GPT-5.4 的旧 prompt，不建议一次性大改。

更稳的迁移顺序是：

先切模型，固定当前 reasoning effort 和输出参数。
跑已有 eval 或真实样例，找出行为变化。
删除明显过时、重复、互相冲突的过程规则。
把“步骤要求”改成“成功标准”和“停止条件”。
补上检索预算、引用规则和缺证据行为。
为工具任务加验证循环。
最后再调 reasoning.effort 和 text.verbosity。

如果没有 eval，至少准备一组典型任务：简单问答、复杂检索、工具调用、格式化输出、拒答/降级、长任务完成。不要只用一个 demo case 判断 prompt 好坏。

一张旧 prompt 迁移清单

真正迁移旧 prompt 时，可以先按这张清单过一遍。它的目标不是把 prompt 改得更短，而是把无效约束删掉，把关键约束改成更可验证的形式。

检查项	常见问题	建议处理
重复规则	同一件事在不同段落反复出现，甚至措辞不一致	合并成一条清晰规则，只保留最终版本
绝对词	到处都是 `ALWAYS`、`NEVER`、`must`、`only`	只给安全、合规、权限、必填字段保留绝对约束
无停止条件	要求模型持续搜索、持续分析、持续修复，但没写什么时候停	增加 stop rules，例如证据足够、验证通过、达到轮次或成本上限
无验证命令	只写“确保正确”，没有测试、lint、引用或检查方式	改成具体检查：运行测试、类型检查、构建、引用来源或 smoke test
过程太细	把每一步都写死，模型只能照流程走	改成目标、成功标准、边界和输出要求
旧模型补丁	为旧模型弱点写的限制仍然保留	先删除，再用 eval 判断是否真的还需要
工具规则模糊	只写“必要时使用工具”	写清楚何时调用、何时停止、失败时怎么降级
输出格式漂移	有格式要求，但没有字段完整性要求	明确必填字段、可选字段、缺证据时的占位或说明

如果你只能做一件事，优先检查“无停止条件”和“无验证命令”。这两项最容易让 GPT-5.5 在长任务里变成无限工具循环，或者在没有证据时给出看似完整但不可验证的答案。

GPT-5.5 prompt 示例对比

下面这几组不是完整系统 prompt，而是迁移时常见的局部改写方式。

例子 1：检索问答

旧写法：

`1`	`回答前必须搜索至少 3 次。必须阅读所有相关结果。必须给出完整解释。`

新写法：

先做一次覆盖核心问题的检索。若前几个结果已经能支持关键事实，停止检索并回答。若结果冲突或缺少关键事实，再追加检索。最终回答说明依据；证据不足时明确说证据不足。

区别在于，新写法把“搜索次数”改成了“证据是否足够”。它给模型继续查的理由，也给模型停下来的理由。

例子 2：代码修改

旧写法：

`1`	`仔细修改代码。不要破坏现有逻辑。完成后告诉我改了什么。`

新写法：

完成用户要求的最小必要代码修改。成功标准：
- 只修改与任务相关的文件
- 保持现有公开接口兼容，除非用户明确要求变更
- 修改后运行相关单元测试；如果无法运行，说明原因和下一个最好验证方式
- 最终总结改动、验证结果和剩余风险

区别在于，新写法没有泛泛要求“仔细”，而是把谨慎落到文件范围、接口兼容、测试命令和风险说明上。

例子 3：结构化输出

旧写法：

`1`	`请输出 JSON。不要输出多余内容。字段要完整。`

新写法：

输出严格 JSON，不要添加 Markdown。必须包含：
- status: "ok" | "needs_more_info" | "blocked"
- answer: string
- evidence: string[]
- missing_info: string[]
如果证据不足，status 使用 "needs_more_info"，不要编造 evidence。

区别在于，新写法不仅要求 JSON，还定义了缺证据时的合法输出路径。这样模型不用在“必须完整”和“证据不足”之间硬编。

参数怎么配

reasoning.effort 和 text.verbosity 不应该孤立看。前者影响模型投入多少推理，后者影响输出有多详细。一个常见误区是：质量不够就先把 reasoning.effort 拉高，输出太长就把 prompt 写得更凶。更稳的做法是按任务类型配。

场景	reasoning.effort	text.verbosity	说明
字段抽取、分类、短格式转换	`none` 或 `low`	`low`	追求低延迟，重点是输出 schema 清楚
客服分流、简单工具路由	`low`	`low` 或 `medium`	规则明确时不需要高推理，保留必要解释即可
普通问答、轻量检索总结	`low` 或 `medium`	`medium`	需要一点判断，但不必默认高推理
多文档综合、冲突判断	`medium`	`medium`	先保证证据规则和引用，再考虑提高 effort
复杂代码修改、长任务 Agent	`medium` 或 `high`	用户回复 `low`，代码输出要求清晰	聊天更新可以短，代码和 diff 要可读
策略、方案、风险分析	`medium` 或 `high`	`medium` 或 `high`	需要解释取舍、风险和假设

对大多数应用来说，可以先从 low 或 medium 开始。只有当 prompt 已经写清楚成功标准、停止条件和验证规则，模型仍然遗漏关键约束时，再提高 reasoning.effort。

text.verbosity 也不是越低越好。低 verbosity 适合状态更新、客服短答、操作结果摘要；但对于代码、配置、迁移方案、审计说明，过低的输出会让结果难以审查。

哪些规则适合保留

迁移到 GPT-5.5 不是把旧 prompt 全部删掉。下面这些规则通常应该保留，而且要写得更明确。

安全规则：不能执行的动作、不能生成的内容、需要拒绝或降级的场景。
合规规则：行业政策、地区限制、年龄限制、审计要求、审批要求。
隐私规则：个人信息处理、敏感数据脱敏、日志记录限制、数据不得外传。
输出字段：API 响应、JSON schema、表格字段、前端组件需要的固定结构。
业务边界：退款规则、账号权限、服务等级、合同范围、人工客服升级条件。
工具权限边界：哪些工具能调用、哪些工具必须先确认、哪些工具禁止调用。
引用和证据规则：什么时候必须引用来源，证据冲突时怎么处理。

这些规则不是旧包袱，而是产品契约。区别只在于，迁移时要把它们从长篇口号改成可执行约束。

例如：

`1`	`不要泄露用户隐私。`

可以改成：

`1`	`不要在最终回答中输出完整手机号、身份证号、访问 token、API key 或内部用户 ID。需要引用时只显示脱敏版本，例如手机号保留后 4 位。`

哪些内容不要误删

删 prompt 时最危险的不是删掉废话，而是把真正的系统边界一起删掉。下面这些内容即使看起来“很老”，也不应该轻易删除。

隐私与数据处理要求：尤其是日志、导出、跨系统传输、第三方工具调用相关规则。
安全和权限限制：删除数据、转账、发邮件、改权限、执行 shell 命令等高风险动作的确认规则。
引用格式：如果产品依赖 citation、脚注、来源列表或审计链路，不要只因为它占空间就删掉。
工具调用边界：哪些工具只读、哪些工具可写、哪些工具必须用户确认。
失败行为：API 超时、数据缺失、检索失败、权限不足时应该怎么降级。
业务硬规则：价格、退款、封禁、风控、合规审核这类不能由模型自由发挥的规则。

一个简单判断方法是：如果删掉某条规则只会让输出风格变一点，可以考虑删；如果删掉后可能导致越权、泄露、误操作、错误承诺或审计断链，就应该保留，并改写得更精确。

总结

GPT-5.5 prompting guide 的核心不是“写更高级的提示词”，而是把旧 prompt 里过度指定过程的部分删掉。

更适合 GPT-5.5 的提示词应该做到：

目标优先，而不是步骤优先。
成功标准明确，而不是泛泛要求“做好”。
有停止条件，而不是无限搜索或无限工具循环。
有证据预算，而不是查不到就乱答或一直查。
有验证规则，而不是只靠模型自觉。
参数调优靠后，而不是一上来拉高 reasoning effort。

如果你的旧系统 prompt 已经很长，迁移到 GPT-5.5 的第一步可能不是加内容，而是删内容。把真正不可违反的规则留下，把过程细节改成结果、边界和检查项，通常比继续堆提示词更有效。

参考资料

OpenAI Prompt guidance：https://developers.openai.com/api/docs/guides/prompt-guidance
OpenAI Using GPT-5.5：https://developers.openai.com/api/docs/guides/latest-model

GPT-5.5、GPT-5.4 与 GPT-5.3-Codex 如何取舍

Sun, 10 May 2026 08:43:17 +0800

如果只看一句话，结论其实很直接：默认选 GPT-5.5，预算更敏感或任务难度中等时选 GPT-5.4，只有在 Codex 环境里做更长时间的软件工程任务，或者需要 Cloud Tasks、Code Review 这类能力时，再重点看 GPT-5.3-Codex。

这个判断不只是主观体验，OpenAI 在 Codex 官方文档里的推荐也已经比较明确。到 2026-05-10 为止，Codex 文档仍然写着：大多数任务优先从 gpt-5.5 开始；如果还没有开放 gpt-5.5，继续用 gpt-5.4；轻量任务或子任务则更适合 gpt-5.4-mini。

三个模型的定位差异

先看官方定位。

GPT-5.5 是 Codex 里的最新前沿模型，面向复杂编程、电脑操作、知识工作和研究型工作流。它更像“默认主力模型”，适合复杂分析、多步任务、跨文件修改、方案设计和较重的文档工作。

GPT-5.4 则是一个更稳的全能型选择。官方描述是：它把 GPT-5.3-Codex 的强代码能力带到了更强的推理、工具使用和 agentic workflow 里。换句话说，它不是“弱化版 5.5”，而是一个更均衡、更容易长期当主力的模型。

GPT-5.3-Codex 仍然是很强的代码模型，但它的核心优势更集中在真实软件工程和 Codex 原生工作流里。官方文档还专门说明：它是面向 agentic coding tasks 优化的模型，而且 GPT-5.4 的编码能力本身就已经继承了它的长处。

所以今天再选模型，不太适合把 GPT-5.3-Codex 直接理解成“最强编程模型”。在大部分日常开发场景里，更推荐先看 GPT-5.5 和 GPT-5.4。

按使用场景怎么选

如果你的任务是日常问答、复杂解释、资料整理、文件分析、长文信息综合，GPT-5.5 最合适。它不仅适合写代码，也更适合处理“代码之外但又很费脑子”的知识工作。

如果你的任务是复杂编程、重构、排错、架构设计、多文件修改，仍然优先 GPT-5.5。Codex 官方推荐也是这样写的：在能用 gpt-5.5 的地方，大多数任务先从它开始。

如果你更在意额度和消耗，希望在质量很高的前提下把成本压下来，GPT-5.4 往往是更合理的默认值。对很多常规开发、普通改写、一般翻译、脚本生成和 bug 修复任务来说，GPT-5.4 已经足够强，而且更省额度。

如果你是在 Codex CLI、IDE 扩展或 App 里做更像“工程代理”的事情，比如长时间读仓库、持续改代码、排队跑任务、做 Cloud Tasks 或 Code Review，GPT-5.3-Codex 仍然有存在感。原因不是它比 GPT-5.5 更先进，而是当前 Codex 的 Cloud Tasks 和 Code Review 仍然运行在 GPT-5.3-Codex 上，这决定了它在工程流里还没有退场。

消耗额度差多少

在 Codex 的 credits 计费表里，这三个模型的差异非常清楚。

按 Business / New Enterprise 的 token 计费口径看：

GPT-5.5：输入 125 credits / 1M tokens，缓存输入 12.5 credits，输出 750 credits
GPT-5.4：输入 62.5 credits / 1M tokens，缓存输入 6.25 credits，输出 375 credits
GPT-5.3-Codex：输入 43.75 credits / 1M tokens，缓存输入 4.375 credits，输出 350 credits

这意味着，按名义费率看，GPT-5.4 大约是 GPT-5.5 的一半，做同样长度的输入输出时，通常能省接近 50% 的额度。GPT-5.3-Codex 的输入更便宜，但输出已经和 GPT-5.4 很接近，所以它并不是那种“明显更便宜很多”的选择。

还有一个容易忽略的点：Codex 官方又特别写了一句，GPT-5.5 uses significantly fewer tokens to achieve results comparable to GPT-5.4。也就是说，虽然它的单价更高，但在某些复杂任务里，可能会靠更少的 token 和更少返工把差距拉回来。

不过对固定模板文章改写、翻译、SEO 描述生成这种输入输出长度都比较稳定的任务来说，这种“少走弯路”的优势通常没有复杂工程任务那么明显。实际消耗上，GPT-5.4 大多还是更省，通常可以理解为省掉大约 45% 到 50%。

Codex 使用限制上的区别

除了单价，Codex 里的可用方式也不一样。

截至 2026-05-10，GPT-5.5 在 Codex 里是推荐模型，但目前只在使用 ChatGPT 登录的 Codex 中提供，不支持 API key 鉴权。GPT-5.4 和 GPT-5.3-Codex 则支持 API 访问。

另外，GPT-5.5 和 GPT-5.4 目前都不支持 Codex Cloud Tasks 和 Code Review；这两项仍然是 GPT-5.3-Codex 的主场。也就是说，如果你说的是“在 Codex 里长时间跑工程任务”，那就不能只看模型本身强不强，还要看对应功能是不是只有 GPT-5.3-Codex 才能跑。

如果你只是本地消息使用，Plus 计划下官方给出的 5 小时窗口大致是：

GPT-5.5：15-80
GPT-5.4：20-100
GPT-5.3-Codex：30-150

从这里也能看出一个现实差异：GPT-5.5 最强，但在固定额度下可用次数通常更少；GPT-5.4 更均衡；GPT-5.3-Codex 在本地消息上反而看起来更耐用一些。

常用场景怎么选

日常使用里有不少高频任务。更实用的看法，不是抽象地说“哪个更强”，而是按场景一个一个拆开看。

1. 日常问答、资料整理、长文总结

GPT-5.5：最适合。它更擅长处理模糊问题、补齐上下文、把零散信息整理成结构化结果。

GPT-5.4：适合普通总结和批量整理。难度不高、数量很多时，通常更划算。

GPT-5.3-Codex：不太适合当主力。能做，但这不是它最有优势的场景。

2. 技术概念解释、代码讲解、读旧项目

GPT-5.5：适合复杂项目。跨文件关系多、调用链长、历史包袱重时更稳。

GPT-5.4：适合常规阅读理解。看函数、看模块、解释配置、帮你快速接手项目都很好用。

GPT-5.3-Codex：更偏工程执行，不是最优先的“讲解型模型”。

3. 写脚本、小工具、SQL、Shell、正则

GPT-5.5：适合脚本背后还有系统设计、联动多个服务、涉及复杂约束的情况。

GPT-5.4：最适合当默认主力。大多数脚本、小工具、SQL 和命令行任务都够用，而且更省额度。

GPT-5.3-Codex：如果脚本只是整个工程代理链条的一部分，可以考虑；单独写小脚本时不必优先选它。

4. 改 bug、改小功能、补测试、普通开发

GPT-5.5：适合稍复杂的修复，比如需要先分析原因、再跨文件修改、最后补测试。

GPT-5.4：最适合日常开发主力。普通 bug、小功能、测试样板、重命名、格式整理这类任务，性价比最好。

GPT-5.3-Codex：能做，但如果没有 Cloud Tasks 或工程代理需求，通常不是第一选择。

5. 复杂重构、架构设计、疑难排错

GPT-5.5：最适合。复杂任务里最贵的是返工，不是单次输出；GPT-5.5 更适合做主解题模型。

GPT-5.4：适合中等复杂度任务。可以做方案和重构，但在特别长的上下文、多步推理和高不确定性问题上通常不如 GPT-5.5 稳。

GPT-5.3-Codex：偏执行，不是这类高难决策任务的默认优先级。

6. 批量轻任务、重复任务、拆子任务

GPT-5.5：能做，但通常不划算。

GPT-5.4：最适合。批量改注释、批量改格式、批量生成样板代码、批量改内容时，最平衡。

GPT-5.3-Codex：如果任务已经放进 Codex 的工程流程里，可以考虑；单看性价比，仍然通常不如 GPT-5.4。

7. 自动化流水线、代理执行、持续读写仓库

GPT-5.5：适合做前期方案设计、规则制定、复杂任务拆分。

GPT-5.4：适合写自动化脚本、补中等复杂度流程逻辑，尤其是在 API 可接入的情况下。

GPT-5.3-Codex：最值得关注。因为 Codex 的 Cloud Tasks 和 Code Review 还运行在它上面，所以它更适合“让系统自己跑”的工程场景。

8. 重要页面文案、品牌介绍、最终润色

GPT-5.5：最适合。自然度、风格控制、上下文一致性最好。

GPT-5.4：适合大多数普通页面和日常更新，重要页面可以先写初稿再交给 GPT-5.5 精修。

GPT-5.3-Codex：不适合当主要文案模型。

9. 网站固定模板文章改写、翻译、SEO 描述

GPT-5.5：适合做模板设计、最终润色、重要页面定稿，以及把中文翻成更自然的英文。

GPT-5.4：最适合批量生产。普通文章改写、固定结构翻译、商品文案重写、Meta 描述批量生成，通常质量和成本最平衡。

GPT-5.3-Codex：不适合当主要文案模型，更适合写批处理脚本、清洗 HTML、保留标签结构、改自动发布流程。

10. 电商商品文案、分类页、批量内容运营

GPT-5.5：适合定规则、做抽检、做高价值页面的最终润色。

GPT-5.4：最适合批量生产。商品标题、分类页说明、批量活动文案、长尾 SEO 内容这类任务上，质量和成本更平衡。

GPT-5.3-Codex：适合写抓取、清洗、批处理、自动发布脚本，不适合负责主要文案。

如果把这些场景进一步压缩成一句话：

复杂脑力活、复杂分析、复杂文案：优先 GPT-5.5
日常开发、批量生产、重复任务：优先 GPT-5.4
Codex 工程代理、Cloud Tasks、Code Review：重点看 GPT-5.3-Codex

最后怎么取舍

如果你只是平时写代码、改 bug、问技术问题、顺手做一些文档工作，GPT-5.4 是很稳的主力选择。

如果你要做的是更复杂的项目分析、多文件修改、架构方案、深度排错，或者希望一个模型同时覆盖编程和复杂知识工作，直接优先 GPT-5.5。

如果你在 Codex 环境里看重的是工程工作流本身，比如 Cloud Tasks、Code Review、长时间代理执行，那么 GPT-5.3-Codex 仍然值得保留，但它已经不太适合被当成“默认第一选择”。

对固定模板文章站来说，更实用的搭配通常是：

GPT-5.4 负责批量生产
GPT-5.5 负责定模板、做抽检、做最终润色
GPT-5.3-Codex 负责写自动化工具，而不是负责主要文案

小结

现在更合理的默认顺序是：GPT-5.5 第一，GPT-5.4 第二，GPT-5.3-Codex 放到更偏工程代理和 Codex 特定能力的场景里使用。

如果你问的是“同样一篇模板文章改写，GPT-5.4 比 GPT-5.5 能省多少”，按官方 credits 表和这类任务的典型 token 结构看，通常可以按“省接近一半”来理解。对批量站内容来说，这个差距已经足够大，所以最常见的做法不是全程上 GPT-5.5，而是先用 GPT-5.5 把规则和风格定好，再把大批量任务交给 GPT-5.4。

GPT-5.5、GPT-5.5 Instant、GPT-5.5 Thinking 和 GPT-5.5 Pro 有什么区别

Thu, 07 May 2026 21:59:33 +0800

OpenAI 现在把 GPT-5.5 拆成了几个更明确的使用层级：Instant、Thinking 和 Pro。

很多人看到 GPT-5.5、GPT-5.5 Instant、GPT-5.5 Thinking、GPT-5.5 Pro 会混在一起。简单说：GPT-5.5 是这一代模型能力的总称，Instant 是日常快速模型，Thinking 是深度推理模式，Pro 是更高强度的研究级模式。

快速对比

名称	本质	适合场景	速度/成本	可用性
GPT-5.5	GPT-5.5 主模型/家族名；在 ChatGPT 里通常对应 GPT-5.5 Thinking 的能力定位	复杂工作、代码、研究、分析、工具调用	比 Instant 更重，但能力更强	Plus、Pro、Business、Enterprise
GPT-5.5 Instant	快速默认模型，替代 GPT-5.3 Instant	日常问答、写作、总结、轻量代码、快速查询	最快、最省额度	面向所有 ChatGPT 用户逐步推出
GPT-5.5 Thinking	深度推理模式	难题、长上下文分析、复杂代码、研究、文档密集任务	较慢，但推理更稳	付费用户可手动选择
GPT-5.5 Pro	更高强度的研究级模式	高风险/高精度任务：法律、商业、教育、数据科学、科研分析	最慢、最重，追求质量	Pro、Business、Enterprise、Edu

如果只想记一个选择规则：

日常快速任务：用 GPT-5.5 Instant。
复杂推理和代码分析：用 GPT-5.5 Thinking。
特别难、特别重要、需要更全面严谨：用 GPT-5.5 Pro。

GPT-5.5 是什么

单独说 GPT-5.5 时，通常是在说 GPT-5.5 这一代主模型能力，而不是某一个固定按钮。

OpenAI 对 GPT-5.5 的定位是“面向真实工作的更强模型”。它重点提升的是：

agentic coding；
复杂代码调试；
研究和资料综合；
文档、表格、演示文稿生成；
计算机使用和跨工具工作；
长任务中的持续推理和自我检查。

在 ChatGPT 里，用户看到的不是一个笼统的 GPT-5.5 按钮，而是更具体的 Instant、Thinking、Pro。所以如果有人说“我在用 GPT-5.5”，最好再问一句：是 Instant、Thinking，还是 Pro？

GPT-5.5 Instant：默认、快速、日常使用

GPT-5.5 Instant 是新的快速默认模型。OpenAI 官方说明里，它开始替代 GPT-5.3 Instant，成为 ChatGPT 的默认模型，并在 API 中作为 chat-latest 提供。

它适合这些任务：

日常聊天；
快速问答；
普通写作；
总结文章；
改写邮件；
轻量代码解释；
简单表格和清单；
不需要长时间推理的任务。

Instant 的核心优势是速度和默认可用性。你不需要每次都手动选择推理模式，也不需要为普通问题付出更高延迟。

它还有一个变化：OpenAI 强调 GPT-5.5 Instant 的回答更清晰、更简洁，并且个性化能力更强。对普通用户来说，这意味着它更适合“每天一直开着用”。

需要注意的是，Instant 不是“最强模式”。遇到复杂数学、长代码、架构设计、多文件分析、严肃研究时，它可能会自动切换到 Thinking，也可能需要你手动选择 Thinking。

GPT-5.5 Thinking：复杂任务的主力

GPT-5.5 Thinking 是更适合复杂任务的推理模式。

它适合这些场景：

代码调试；
架构设计；
多步骤推理；
长文档分析；
学术资料整理；
商业方案推演；
数据分析解释；
需要比较、权衡、验证的任务。

Thinking 的特点是会花更多时间推理。OpenAI Help Center 提到，当 GPT-5.5 Thinking 或 GPT-5.5 Pro 开始推理时，可能会先显示一个简短 preamble，说明它打算怎么做。用户也可以在模型还在 thinking 时追加指令，提前调整方向。

在 ChatGPT 里，手动选择 Thinking 时，还可以调整 thinking time。官方说明中，Plus 和 Business 用户可以使用 Standard 和 Extended；Pro 用户还会有 Light 和 Heavy 等更多选项。

我的理解是：Thinking 是“认真干活”的默认选择。只要任务涉及多步骤、长上下文或高准确性要求，就比 Instant 更合适。

GPT-5.5 Pro：研究级、更重、更严谨

GPT-5.5 Pro 是面向更难问题和更高精度工作的模式。

它适合这些场景：

法律材料分析；
商业研究；
教育和课程设计；
数据科学；
科研资料综合；
高风险决策前的深度审阅；
多文档、多约束、多轮验证任务。

OpenAI 在 GPT-5.5 发布说明中提到，早期测试者认为 GPT-5.5 Pro 相比 GPT-5.4 Pro，在完整性、结构性、准确性、相关性和实用性上都有明显提升，尤其在商业、法律、教育和数据科学领域表现更强。

Pro 的缺点也很明显：它更慢、更重，不适合每个小问题都用。它更像“专家审阅/研究伙伴”，而不是日常聊天入口。

另外，Pro 在工具支持上有特殊限制。OpenAI Help Center 写明，Apps、Memory、Canvas 和图像生成不适用于 Pro。如果你的任务需要这些 ChatGPT 功能，可能要用 Instant 或 Thinking。

工具支持有什么不同

根据 OpenAI Help Center，GPT-5.5 Instant 和 GPT-5.5 Thinking 支持 ChatGPT 的常用工具，包括：

Web search；
Data analysis；
Image analysis；
File analysis；
Canvas；
Image generation；
Memory；
Custom Instructions。

GPT-5.5 Pro 更偏研究级推理，但不是所有 ChatGPT 工具都可用。尤其要注意：

Apps 不可用；
Memory 不可用；
Canvas 不可用；
图像生成不可用。

所以选择模型时，不只看“哪个更聪明”，还要看你要用哪些工具。

上下文窗口有什么区别

官方 Help Center 给出的 ChatGPT 上下文窗口说明大致是：

模式	上下文窗口
GPT-5.5 Instant	Free：16K；Plus/Business：32K；Pro/Enterprise：128K
GPT-5.5 Thinking	付费档手动选择时通常为 256K；Pro 档可到 400K

这意味着：

普通聊天和短文档，Instant 足够；
多文件、多轮研究、长代码库分析，Thinking 更合适；
特别长、特别复杂的高精度任务，Pro 用户可以利用更大的上下文和更重推理。

怎么选

日常问答

用 GPT-5.5 Instant。

它速度快，足够聪明，适合随手问、快速写、快速改。

写文章、总结、改邮件

优先用 GPT-5.5 Instant。

如果文章很长、需要结构重写、需要多轮校对，再切到 GPT-5.5 Thinking。

写代码和调试

简单代码解释用 Instant。

多文件调试、架构设计、复杂报错分析，用 Thinking。如果是非常棘手的长期工程问题，可以考虑 Pro。

研究和资料分析

普通资料整理用 Thinking。

如果是法律、商业、科研、数据科学这类高精度任务，用 Pro 更合适。

需要图像生成、Canvas、Memory

优先用 Instant 或 Thinking。

不要默认选 Pro，因为 Pro 不支持部分 ChatGPT 工具。

简短结论

GPT-5.5 Instant 是日常默认模型，快、清晰、省额度，适合多数普通任务。

GPT-5.5 Thinking 是复杂任务主力，适合代码、研究、长文档、分析和多步骤推理。

GPT-5.5 Pro 是高精度研究模式，适合更难、更重要、更需要严谨性的任务，但工具支持和速度都更受限制。

GPT-5.5 本身更像这一代模型的总称。真正选择时，要看你在 ChatGPT 里选的是 Instant、Thinking 还是 Pro。

从 ChatGPT Release Notes 看 OpenAI 的产品节奏

Thu, 07 May 2026 14:31:22 +0800

OpenAI 的 ChatGPT Release Notes 是观察 ChatGPT 产品节奏的一个直接入口。这个页面会持续记录 ChatGPT 的模型、功能、账户安全、应用集成和客户端体验变化。

截至 2026 年 5 月 7 日查看，页面顶部显示最近更新为“yesterday”，最新条目集中在 2026 年 5 月 5 日。它们看起来是几条普通更新，但放在一起，其实能看出 ChatGPT 正在往哪里走：默认模型更可靠，记忆更可控，办公场景更深入，账户安全也在补强。

最新重点一：记忆来源变得可见

5 月 5 日的第一项更新，是 ChatGPT 的记忆改进。

OpenAI 表示，Plus 和 Pro 用户会逐步获得更个性化、更连续的回答。ChatGPT 可以更好地使用过去聊天、保存记忆、可用文件，以及已连接 Gmail 中的上下文，来提供更贴合用户的建议、推荐和下一步行动。

这类能力的价值在长期使用中才明显。用户如果正在做一个项目、写一系列文章、跟进一组邮件或反复处理同类工作，最烦的就是每次都要重讲背景。更强的记忆能力，就是为了减少这种重复。

但记忆越强，用户越需要知道模型到底用了什么上下文。因此 OpenAI 推出了 memory sources。用户可以在回答下方查看相关保存记忆、过去聊天、自定义指令，以及在特定情况下被引用的文件和 Gmail 邮件。

如果其中的信息已经过期、不准确或不再相关，用户可以更正、删除，或标记为不相关。

个性化不只是“更懂你”

很多人谈 AI 个性化时，只关注“模型更懂我”。但真正能长期使用的个性化，还必须解决三个问题：

用户能不能看见模型参考了什么。
用户能不能修改或删除这些信息。
用户能不能在不需要记忆时关闭它。

Release Notes 里明确提到，memory sources 只在用户自己的账户体验中显示，分享聊天时不会把这些来源暴露给其他人。用户也可以删除聊天、使用临时聊天、关闭记忆、断开应用连接，并管理内容是否用于改进模型。

这说明 OpenAI 不是只在堆个性化能力，也在给个性化补控制界面。对长期助手来说，这一步很关键。

最新重点二：GPT-5.5 Instant 成为默认模型

同一天，OpenAI 还把 GPT-5.5 Instant 作为 ChatGPT 新默认模型推出，替代所有用户原来的 GPT-5.3 Instant。

Release Notes 对这次模型更新的描述很务实：更准确、更清晰、更简洁，图片理解、STEM 问题，以及何时使用网页搜索的判断也更好。

这类默认模型更新对用户影响很大。大多数用户不会每天切换模型，他们感受到的 ChatGPT 质量，就是默认模型的质量。默认模型少一点幻觉、少一点废话、少一点无意义追问，实际体验就会明显改善。

OpenAI 还提到，GPT-5.5 Instant 会减少过度格式化和不必要的装饰性内容。这一点虽然小，但很贴近日常使用。很多时候，用户并不需要一篇结构完整的小论文，只需要一个准确、直接、能执行的回答。

付费用户还可以继续使用 GPT-5.3 Instant 三个月，之后该模型会退役。

最新重点三：ChatGPT 进入 Excel 和 Google Sheets

5 月 5 日的第三项更新，是 ChatGPT for Excel 和 Google Sheets 全球上线。

这项功能把 ChatGPT 放进 Microsoft Excel 和 Google Sheets 侧边栏，让用户可以在表格里直接构建、更新和理解数据。官方提到的场景包括追踪表、预算、公式、多工作表文件、情景分析和表格清理。

这说明 ChatGPT 不只是停留在“聊天窗口里回答问题”。它正在进入用户已经工作的地方。

对办公用户来说，表格是非常高频的真实工作现场。很多公司、团队和个人的业务数据，并不在复杂的数据平台里，而是在一堆 Excel 和 Google Sheets 文件里。如果 ChatGPT 能在表格旁边直接理解数据、写公式、整理多表和解释结果，它的使用门槛会比复制粘贴到聊天窗口低很多。

OpenAI 也提醒，依赖公式或分析前仍然要检查输出。这一点很现实：AI 可以加速表格工作，但不能替用户承担财务、运营或业务判断的全部责任。

4 月底的铺垫：安全和模型选择

再往前看，4 月 30 日的 Advanced Account Security 也值得注意。

这是一个面向个人 ChatGPT 账户的可选安全设置。开启后，账户会使用更强的登录方式，例如 passkeys 或兼容安全密钥，并关闭密码登录、邮件或短信登录码、邮件账户恢复等较弱路径。它还包括恢复密钥、更短活跃会话、登录通知和会话管理控制。

这类功能说明 ChatGPT 账户的重要性在上升。随着文件、记忆、应用连接、邮件、表格和工作项目逐渐进入 ChatGPT，账户安全就不再是普通登录问题，而关系到用户的长期工作上下文。

4 月 28 日，OpenAI 还把模型选择入口移到输入框附近，并把 Thinking 和 Pro 模型的 thinking effort 控制放进模型选择器。这是一个典型的产品细节改动：模型越来越多以后，用户需要更容易在发送消息前选对工具。

4 月下旬的另一个方向：更快的普通回答

4 月 22 日，ChatGPT 推出 Fast answers。

这个功能用于常见的信息查询。当问题不需要个性化，且 ChatGPT 有高置信答案时，它可以更快返回结果。Fast answers 不引用过去聊天或记忆，用户也可以在个性化设置里关闭。

这和记忆增强看起来相反，其实是同一个产品逻辑：不同问题需要不同处理方式。

有的问题需要结合用户长期背景，比如“帮我继续规划上周那个项目”。有的问题只需要快速准确，比如“世界七大奇迹有哪些”。前者需要记忆和上下文，后者需要速度和清晰。ChatGPT 正在把这些路径拆开。

产品节奏的变化

从这些 release notes 可以看到，ChatGPT 的更新已经不只是模型发布。

现在的更新同时覆盖：

默认模型质量。
记忆和个性化。
应用连接和办公插件。
账户安全。
模型选择和交互入口。
快速回答和移动端体验。

这意味着 ChatGPT 正在从单点 AI 聊天产品，变成一个更完整的工作平台。模型能力仍然重要，但产品体验、上下文管理、工具入口、账户安全和第三方应用集成都同样重要。

简短判断

这份 ChatGPT Release Notes 最值得看的，不是某一条具体更新，而是它们组合出的方向。

OpenAI 正在让 ChatGPT 同时变得更快、更懂上下文、更能进入办公场景，也更可控、更安全。GPT-5.5 Instant 负责提升默认回答质量，memory sources 负责解释个性化来源，Excel 和 Google Sheets 负责进入真实工作文件，Advanced Account Security 则为更重的账户使用补上保护。

接下来，ChatGPT 的竞争力不会只取决于模型参数，也会取决于它能否把这些更新组织成稳定、清晰、用户愿意长期托付上下文的产品体验。

ChatGPT Release Notes 更新：记忆来源、GPT-5.5 Instant 和表格插件

Thu, 07 May 2026 14:30:15 +0800

OpenAI 的 ChatGPT Release Notes 页面在 2026 年 5 月初更新，最新一批重点包括三件事：ChatGPT 的记忆来源和个性化能力增强，GPT-5.5 Instant 成为新的默认模型，以及 ChatGPT for Excel 和 Google Sheets 全球上线。

这几项更新放在一起看，方向很清楚：ChatGPT 正在从一个聊天入口，继续变成更持续、更个性化、也更贴近办公场景的工作助手。

Memory sources：个性化要更透明

最新更新里，最值得关注的是 memory sources。

OpenAI 表示，ChatGPT Plus 和 Pro 用户会开始获得更强的记忆改进。ChatGPT 可以更好地从过去聊天、保存的记忆、可用文件，以及已连接的 Gmail 应用中提取相关上下文，用来给出更贴合用户的想法、建议和下一步行动。

这意味着用户不必在每次新对话里反复解释自己的项目背景、偏好、工作习惯或已有材料。对于长期写作、项目规划、资料整理、学习和团队协作来说，连续性会更强。

但个性化越强，透明度就越重要。OpenAI 因此推出 memory sources，让用户看到哪些信息帮助 ChatGPT 个性化了某个回答。用户可以点击回答下方的 Sources 图标，查看相关保存记忆、过去聊天和自定义指令。Plus 和 Pro 用户还可能看到资料库中的文件，以及已连接 Gmail 中被引用的邮件。

如果某些信息过期、不相关或错误，用户可以更正、删除，或标记为不相关。

记忆控制仍然是关键

OpenAI 也说明，memory sources 不一定展示影响回答的全部因素，后续还会继续改进这个视图。

这个提醒很重要。它说明 memory sources 不是完整的“模型思考日志”，而是让用户理解个性化上下文的一种产品界面。它能提高可见性，但不能把所有影响因素都完全展开。

隐私和控制方面，OpenAI 表示 memory sources 只会显示在用户自己的账户体验里。如果用户分享聊天，相关 sources 不会出现在共享聊天中。用户也可以删除聊天，使用不会使用或更新记忆、也不会出现在历史记录中的临时聊天，关闭记忆，随时断开应用连接，并管理自己的内容是否用于改进模型。

这说明 ChatGPT 的个性化正在走一条更明确的路线：既要更懂用户，也要让用户知道它为什么这么回答，并保留管理入口。

GPT-5.5 Instant 成为默认模型

Release Notes 还确认，GPT-5.5 Instant 正在作为 ChatGPT 的新默认模型推出，并替代面向所有用户的 GPT-5.3 Instant。

这次默认模型更新主要改善几个方面：

准确性。
清晰度和简洁度。
图片理解。
STEM 问题回答。
判断何时需要联网搜索。

OpenAI 强调，GPT-5.5 Instant 在事实可靠性上更好，尤其是在准确性更重要的提示词中表现更稳。它也会给出更紧凑、更直接的回答，减少不必要的追问，降低过度格式化和无意义装饰带来的干扰。

对用户来说，这类变化可能不会像新功能按钮那样显眼，但会影响每天打开 ChatGPT 时的体感：回答更少绕路，更少啰嗦，也更少在简单问题上堆格式。

个性化和默认模型结合起来

GPT-5.5 Instant 对 Plus 和 Pro 网页端用户还会更有效地使用过去聊天、文件和已连接 Gmail 的上下文。

这和 memory sources 是同一条产品线。模型不只是“更聪明”，还要在合适的时候知道你之前做过什么、关心什么、已经提供过哪些材料。比如继续一个项目、写一份计划、整理邮件里的信息，或根据过去偏好给出建议时，ChatGPT 可以减少重复询问。

付费用户仍可在三个月内通过模型配置继续使用 GPT-5.3 Instant，之后该模型会退役。

ChatGPT for Excel 和 Google Sheets

另一个重要更新，是 ChatGPT for Excel 和 Google Sheets 全球上线。

它把 ChatGPT 放进 Microsoft Excel 和 Google Sheets 的侧边栏中，让用户可以在表格里直接构建、更新和理解数据。OpenAI 提到的场景包括：

追踪表。
预算。
公式。
多工作表文件。
情景分析。
表格清理。

在可用地区和条件下，它还支持 Skills 和 apps。

这类功能的意义很直接：很多办公数据并不在专门的 BI 系统里，而是在 Excel 和 Google Sheets 里。把 ChatGPT 放进表格侧边栏，比让用户复制粘贴到聊天窗口更自然，也更容易进入真实工作流。

使用限制和安装方式

Release Notes 提到，Free 和 Go 计划包含有限使用量；Plus 和 Pro 使用与 Codex 相同的 agentic 使用限制。如果用户超出计划限制，可以购买额外 credits。

安装方式也比较直接：Excel 版本从 Microsoft Marketplace 安装，Google Sheets 版本从 Google Workspace Marketplace 安装，然后使用符合条件的 ChatGPT 账户登录。

OpenAI 也提醒，用户在依赖公式或分析前需要检查输出。这点不能忽略。AI 可以加速表格工作，但公式、预算、财务和业务分析仍然需要人工复核。

近期更新脉络

如果把 4 月底到 5 月初的 release notes 放在一起看，ChatGPT 的方向更清楚。

4 月 30 日，OpenAI 推出 Advanced Account Security，给个人 ChatGPT 账户提供更强的登录要求和账户保护，包括 passkeys、安全密钥、恢复密钥、更短会话和登录通知。

4 月 28 日，模型选择入口移到输入框附近，让用户在发送消息前更容易选择模型；Thinking 和 Pro 模型的 thinking effort 控制也被放进模型选择器。

4 月 22 日，ChatGPT 推出 Fast answers，用于一些不需要个性化、且模型有高置信答案的常见信息查询。Fast answers 不引用过去聊天或记忆，用户也可以在个性化设置里关闭。

这些更新都围绕同一个目标：让 ChatGPT 更适合日常高频使用。该快的时候快，该个性化的时候个性化，该需要安全保护和可见控制的时候给出入口。

简短判断

这次 ChatGPT Release Notes 的重点，不是单个功能，而是产品形态继续收束。

GPT-5.5 Instant 提升默认回答质量，memory sources 让个性化更可见，Excel 和 Google Sheets 插件把 ChatGPT 放进办公表格，Advanced Account Security 和模型选择改动则补上账户安全和操作体验。

ChatGPT 正在变成更长期的工作层：它会记住更多上下文，进入更多工具，也承担更多日常任务。接下来真正需要观察的是，个性化透明度是否足够清楚，办公插件在真实复杂表格里是否稳定，以及用户能否在便利和控制之间保持平衡。

GPT-5.5 Instant 发布：ChatGPT 默认模型变得更准、更短、更懂你

Thu, 07 May 2026 14:28:40 +0800

OpenAI 在 2026 年 5 月 5 日发布 GPT-5.5 Instant，并开始把它作为 ChatGPT 面向所有用户的默认模型。

这次更新的关键词不是“更大”或“更炫”，而是更贴近日常使用：回答更准确、更简洁，语气更自然，也更会利用用户已经分享过的上下文。对 ChatGPT 来说，默认模型的变化尤其重要，因为它影响的是最多用户每天实际打开就会用到的体验。

默认模型为什么重要

Instant 是 ChatGPT 的日常主力模型。很多用户不会手动切换模型，也不会研究不同模型之间的差异。他们感受到的 ChatGPT，就是默认模型的质量。

所以 GPT-5.5 Instant 的意义不只是新增一个模型名，而是把基础体验整体往前推了一步。OpenAI 在公告中提到，这次更新让日常互动更有用、更顺手：不同主题下的回答更紧凑，聊天语气更自然，也能在合适的时候更好地使用已有上下文。

这种改进看起来不如一次大型多模态发布显眼，但对几亿级用户来说，默认模型少犯错、少啰嗦、少问多余问题，本身就是很大的产品变化。

更少幻觉，更可靠的回答

OpenAI 把准确性放在了第一位。

官方表示，在内部评测中，面对医学、法律、金融等高风险提示词，GPT-5.5 Instant 相比 GPT-5.3 Instant 产生的幻觉声明减少了 52.5%。在用户曾经标记过事实错误、难度更高的对话中，不准确声明减少了 37.3%。

这两个数字值得注意。它们说明 OpenAI 不只是追求模型“会说”，而是继续压低错误事实的发生率。尤其是在医疗、法律、金融这类领域，模型不能只给出流畅答案，还要更谨慎、更少编造。

当然，这不等于用户可以把 ChatGPT 当成专业意见的替代品。更准确的模型仍然需要在高风险场景里保留核查、引用来源和人工判断。但从产品体验看，默认模型的事实可靠性提升，会减少很多日常使用中的误导。

日常任务能力增强

GPT-5.5 Instant 不只是在事实性上改进，也提升了多种日常任务能力。

OpenAI 提到，它在分析照片和图片上传、回答 STEM 问题，以及判断何时使用网页搜索方面都有提升。这里的重点是“判断何时搜索”。很多用户并不关心模型内部是否调用工具，只关心答案是否新、是否准、是否能解释清楚。

如果模型能更好判断哪些问题需要联网，哪些问题可以直接回答，用户就不必反复提醒“你去查一下”。这会让 ChatGPT 更像一个主动可靠的助手，而不是只会等待明确指令的聊天框。

公告中的数学示例也体现了这个方向。GPT-5.5 Instant 在一开始认可错误解法后，能继续检查并发现代数错误，再回到正确方程求解。真正重要的不是它从不出错，而是它更有机会在推理链条中发现问题并修正。

回答更短，但不是变少

OpenAI 还强调，GPT-5.5 Instant 的回答更紧、更直接，同时保留必要内容和 ChatGPT 的友好语气。

这点对默认模型很关键。很多用户对 AI 回答的疲劳感，不来自信息不够，而来自结构太重、铺垫太多、格式太满。一个简单问题被拆成五个小标题、十几条注意事项，反而会让人觉得不自然。

GPT-5.5 Instant 的目标，是减少无谓的冗长和过度格式化，少问不必要的追问，也避免让回答显得杂乱的装饰性内容。对日常办公、写作建议、生活咨询和快速解释来说，这类改进往往比单项基准分更影响体感。

更短不等于更浅。好的默认模型应该能判断用户需要的是一句可执行建议、一段解释，还是完整方案。GPT-5.5 Instant 的方向，就是把这种分寸感做得更稳。

个性化能力继续增强

这次更新的另一条主线，是个性化。

OpenAI 表示，Instant 现在更擅长使用过去聊天、文件以及已连接 Gmail 中的上下文，让回答更贴合用户。它会判断什么时候额外个性化能改善答案，并更快搜索过去对话中的相关内容，减少用户反复交代背景。

这对长期使用 ChatGPT 的人很有价值。比如做计划、写文章、选工具、整理项目、延续一段工作流时，用户往往已经在过去对话里提供过偏好、约束和上下文。如果模型能自然接上，就会减少很多重复说明。

但个性化也必须配合透明度和控制。否则用户会不知道模型为什么突然提到某个偏好，也不知道哪些记忆正在影响回答。

Memory sources：让个性化更可见

OpenAI 同时推出 memory sources，覆盖所有 ChatGPT 模型。

它的作用是让用户看到哪些上下文被用于个性化回答，例如保存的记忆或过去聊天。如果某些内容过期、不准确或不想再被使用，用户可以删除或更正。

OpenAI 还说明，如果用户分享一段聊天，memory sources 不会展示给其他人。用户仍然可以删除不希望被引用的聊天，在设置中修改保存记忆，或使用不会使用和更新记忆的临时聊天。

这一步很重要。AI 助手越个性化，就越需要解释“我是根据什么在回答你”。Memory sources 不一定展示所有影响因素，但至少让个性化从黑箱里走出来一部分。

可用性安排

GPT-5.5 Instant 从公告当天开始向所有 ChatGPT 用户推出，并替代 GPT-5.3 Instant 成为默认模型。在 API 中，对应 chat-latest。

对付费用户来说，GPT-5.3 Instant 还会保留三个月，可通过模型配置设置访问，之后会被退役。

增强个性化功能会先在网页端向 Plus 和 Pro 用户推出，移动端随后上线，并计划在接下来几周扩展到 Free、Go、Business 和 Enterprise。Memory sources 会在网页端向 ChatGPT 消费者计划推出，移动端也会随后跟进。不同地区可用的个性化来源可能会不同。

简短判断

GPT-5.5 Instant 是一次面向默认体验的升级。

它不只是模型能力变强，而是在回答准确性、表达密度、语气、上下文使用和个性化透明度上一起调整。对普通用户来说，最直接的变化应该是：少一点废话，少一点事实错误，更容易接上你的背景。

对 OpenAI 来说，这也是默认助手形态的继续演进。ChatGPT 不再只是“每次从零开始回答问题”的工具，而是在逐步变成能记住偏好、理解上下文、知道何时搜索，并且让用户管理这些记忆来源的长期助手。

谁把哥布林放进了 GPT-5.5？

Sat, 02 May 2026 10:51:36 +0800

OpenAI 最近复盘了一个很有意思的小问题：为什么 GPT-5.5 在 Codex 里会频繁使用 goblin、gremlin 这类表达？

这不是普通的口头禅问题。它暴露的是模型训练中的一个常见现象：模型可能不是直接记住某个词，而是在强化学习阶段学到一种“更容易被奖励”的表达风格。

现象是什么

GPT-5.5 训练后期，Codex 用户开始发现模型在解释代码问题、测试失败或异常行为时，会偏爱一组带有拟人化色彩的表达。

OpenAI 内部也观察到类似现象：GPT-5.5 相比早期版本，更常在响应里使用 goblin、gremlin 等词。研究团队把这个现象称为一种“怪异人格特征”，并尝试追踪它从哪里来。

不是简单的数据复读

最直观的猜测是：训练数据里这类表达变多了，模型只是学到了高频词。

OpenAI 检查后发现，事情没有这么简单。它们在预训练语料中确实能找到相关词，但数量不足以解释模型后期行为变化。更关键的是，模型在强化学习前后表现差异明显：后期训练把这类风格放大了。

这说明问题不只是“数据里有什么”，还要看训练过程奖励了什么。

强化学习放大了风格偏好

OpenAI 的分析里，关键变化发生在强化学习阶段。GPT-5.5 在训练中学会了更活泼、更有辨识度、更像“有性格”的写法，而某些带有调侃意味的词正好符合这种风格。

简单说，模型可能发现：

更有个性的回答更容易被偏好。
用轻松比喻解释技术问题，反馈可能更好。
某些词在特定语境里能增加“可爱”“机灵”“好玩”的感觉。
这些局部奖励会被训练过程放大。

最终结果就是，模型没有被明确要求频繁使用这些词，却在特定场景里形成了稳定倾向。

源头是 Nerdy 人格

顺着数据回溯，OpenAI 很快定位到一个具体分支：个性化定制里的 Nerdy 人格。

这个模式原本想把 AI 调成“书呆子导师”：热情、机智、推崇知识和批判性思维，同时不要太一本正经。站在人类角度，这个要求很清楚：要有极客精神，也要有幽默感。

但模型不会真正理解“幽默”的边界。它在强化学习反馈里学到了一条捷径：用 goblin 这类比喻，容易显得俏皮、聪明、像个书呆子，于是更容易拿到高分。

数据也能说明问题。从 GPT-5.2 到 GPT-5.4，默认人格下 goblin 出现频率变化只有 -3.2%；但在 Nerdy 人格下，这个数字暴涨了 3881.4%。更夸张的是，Nerdy 模式只占 ChatGPT 总对话量的 2.5%，却贡献了 66.7% 的 goblin 用量。

所以问题不在某个词本身，而在奖励信号把一种“看起来幽默”的表达方式推成了固定风格。

Codex 为什么更明显

Codex 场景放大了这个问题。因为代码任务经常涉及 bug、测试失败、环境差异和边界行为，模型很容易把这些问题拟人化。

当模型想用轻松方式解释“这个错误很奇怪”“这个测试不稳定”“这个行为像在捣乱”时，就会更容易调用这类词。久而久之，用户会感觉模型有固定口癖。

OpenAI 后来在 Codex 的系统提示中加入了抑制指令，明确要求模型避免这类表达。这个做法不是重新训练模型，而是在产品层面先把行为收住。

这件事说明什么

这个案例的重点，不在某个词本身，而在模型行为如何形成。

它至少说明了三点：

模型风格可能来自奖励信号，而不只是语料频率。
小的偏好在训练后期可能被放大成稳定人格特征。
产品里的系统提示可以缓解问题，但不等于从模型内部消除了倾向。

这也是大模型对齐里很麻烦的一类问题：用户喜欢“有趣”的回答，但过度追求有趣，可能让模型在严肃任务里显得轻浮、重复或自带口癖。

对使用者的启发

如果你在使用 AI 编程工具时发现模型有固定话术，不一定是提示词里写错了，也可能来自模型本身的训练偏好。

可以用几种方式缓解：

在系统提示或项目规则里写明语气要求。
要求模型避免拟人化、俚语化、过度调侃。
对技术任务指定“直接、简洁、工程化”的回答风格。
如果某个词反复出现，可以明确列入禁止表达。

这类约束不能改变模型内部权重，但能在实际产品使用中减少干扰。

小结

GPT-5.5 的 goblin 口癖不是一个孤立笑话。它展示了大模型训练中更深的问题：奖励信号会塑造风格，风格会迁移到产品场景，最后变成用户能感知到的人格特征。

对模型厂商来说，这类问题需要在训练、评测和产品提示三层同时处理。对普通用户来说，最实用的做法是把期望风格写清楚，让模型少一点表演，多一点稳定。

参考：

https://openai.com/index/where-the-goblins-came-from/

GPT 5.5、Claude Opus 4.7、DeepSeek V4、Qwen 3.6 Max 怎么选

Tue, 28 Apr 2026 22:18:00 +0800

如果你现在只想知道一句话答案，那可以先记这个版本：

要最稳、最省时间，优先看 GPT 5.5
要页面观感、创意和展示感，Claude Opus 4.7 还是强
要看国产模型里谁最接近第一梯队，Qwen 3.6 Max 现在很有竞争力
DeepSeek V4 不是不能打，但波动比前面几家更明显

很多人问“现在最强编程 AI 到底是谁”，其实问到最后，通常不是在问排行榜，而是在问一件更实际的事：
我现在要写页面、做 demo、生成小工具、补交互，哪一个最容易一次就给我能用的东西。

从这个角度看，这几家模型的差别已经很清楚了。

先说总判断

如果把 GPT 5.5、Claude Opus 4.7、DeepSeek V4、Qwen 3.6 Max 放在一起看，综合能力最稳的还是 GPT 5.5。

它不一定每次都是最花哨的那个，但它很少让你明显失望。速度快，第一次生成的完成度高，逻辑、交互、动效、小游戏这一类综合任务通常都比较顺。

Claude Opus 4.7 的特点很不一样。它最强的地方不是“最稳”，而是页面气质、UI 组织和展示感。很多时候你一打开它写的东西，会先觉得“这个看起来像回事”。如果你更在意页面呈现，它还是很值得看。

Qwen 3.6 Max 是这几家里最值得重新看的一个。它已经不是“国产里能用”这个级别了，而是有些场景下真的能和 GPT 5.5 直接拼效果。尤其是前端页面、视觉完成度、拟真感这些部分，它已经开始有明显存在感。

DeepSeek V4 的问题不是完全不行，而是不够稳。它能写出来的时候并不弱，甚至有些场景还不错，但上下限差得比另外几家更明显。你有时候会觉得它挺能打，有时候又会觉得怎么突然掉下去了。

`GPT 5.5` 强在哪

如果你平时最常做的是这些事：

直接生成一个完整网页
做带动效的小 demo
写有一点逻辑的互动页面
生成小游戏或多状态交互
想尽量少返工

那 GPT 5.5 基本还是最稳的答案。

它的优势主要有几个：

出代码速度快
第一次成品可用度高
逻辑和交互比较少出硬伤
综合题表现稳定

说得更直接一点，GPT 5.5 最像一个“你把需求扔过去，它大概率能先把地基搭对”的模型。
很多人真正缺的不是某一项最惊艳，而是第一版别翻车。这件事上它现在还是最让人省心。

当然，它也不是完全没有短板。

某些偏视觉表现的页面，不一定是最有惊喜的
有时候太稳了，反而少一点设计感上的记忆点

所以如果你问“要一个默认推荐”，那还是 GPT 5.5。
但如果你问“要不要只看它”，答案也不是。

`Claude Opus 4.7` 适合什么人

Claude Opus 4.7 这类模型的吸引力，更多来自页面观感。

它的长处通常是：

UI 结构更顺
视觉表现更完整
某些页面更有展示感
在可视化和创意感上更容易出彩

如果你让模型去做的是这些东西：

演示页面
数据展示页面
强调观感的小网页
想要一打开就“看着比较高级”的结果

那 Claude 依然值得进前排。

不过它的问题也一直比较明显：

稳定性不如 GPT 5.5
有时看着不错，但细节逻辑会偏掉
个别场景里会出现功能能跑，但核心体验不够准的情况

所以 Claude 更像一个有审美加成的前端型选手。
你要是更看重页面“长得好不好”，它很有优势；你要是最怕第一次输出就出逻辑问题，那还是得更谨慎一点。

`Qwen 3.6 Max` 为什么值得认真看

这几家里，Qwen 3.6 Max 给人的最大变化感最明显。

以前很多人看国产编程 AI，更多是抱着“能不能跟上”的心态。现在看 Qwen 3.6 Max，已经是另一种问题了：
它在一些前端直出场景里，到底能不能直接和国外头部模型打。

它现在比较突出的地方有这些：

页面观感不错
某些动效和拟真效果做得挺好
生成结果比较有完成感
有些题目里，效果已经能接近甚至咬住 GPT 5.5

这说明一件事：
如果你的使用场景偏网页、偏前端、偏展示结果，那 Qwen 3.6 Max 已经不是“备用选项”，而是可以认真放进主选名单的模型。

当然，它还没有稳到完全没有短板。

交互逻辑题上，偶尔还是会掉一点完成度
有些页面很好看，但有些任务又会突然平一点
起伏比 GPT 5.5 还是大一些

但整体上，它现在的存在感已经非常强了。
如果你想知道“国产模型里现在最该重点看谁”，那 Qwen 3.6 Max 很难绕开。

`DeepSeek V4` 现在处在什么位置

DeepSeek V4 的情况稍微复杂一点。

它的问题不是完全做不好，而是你不太容易预判它这次会落在哪个区间。
有时候它能把事情做出来，观感和功能都不算差；有时候遇到稍微复杂一点、同时要求动画、逻辑、数据表现的任务，它又容易掉链子。

它目前给人的感觉更像这样：

能力有
不算弱
某些题目可以交卷
但稳定性还不够让人完全放心

这就决定了它现在更适合什么样的人。

如果你愿意多试几次、能接受偶尔需要重来、或者你本来就会自己检查和修代码，那 DeepSeek V4 还是可以继续用。
但如果你就是想少折腾、想把第一次生成成功率放在前面，那它现在还不是最稳的答案。

普通用户到底该怎么选

如果你不是做模型评测，而是真的想拿来干活，那其实可以直接按用途选。

1. 想少折腾，想提高第一次成功率

选 GPT 5.5。

它最适合的就是“我给需求，你先给我一版能用的”。
尤其是你没有太多时间来回调、反复修的时候，它的综合稳定性最有价值。

2. 更看重页面展示感和视觉完成度

选 Claude Opus 4.7。

如果你想要的是一个看起来更像成品的页面，或者你做的是偏演示型、展示型的东西，Claude 的优势会更容易体现出来。

3. 想重点看国产里最强的前端直出能力

优先看 Qwen 3.6 Max。

它现在已经不是“将就用”，而是真的可以拿来正面比较。
如果你的任务偏网页、偏动效、偏展示，Qwen 的竞争力已经很实际了。

4. 能接受波动，想继续观察国产综合能力

可以继续看 DeepSeek V4。

它的问题不是没实力，而是发挥不够整齐。
如果后面稳定性继续补上，它的存在感还会更强。

最后一句话

现在这几家主流编程 AI，差距已经不再是“谁能写、谁不能写”，而是“谁更稳、谁更好看、谁更适合你的任务”。

如果你就想要一个最省事的答案，GPT 5.5 还是第一选择。
如果你想要更强的展示感，Claude Opus 4.7 仍然很有味道。
如果你关心国产模型里谁最值得认真看，Qwen 3.6 Max 现在已经站到很靠前的位置。
DeepSeek V4 则更像一个还在继续补稳定性的强力选手。

真要压成一句最短结论，就是：

最稳看 GPT 5.5，最有观感看 Claude，国产里最值得重点看的是 Qwen 3.6 Max。

DeepSeek V4 Pro 对比 GPT-5.5：前端、写作、代码实测后，差距比想象更大

Sat, 25 Apr 2026 11:12:00 +0800

DeepSeek V4 Pro 和 GPT-5.5 这种对比，最近越来越容易引发讨论。因为它已经不是“谁能不能用”的问题，而是：当任务落到前端、写作、代码这三类高频场景时，谁更适合当主力？

很多人做这类比较时，习惯先问一句：哪个更强。
但更有价值的问题通常不是这个，而是：在具体任务里，哪个更稳、哪个更省沟通成本、哪个更容易产出能直接继续推进的结果。

如果先给一个简化版结论，可以大致这样理解：

需要更均衡、产品化体验更完整的综合输出时，很多人还是会先看 GPT-5.5
需要中文语境下高频迭代、成本更敏感、追求响应效率时，DeepSeek V4 Pro 会更容易进入候选名单
真正决定体验的，往往不是模型名字本身，而是任务类型、提示方式和你后续要不要继续改

下面按三个最常见的比较场景展开。

1. 前端任务：比的不是“会不会写页面”，而是能不能继续接着改

前端任务看起来很适合拿来做模型对比，因为它结果直观：
页面能不能跑、样式好不好看、结构清不清楚，一眼就能看到。

但真正拉开差距的，往往不是第一版能不能写出来，而是后续这些问题：

结构是不是足够清晰
组件拆分是否自然
改一处时会不会连带改坏别的地方
能不能在多轮指令下继续保持同一套实现思路

这也是为什么很多“首轮效果惊艳”的前端演示，放进真实工作流后未必依然占优。

如果你的任务是：

快速生成一个可运行的页面原型
把一个落地页思路先写出来
按要求补齐样式、按钮、卡片、表单等基础元素

那两类模型通常都能完成得八九不离十，区别更多体现在输出风格。

而如果你的任务变成：

持续多轮改 UI
一边读现有代码一边接着改
同时兼顾组件结构、样式一致性和可维护性
从静态页面逐步推进到真实项目代码

那你更应该观察的就不是“第一轮谁更像样”，而是“谁在第五轮以后还不容易跑偏”。

所以前端对比真正该看的，不是模型能不能生成页面，而是它能不能在你连续追加约束之后，依旧保持结构稳定、命名一致、修改成本可控。

2. 写作任务：比的不是字多不多，而是风格稳不稳、重写顺不顺

写作是另一类特别容易出现误判的场景。

因为很多时候，模型第一次输出看起来都不差：
结构完整、段落齐全、语气顺滑，乍看之下很容易觉得“差不多”。

但只要你把任务往前推一步，差异就会冒出来：

能不能准确理解你要的受众
能不能在同一主题下切换不同口吻
重写时会不会丢掉原文重点
压缩、扩写、改标题、换结构时是否稳定

写作任务里最怕的不是“写不出来”，而是“看起来写出来了，但你还得重改很多遍”。

所以在 DeepSeek V4 Pro 和 GPT-5.5 之间，更实用的比较方式通常不是让它们各写一篇，而是连续做这几轮：

先写初稿
再换一个语气重写
再压缩成更短版本
再改成更适合标题党或搜索分发的写法

如果一个模型在这几轮里仍然能保持重点不散、表达不飘、结构不乱，那它在真实写作工作流里的价值才会更高。

也就是说，写作任务真正比的不是“文采”，而是改稿能力、服从度和连续协作感。

3. 代码任务：真正拉开差距的是长链路稳定性

代码任务比前端任务更容易暴露模型真实水平，因为它不仅要“输出”，还要“对接现实”。

你很快就会遇到这些问题：

它能不能理解已有项目结构
能不能同时修改多个文件
改完以后有没有引入新的问题
出错时会不会顺着日志继续往下查
多轮之后还记不记得前面已经做过什么

这类任务里，用户最在意的通常不是某一段代码漂不漂亮，而是：能不能帮我持续往前推进，而不是让我来收拾残局。

所以比较 DeepSeek V4 Pro 和 GPT-5.5 时，最值得看的往往不是单点题，而是这种更接近真实工作的过程：

读一个已有仓库
找到一个 bug
改多个相关文件
根据报错继续修
最后把结果整理清楚

只要任务进入这种连续推进模式，模型的上下文保持能力、执行习惯、解释质量和返工率，都会比“单轮答题效果”更重要。

这也是为什么很多用户在代码场景里，最终形成的不是“永远只用一个模型”，而是按任务阶段切换主力。

4. 真正值得比较的，不是输赢，而是“哪类任务交给谁更划算”

把 DeepSeek V4 Pro 和 GPT-5.5 放在一起时，如果目标只是争一个总冠军，最后往往会得到一个很空的结论。

因为现实任务不是统一题目：

有的是一次性生成
有的是多轮协作
有的是中文写作
有的是工程改动
有的是强调速度
有的是强调稳定性
有的是强调成本

所以更接近真实使用的方法，通常是按任务目标分：

想要更完整的综合体验、更成熟的交互和更稳定的通用输出，可以优先试 GPT-5.5
想要在中文环境里高频试错、快速迭代，并且更关注投入产出比，DeepSeek V4 Pro 值得重点放进工作流里
如果任务本身是长链路、多轮修正、多人协作，那就不要只看第一轮结果，要看五轮以后谁还更稳

换句话说，真正该问的不是“谁绝对更强”，而是：
前端、写作、代码这三类任务里，哪一个模型更像你当前阶段最顺手的工具。

5. 怎么做一次更像样的模型对比

如果你自己也准备测 DeepSeek V4 Pro 和 GPT-5.5，一个更靠谱的做法通常不是只跑一轮，而是这样测：

给两边同一份初始需求
保持相同限制条件
连续追问三到五轮
记录改动质量、跑偏次数和返工量
最后再看速度、成本和最终可用度

这样测出来的结果，会比“谁第一轮更惊艳”更接近真实工作。

尤其在前端、写作、代码这三类任务里，很多时候真正决定体验的不是起跑线，而是谁能陪你把事情做完。

6. 可以先这样记

如果只想先记一个够用的版本，可以先这么理解：

GPT-5.5：更像综合型、产品化、默认可用的主流工作台
DeepSeek V4 Pro：更像在中文环境和高频试错里更值得纳入日常工作流的竞争者
真正的比较重点：不是首轮炫技，而是多轮修改之后谁更稳、谁更省事

所以这类对比里，真正重要的从来都不是“谁赢了”，而是：
你的前端、写作、代码任务，交给谁之后最容易持续推进、最少返工、最能稳定产出。

OpenAI 发布 GPT-5.5：更强的智能体编码、知识工作与科研能力

Fri, 24 Apr 2026 08:39:56 +0800

OpenAI 在 2026 年 4 月 23 日发布了 Introducing GPT-5.5。从官方页面看，这次更新的重点不是单纯“模型更聪明”，而是更强调模型能不能把复杂任务持续推进下去。

官方给 GPT-5.5 的定位，是一个更适合真实工作的模型。它不仅要回答问题，还要能写代码、调试、查资料、分析数据、生成文档和表格、操作软件，并在多个工具之间来回切换，直到任务完成。

1. GPT-5.5 主要强在哪里

这次发布页里反复出现的几个方向，可以概括为四类：

智能体编码
电脑操作与工具使用
知识工作
早期科研辅助

也就是说，GPT-5.5 的重点不是短问短答，而是更长链路的任务。比如一个工程问题不只是“这段代码怎么改”，而是要理解项目结构、定位失败原因、修改相关文件、补测试、验证结果，并尽量减少用户反复提示。

OpenAI 也特别强调，GPT-5.5 在 Codex 任务中更省 token。这个点很实际，因为编码智能体一旦开始读文件、跑命令、修 bug，token 消耗会非常快。如果模型能用更少的步骤完成同样任务，实际成本和等待时间都会下降。

2. 编码能力是这次最重要的展示方向

官方称 GPT-5.5 是目前最强的 agentic coding 模型。

几个公开指标里，比较值得注意的是：

Terminal-Bench 2.0：GPT-5.5 达到 82.7%
SWE-Bench Pro：GPT-5.5 达到 58.6%
OpenAI 内部的 Expert-SWE：GPT-5.5 也高于 GPT-5.4

这些测试的共同点是，它们更接近真实工程流程，而不是只考单个算法题。特别是 Terminal-Bench 这类任务，会涉及命令行操作、规划、试错、工具协调和多步骤验证。

对日常开发者来说，这里的意义很直接：模型是否能接住更大的任务，取决于它能不能长时间保持上下文、自己检查假设、知道什么时候该跑测试、知道改动会影响哪里。

GPT-5.5 在 Codex 里的价值，也主要体现在这些地方。它更像是可以接手一段工程任务的协作者，而不是只会补全代码片段的工具。

3. 知识工作开始变成重点场景

除了写代码，OpenAI 这次还把 GPT-5.5 放到了更广的办公场景里。

官方提到，GPT-5.5 在 Codex 中可以更好地生成文档、电子表格和演示文稿，也更适合处理运营研究、表格建模、业务材料整理这类任务。结合电脑操作能力之后，它的目标不是只给建议，而是能直接参与“找资料、理解内容、调用工具、检查输出、整理成结果”这一整条流程。

发布页里还提到 OpenAI 内部已经在多部门使用 Codex，包括软件工程、财务、传播、市场、数据科学和产品管理等。这里真正值得关注的不是某个单点案例，而是 OpenAI 正在把 Codex 从开发工具扩展为通用工作工具。

在 ChatGPT 里，GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用户；GPT-5.5 Pro 则面向更难问题和更高准确率需求，提供给 Pro、Business 和 Enterprise 用户。

4. 科研能力不只是“答题更强”

GPT-5.5 的科研展示也很重。

官方提到它在遗传学、定量生物学、生物信息学、数学证明等方向都有改进。这里的重点不是模型能不能背出一个知识点，而是能不能处理更接近真实研究的问题：读数据、发现异常、提出分析方式、解释结果，并根据中间结果继续推进。

发布页里提到的 GeneBench 和 BixBench，都更偏多阶段科学分析任务。OpenAI 还提到，一个内部版本的 GPT-5.5 借助自定义工具链，帮助发现了关于 Ramsey numbers 的新证明，并用 Lean 做了验证。

这类案例还不能简单理解为“AI 已经能独立做科研”，但它说明模型正在从问答工具往研究协作者靠近。尤其是在代码、数据、论文、实验想法混在一起的场景里，GPT-5.5 的长链路推理和工具使用能力会更重要。

5. 推理效率：更强但没有明显变慢

一个容易被忽略的点是，OpenAI 说 GPT-5.5 在真实服务中的 per-token latency 与 GPT-5.4 相当。

通常更大的模型、更强的模型会带来更高延迟。OpenAI 这次强调，它们通过推理系统优化，让 GPT-5.5 在智能提升的同时保持速度。发布页里还提到，Codex 分析生产流量模式并编写负载分配相关启发式算法，使 token 生成速度提升超过 20%。

这个细节很有意思：模型不仅被基础设施服务，也反过来帮助改进服务它的基础设施。

6. 安全策略会更严格，尤其是网络安全方向

GPT-5.5 的网络安全能力更强，所以 OpenAI 同时加强了安全限制。

官方说明中提到，GPT-5.5 在网络安全能力上比 GPT-5.4 有提升，因此会部署更严格的分类器，尤其针对高风险活动、敏感网络安全请求和重复滥用行为。

这意味着一部分用户在使用网络安全相关能力时，可能会遇到更多拒答或限制。OpenAI 也提供了 Trusted Access for Cyber，用于让经过验证的防御性用户获得更少不必要阻碍。

对普通开发者来说，可以简单理解为：合法的安全加固、漏洞修复、代码审计会继续被支持，但高风险攻击链路会被更严格地控制。

7. 可用性与 API 价格

根据 OpenAI 发布页，GPT-5.5 的可用性如下：

ChatGPT：GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用户
ChatGPT：GPT-5.5 Pro 面向 Pro、Business、Enterprise 用户
Codex：GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 计划
Codex：上下文窗口为 400K
Codex Fast mode：生成速度约 1.5x，成本为 2.5x

API 方面，OpenAI 表示 gpt-5.5 和 gpt-5.5-pro 会很快开放。

官方给出的 API 价格是：

gpt-5.5：输入 5 美元 / 1M tokens，输出 30 美元 / 1M tokens
gpt-5.5-pro：输入 30 美元 / 1M tokens，输出 180 美元 / 1M tokens
gpt-5.5 API 上下文窗口为 1M
Batch 和 Flex 为标准 API 价格的一半
Priority processing 为标准价格的 2.5x

这个价格明显高于很多日常模型，所以它更适合高价值任务：复杂工程改造、长文档分析、自动化办公、科研辅助、重要业务流程，而不是普通闲聊。

8. 怎么看这次发布

如果只看一句话，GPT-5.5 的重点是：OpenAI 正在把模型从“回答问题”继续推向“完成工作”。

它最值得关注的地方，不只是 benchmark 分数提升，而是几种能力开始汇合：

更强的长任务保持能力
更稳定的工具使用
更好的工程上下文理解
更适合文档、表格、研究和业务流程
更长上下文和更高 token 效率
更严格的高风险能力控制

对开发者来说，最值得试的是 Codex 里的复杂工程任务。对企业用户来说，更值得关注的是它能不能把一部分跨工具、跨文档、跨流程的工作变成可交付结果。

GPT-5.5 不是一次只面向聊天体验的小更新，而更像是 OpenAI 在继续推进“AI 作为工作执行层”的方向。

GPT-5.5 on KnightLi的博客

GPT-5.5 Prompt 迁移指南：旧提示词为什么要先删再改

旧 prompt 为什么需要重写

outcome-first：先定义什么叫完成

少用绝对规则，多写决策规则

给检索设置 retrieval budget

reasoning effort 不要一上来拉高

text.verbosity 控制输出，不等于控制思考

preamble 和 phase：让长任务更可感知

提示模型检查自己的工作

一个更适合 GPT-5.5 的 prompt 骨架

迁移旧 prompt 的实际顺序

一张旧 prompt 迁移清单

GPT-5.5 prompt 示例对比

参数怎么配

哪些规则适合保留

哪些内容不要误删

总结

参考资料

GPT-5.5、GPT-5.4 与 GPT-5.3-Codex 如何取舍

三个模型的定位差异

按使用场景怎么选

消耗额度差多少

Codex 使用限制上的区别

常用场景怎么选

1. 日常问答、资料整理、长文总结

2. 技术概念解释、代码讲解、读旧项目

3. 写脚本、小工具、SQL、Shell、正则

4. 改 bug、改小功能、补测试、普通开发

5. 复杂重构、架构设计、疑难排错

6. 批量轻任务、重复任务、拆子任务

7. 自动化流水线、代理执行、持续读写仓库

8. 重要页面文案、品牌介绍、最终润色

9. 网站固定模板文章改写、翻译、SEO 描述

10. 电商商品文案、分类页、批量内容运营

最后怎么取舍

小结

GPT-5.5、GPT-5.5 Instant、GPT-5.5 Thinking 和 GPT-5.5 Pro 有什么区别

快速对比

GPT-5.5 是什么

GPT-5.5 Instant：默认、快速、日常使用

GPT-5.5 Thinking：复杂任务的主力

GPT-5.5 Pro：研究级、更重、更严谨

工具支持有什么不同

上下文窗口有什么区别

怎么选

日常问答

写文章、总结、改邮件

写代码和调试

研究和资料分析

需要图像生成、Canvas、Memory

简短结论

相关链接

从 ChatGPT Release Notes 看 OpenAI 的产品节奏

最新重点一：记忆来源变得可见

个性化不只是“更懂你”

最新重点二：GPT-5.5 Instant 成为默认模型

最新重点三：ChatGPT 进入 Excel 和 Google Sheets

4 月底的铺垫：安全和模型选择

4 月下旬的另一个方向：更快的普通回答

产品节奏的变化

简短判断

相关链接

ChatGPT Release Notes 更新：记忆来源、GPT-5.5 Instant 和表格插件

Memory sources：个性化要更透明

记忆控制仍然是关键

GPT-5.5 Instant 成为默认模型

个性化和默认模型结合起来

ChatGPT for Excel 和 Google Sheets

使用限制和安装方式

近期更新脉络

简短判断

相关链接

GPT-5.5 Instant 发布：ChatGPT 默认模型变得更准、更短、更懂你

默认模型为什么重要

更少幻觉，更可靠的回答

日常任务能力增强

回答更短，但不是变少

个性化能力继续增强

Memory sources：让个性化更可见

`GPT 5.5` 强在哪

`Claude Opus 4.7` 适合什么人

`Qwen 3.6 Max` 为什么值得认真看

`DeepSeek V4` 现在处在什么位置