<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>GPT-5.5 on KnightLi的博客</title>
        <link>https://knightli.com/tags/gpt-5.5/</link>
        <description>Recent content in GPT-5.5 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Fri, 15 May 2026 01:17:35 +0800</lastBuildDate><atom:link href="https://knightli.com/tags/gpt-5.5/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>GPT-5.5 Prompt 迁移指南：旧提示词为什么要先删再改</title>
        <link>https://knightli.com/2026/05/15/gpt-5-5-prompting-guide/</link>
        <pubDate>Fri, 15 May 2026 01:17:35 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/15/gpt-5-5-prompting-guide/</guid>
        <description>&lt;p&gt;OpenAI 在 API 文档里更新了 &lt;code&gt;GPT-5.5 prompting guide&lt;/code&gt;。这份文档最有价值的地方，不是又给了一套更长的提示词模板，而是提醒开发者：迁移到 GPT-5.5 时，很多旧 prompt 反而应该变短。&lt;/p&gt;
&lt;p&gt;官方文档地址：&lt;a class=&#34;link&#34; href=&#34;https://developers.openai.com/api/docs/guides/prompt-guidance&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://developers.openai.com/api/docs/guides/prompt-guidance&lt;/a&gt;&lt;/p&gt;
&lt;p&gt;如果只看一句话，GPT-5.5 的提示词方向是：少写过程，多写结果；少堆规则，多定义验收；少用“永远必须”，多写清楚什么时候停止、什么时候验证、什么时候补证据。&lt;/p&gt;
&lt;h2 id=&#34;旧-prompt-为什么需要重写&#34;&gt;旧 prompt 为什么需要重写
&lt;/h2&gt;&lt;p&gt;很多生产系统里的 prompt 是一层层堆出来的。模型不稳定时，加一条规则；工具调用出错时，再加一条禁止；输出啰嗦时，再加一段格式要求。时间久了，系统 prompt 会变成一份厚重的操作手册。&lt;/p&gt;
&lt;p&gt;这种写法在旧模型上有时有用，因为模型需要更多步骤约束才能不跑偏。但到了 GPT-5.5，OpenAI 的建议很明确：不要把旧 prompt stack 原样搬过来。&lt;/p&gt;
&lt;p&gt;原因很简单。过度指定过程会带来几类副作用：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;噪声变多，模型要在大量旧规则里找真正重要的约束。&lt;/li&gt;
&lt;li&gt;搜索空间变窄，模型不敢选择更高效的解法。&lt;/li&gt;
&lt;li&gt;输出变机械，看起来像在执行脚本，而不是解决问题。&lt;/li&gt;
&lt;li&gt;旧规则之间可能互相冲突，导致工具调用和最终回答都变笨。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;GPT-5.5 更适合让 prompt 描述目标状态、约束、可用证据和最终输出，而不是把每一步都写死。&lt;/p&gt;
&lt;h2 id=&#34;outcome-first先定义什么叫完成&#34;&gt;outcome-first：先定义什么叫完成
&lt;/h2&gt;&lt;p&gt;官方文档反复强调一个方向：GPT-5.5 最适合 outcome-first prompt。&lt;/p&gt;
&lt;p&gt;也就是说，提示词里应该优先写：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;目标结果是什么。&lt;/li&gt;
&lt;li&gt;什么条件算成功。&lt;/li&gt;
&lt;li&gt;哪些约束不能突破。&lt;/li&gt;
&lt;li&gt;当前可用上下文是什么。&lt;/li&gt;
&lt;li&gt;最终答案需要包含哪些字段或部分。&lt;/li&gt;
&lt;li&gt;证据不足时怎么处理。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;不太推荐的写法是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;先检查 A，再检查 B，然后比较所有字段，再思考全部异常情况，再决定调用哪个工具，再调用工具，最后解释完整过程。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;更适合 GPT-5.5 的写法是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;解决用户的问题。成功标准：
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 基于可用政策和账户数据完成判断
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 如果允许执行操作，先完成操作再回复
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 最终输出包含 completed_actions、customer_message、blockers
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 如果缺少关键证据，只询问最小必要字段
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这不是让 prompt 变得含糊，而是把控制点从“过程顺序”移到“结果和边界”。模型可以自己选择搜索、推理和工具调用路径，但必须对成功标准负责。&lt;/p&gt;
&lt;h2 id=&#34;少用绝对规则多写决策规则&#34;&gt;少用绝对规则，多写决策规则
&lt;/h2&gt;&lt;p&gt;旧 prompt 里常见大量 &lt;code&gt;ALWAYS&lt;/code&gt;、&lt;code&gt;NEVER&lt;/code&gt;、&lt;code&gt;must&lt;/code&gt;、&lt;code&gt;only&lt;/code&gt;。这些词不是不能用，但应该只留给真正不可违反的约束，比如安全规则、必填字段、禁止执行的动作。&lt;/p&gt;
&lt;p&gt;对于“什么时候搜索”“什么时候问用户”“什么时候继续迭代”“什么时候停止”这类判断，GPT-5.5 更适合使用决策规则。&lt;/p&gt;
&lt;p&gt;例如，不要只写：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;永远先搜索三次。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;可以改成：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;先做一次覆盖核心问题的检索。如果前几个结果已经能支持关键事实，就停止检索并作答。只有当证据冲突、缺失或不足以支撑结论时，才继续搜索。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这种写法给了模型判断空间，也给了它停止条件。对需要联网、检索、文件搜索或数据库查询的产品来说，这一点很关键，因为每多一轮工具调用都会带来延迟和成本。&lt;/p&gt;
&lt;h2 id=&#34;给检索设置-retrieval-budget&#34;&gt;给检索设置 retrieval budget
&lt;/h2&gt;&lt;p&gt;GPT-5.5 prompt 里值得单独加的一类规则是 &lt;code&gt;retrieval budget&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它不是预算金额，而是检索停止规则。它告诉模型：什么时候证据已经足够，什么时候应该继续找，什么时候该承认缺证据。&lt;/p&gt;
&lt;p&gt;一个实用写法是：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;普通问答先做一次宽检索，关键词要短且有区分度。如果前几个结果已经能支持核心请求，就基于这些结果回答，不再继续搜索。只有当结果冲突、缺失关键事实或不能支持结论时，才追加检索。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这类规则能减少两种常见问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;搜索不够，答案没有证据。&lt;/li&gt;
&lt;li&gt;搜索过头，模型在工具循环里浪费时间。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;更重要的是，文档还提醒：没有搜到证据，不应该自动变成事实上的“否”。有时正确行为是说明证据不足，或者换一个更小的问题继续查。&lt;/p&gt;
&lt;h2 id=&#34;reasoning-effort-不要一上来拉高&#34;&gt;reasoning effort 不要一上来拉高
&lt;/h2&gt;&lt;p&gt;GPT-5.5 的推理效率更高，所以 OpenAI 建议重新评估 &lt;code&gt;low&lt;/code&gt; 和 &lt;code&gt;medium&lt;/code&gt;，不要一遇到质量问题就直接把 reasoning effort 往上加。&lt;/p&gt;
&lt;p&gt;更稳的顺序是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;先确认 prompt 是否写清楚了目标、输出格式和停止条件。&lt;/li&gt;
&lt;li&gt;加上验证循环，比如测试、引用、复核或渲染检查。&lt;/li&gt;
&lt;li&gt;为工具调用补上持久性规则和完成标准。&lt;/li&gt;
&lt;li&gt;仍然不够时，再提高 reasoning effort。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;换句话说，&lt;code&gt;reasoning.effort&lt;/code&gt; 更像最后的调参旋钮，不应该替代清晰的 prompt 设计。&lt;/p&gt;
&lt;p&gt;如果任务是短分类、字段抽取、支持工单分流、格式转换，可以先从低推理成本开始。如果是长文档综合、多源冲突判断、策略写作、复杂研究，再考虑 &lt;code&gt;medium&lt;/code&gt; 或更高。&lt;/p&gt;
&lt;h2 id=&#34;textverbosity-控制输出不等于控制思考&#34;&gt;text.verbosity 控制输出，不等于控制思考
&lt;/h2&gt;&lt;p&gt;GPT-5.5 对输出格式很可控。官方文档建议使用 &lt;code&gt;text.verbosity&lt;/code&gt; 配合 prompt 里的输出要求。&lt;/p&gt;
&lt;p&gt;默认 &lt;code&gt;text.verbosity&lt;/code&gt; 是 &lt;code&gt;medium&lt;/code&gt;。如果产品需要更短、更干净的回复，可以使用 &lt;code&gt;low&lt;/code&gt;。但这不意味着所有内容都要变短。&lt;/p&gt;
&lt;p&gt;一个典型做法是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;面向用户的状态更新和最终总结保持简短。&lt;/li&gt;
&lt;li&gt;代码、配置、结构化结果需要清楚时，仍然要求可读性。&lt;/li&gt;
&lt;li&gt;不要为了“简短”牺牲字段完整性、引用和必要 caveat。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这对代码类产品尤其有用。可以让聊天回复短一点，但要求生成的代码保持可读变量名、清楚结构和必要注释。&lt;/p&gt;
&lt;h2 id=&#34;preamble-和-phase让长任务更可感知&#34;&gt;preamble 和 phase：让长任务更可感知
&lt;/h2&gt;&lt;p&gt;GPT-5.5 在复杂任务中可能先做推理、计划或准备工具调用，然后才输出可见文字。对流式产品来说，用户会明显感知首 token 等待时间。&lt;/p&gt;
&lt;p&gt;官方建议是：对多步骤、工具密集或长时间运行的任务，让模型先发一个短 preamble。它不需要解释完整计划，只要告诉用户“我会先做什么”。&lt;/p&gt;
&lt;p&gt;例如：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;我会先检查相关文件和现有配置，然后再给出修改方案。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;在 Responses API 的长任务或工具密集工作流里，还要注意 assistant item 的 &lt;code&gt;phase&lt;/code&gt;。如果应用使用 &lt;code&gt;previous_response_id&lt;/code&gt;，API 会自动保留前序 assistant 状态；如果应用手动回放 assistant 输出，就要保留原来的 &lt;code&gt;phase&lt;/code&gt; 值。&lt;/p&gt;
&lt;p&gt;常见约定是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;phase: &amp;quot;commentary&amp;quot;&lt;/code&gt;：中间状态更新。&lt;/li&gt;
&lt;li&gt;&lt;code&gt;phase: &amp;quot;final_answer&amp;quot;&lt;/code&gt;：最终答案。&lt;/li&gt;
&lt;li&gt;不要给 user message 添加 &lt;code&gt;phase&lt;/code&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这部分看起来像底层实现细节，但对有工具调用、状态更新和最终回答的产品很重要。手动回放时弄丢 phase，容易让模型分不清中间进度和最终结论。&lt;/p&gt;
&lt;h2 id=&#34;提示模型检查自己的工作&#34;&gt;提示模型检查自己的工作
&lt;/h2&gt;&lt;p&gt;GPT-5.5 guide 里还有一条非常实用：在可以验证的任务里，给模型验证工具和验证规则。&lt;/p&gt;
&lt;p&gt;对代码 Agent，可以明确要求：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;修改后运行相关单元测试。&lt;/li&gt;
&lt;li&gt;必要时运行 type check 或 lint。&lt;/li&gt;
&lt;li&gt;影响包较大时跑 build。&lt;/li&gt;
&lt;li&gt;全量验证太贵时，至少做最小 smoke test。&lt;/li&gt;
&lt;li&gt;如果验证无法运行，要解释原因和下一个最好检查方式。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;对视觉或页面产物，可以要求先渲染再检查布局、裁切、间距、缺失内容和视觉一致性。&lt;/p&gt;
&lt;p&gt;对工程方案，可以要求计划里包含需求对应关系、涉及文件/API/系统、状态流转、验证命令、失败行为、隐私和安全考虑，以及真正影响实现的开放问题。&lt;/p&gt;
&lt;p&gt;这类规则比“请认真一点”有效得多。它把“认真”落到了可执行检查上。&lt;/p&gt;
&lt;h2 id=&#34;一个更适合-gpt-55-的-prompt-骨架&#34;&gt;一个更适合 GPT-5.5 的 prompt 骨架
&lt;/h2&gt;&lt;p&gt;OpenAI 文档给出的结构可以简化成这样：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt; 1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 6
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 7
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 8
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt; 9
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;10
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;11
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;12
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;13
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;14
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;15
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;16
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;17
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;18
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;19
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;20
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;Role:
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;你是什么角色，要在什么上下文里工作。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;# Personality
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;语气、协作方式、是否需要温度或观点。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;# Goal
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;用户可见的目标结果。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;# Success criteria
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;最终回答前必须满足的条件。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;# Constraints
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;安全、业务、证据、权限、成本和副作用边界。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;# Output
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;输出结构、长度、语气、字段要求。
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;# Stop rules
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;什么时候继续、什么时候重试、什么时候降级、什么时候询问、什么时候停止。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;这个骨架的重点不是“每个 prompt 都要写这么多标题”。它真正想表达的是：复杂任务的 prompt 应该让模型知道目的地、边界和交付物，而不是把每一步都硬编码进去。&lt;/p&gt;
&lt;h2 id=&#34;迁移旧-prompt-的实际顺序&#34;&gt;迁移旧 prompt 的实际顺序
&lt;/h2&gt;&lt;p&gt;如果你现在有一套 GPT-4.1、GPT-4o、GPT-5.2 或 GPT-5.4 的旧 prompt，不建议一次性大改。&lt;/p&gt;
&lt;p&gt;更稳的迁移顺序是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;先切模型，固定当前 reasoning effort 和输出参数。&lt;/li&gt;
&lt;li&gt;跑已有 eval 或真实样例，找出行为变化。&lt;/li&gt;
&lt;li&gt;删除明显过时、重复、互相冲突的过程规则。&lt;/li&gt;
&lt;li&gt;把“步骤要求”改成“成功标准”和“停止条件”。&lt;/li&gt;
&lt;li&gt;补上检索预算、引用规则和缺证据行为。&lt;/li&gt;
&lt;li&gt;为工具任务加验证循环。&lt;/li&gt;
&lt;li&gt;最后再调 &lt;code&gt;reasoning.effort&lt;/code&gt; 和 &lt;code&gt;text.verbosity&lt;/code&gt;。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果没有 eval，至少准备一组典型任务：简单问答、复杂检索、工具调用、格式化输出、拒答/降级、长任务完成。不要只用一个 demo case 判断 prompt 好坏。&lt;/p&gt;
&lt;h2 id=&#34;一张旧-prompt-迁移清单&#34;&gt;一张旧 prompt 迁移清单
&lt;/h2&gt;&lt;p&gt;真正迁移旧 prompt 时，可以先按这张清单过一遍。它的目标不是把 prompt 改得更短，而是把无效约束删掉，把关键约束改成更可验证的形式。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;检查项&lt;/th&gt;
          &lt;th&gt;常见问题&lt;/th&gt;
          &lt;th&gt;建议处理&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;重复规则&lt;/td&gt;
          &lt;td&gt;同一件事在不同段落反复出现，甚至措辞不一致&lt;/td&gt;
          &lt;td&gt;合并成一条清晰规则，只保留最终版本&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;绝对词&lt;/td&gt;
          &lt;td&gt;到处都是 &lt;code&gt;ALWAYS&lt;/code&gt;、&lt;code&gt;NEVER&lt;/code&gt;、&lt;code&gt;must&lt;/code&gt;、&lt;code&gt;only&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;只给安全、合规、权限、必填字段保留绝对约束&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;无停止条件&lt;/td&gt;
          &lt;td&gt;要求模型持续搜索、持续分析、持续修复，但没写什么时候停&lt;/td&gt;
          &lt;td&gt;增加 stop rules，例如证据足够、验证通过、达到轮次或成本上限&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;无验证命令&lt;/td&gt;
          &lt;td&gt;只写“确保正确”，没有测试、lint、引用或检查方式&lt;/td&gt;
          &lt;td&gt;改成具体检查：运行测试、类型检查、构建、引用来源或 smoke test&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;过程太细&lt;/td&gt;
          &lt;td&gt;把每一步都写死，模型只能照流程走&lt;/td&gt;
          &lt;td&gt;改成目标、成功标准、边界和输出要求&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;旧模型补丁&lt;/td&gt;
          &lt;td&gt;为旧模型弱点写的限制仍然保留&lt;/td&gt;
          &lt;td&gt;先删除，再用 eval 判断是否真的还需要&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;工具规则模糊&lt;/td&gt;
          &lt;td&gt;只写“必要时使用工具”&lt;/td&gt;
          &lt;td&gt;写清楚何时调用、何时停止、失败时怎么降级&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;输出格式漂移&lt;/td&gt;
          &lt;td&gt;有格式要求，但没有字段完整性要求&lt;/td&gt;
          &lt;td&gt;明确必填字段、可选字段、缺证据时的占位或说明&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;如果你只能做一件事，优先检查“无停止条件”和“无验证命令”。这两项最容易让 GPT-5.5 在长任务里变成无限工具循环，或者在没有证据时给出看似完整但不可验证的答案。&lt;/p&gt;
&lt;h2 id=&#34;gpt-55-prompt-示例对比&#34;&gt;GPT-5.5 prompt 示例对比
&lt;/h2&gt;&lt;p&gt;下面这几组不是完整系统 prompt，而是迁移时常见的局部改写方式。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;例子 1：检索问答&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;旧写法：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;回答前必须搜索至少 3 次。必须阅读所有相关结果。必须给出完整解释。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;新写法：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;先做一次覆盖核心问题的检索。若前几个结果已经能支持关键事实，停止检索并回答。若结果冲突或缺少关键事实，再追加检索。最终回答说明依据；证据不足时明确说证据不足。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;区别在于，新写法把“搜索次数”改成了“证据是否足够”。它给模型继续查的理由，也给模型停下来的理由。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;例子 2：代码修改&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;旧写法：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;仔细修改代码。不要破坏现有逻辑。完成后告诉我改了什么。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;新写法：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;完成用户要求的最小必要代码修改。成功标准：
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 只修改与任务相关的文件
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 保持现有公开接口兼容，除非用户明确要求变更
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 修改后运行相关单元测试；如果无法运行，说明原因和下一个最好验证方式
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- 最终总结改动、验证结果和剩余风险
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;区别在于，新写法没有泛泛要求“仔细”，而是把谨慎落到文件范围、接口兼容、测试命令和风险说明上。&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;例子 3：结构化输出&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;旧写法：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;请输出 JSON。不要输出多余内容。字段要完整。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;新写法：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;2
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;3
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;4
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;5
&lt;/span&gt;&lt;span class=&#34;lnt&#34;&gt;6
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;输出严格 JSON，不要添加 Markdown。必须包含：
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- status: &amp;#34;ok&amp;#34; | &amp;#34;needs_more_info&amp;#34; | &amp;#34;blocked&amp;#34;
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- answer: string
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- evidence: string[]
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;- missing_info: string[]
&lt;/span&gt;&lt;/span&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;如果证据不足，status 使用 &amp;#34;needs_more_info&amp;#34;，不要编造 evidence。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;区别在于，新写法不仅要求 JSON，还定义了缺证据时的合法输出路径。这样模型不用在“必须完整”和“证据不足”之间硬编。&lt;/p&gt;
&lt;h2 id=&#34;参数怎么配&#34;&gt;参数怎么配
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;reasoning.effort&lt;/code&gt; 和 &lt;code&gt;text.verbosity&lt;/code&gt; 不应该孤立看。前者影响模型投入多少推理，后者影响输出有多详细。一个常见误区是：质量不够就先把 &lt;code&gt;reasoning.effort&lt;/code&gt; 拉高，输出太长就把 prompt 写得更凶。更稳的做法是按任务类型配。&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;场景&lt;/th&gt;
          &lt;th&gt;reasoning.effort&lt;/th&gt;
          &lt;th&gt;text.verbosity&lt;/th&gt;
          &lt;th&gt;说明&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;字段抽取、分类、短格式转换&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;none&lt;/code&gt; 或 &lt;code&gt;low&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;low&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;追求低延迟，重点是输出 schema 清楚&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;客服分流、简单工具路由&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;low&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;low&lt;/code&gt; 或 &lt;code&gt;medium&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;规则明确时不需要高推理，保留必要解释即可&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;普通问答、轻量检索总结&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;low&lt;/code&gt; 或 &lt;code&gt;medium&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;medium&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;需要一点判断，但不必默认高推理&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;多文档综合、冲突判断&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;medium&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;medium&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;先保证证据规则和引用，再考虑提高 effort&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;复杂代码修改、长任务 Agent&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;medium&lt;/code&gt; 或 &lt;code&gt;high&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;用户回复 &lt;code&gt;low&lt;/code&gt;，代码输出要求清晰&lt;/td&gt;
          &lt;td&gt;聊天更新可以短，代码和 diff 要可读&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;策略、方案、风险分析&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;medium&lt;/code&gt; 或 &lt;code&gt;high&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;&lt;code&gt;medium&lt;/code&gt; 或 &lt;code&gt;high&lt;/code&gt;&lt;/td&gt;
          &lt;td&gt;需要解释取舍、风险和假设&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;对大多数应用来说，可以先从 &lt;code&gt;low&lt;/code&gt; 或 &lt;code&gt;medium&lt;/code&gt; 开始。只有当 prompt 已经写清楚成功标准、停止条件和验证规则，模型仍然遗漏关键约束时，再提高 &lt;code&gt;reasoning.effort&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;text.verbosity&lt;/code&gt; 也不是越低越好。低 verbosity 适合状态更新、客服短答、操作结果摘要；但对于代码、配置、迁移方案、审计说明，过低的输出会让结果难以审查。&lt;/p&gt;
&lt;h2 id=&#34;哪些规则适合保留&#34;&gt;哪些规则适合保留
&lt;/h2&gt;&lt;p&gt;迁移到 GPT-5.5 不是把旧 prompt 全部删掉。下面这些规则通常应该保留，而且要写得更明确。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;安全规则&lt;/strong&gt;：不能执行的动作、不能生成的内容、需要拒绝或降级的场景。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;合规规则&lt;/strong&gt;：行业政策、地区限制、年龄限制、审计要求、审批要求。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;隐私规则&lt;/strong&gt;：个人信息处理、敏感数据脱敏、日志记录限制、数据不得外传。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;输出字段&lt;/strong&gt;：API 响应、JSON schema、表格字段、前端组件需要的固定结构。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;业务边界&lt;/strong&gt;：退款规则、账号权限、服务等级、合同范围、人工客服升级条件。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工具权限边界&lt;/strong&gt;：哪些工具能调用、哪些工具必须先确认、哪些工具禁止调用。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;引用和证据规则&lt;/strong&gt;：什么时候必须引用来源，证据冲突时怎么处理。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些规则不是旧包袱，而是产品契约。区别只在于，迁移时要把它们从长篇口号改成可执行约束。&lt;/p&gt;
&lt;p&gt;例如：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;不要泄露用户隐私。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;p&gt;可以改成：&lt;/p&gt;
&lt;div class=&#34;highlight&#34;&gt;&lt;div class=&#34;chroma&#34;&gt;
&lt;table class=&#34;lntable&#34;&gt;&lt;tr&gt;&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code&gt;&lt;span class=&#34;lnt&#34;&gt;1
&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;
&lt;td class=&#34;lntd&#34;&gt;
&lt;pre tabindex=&#34;0&#34; class=&#34;chroma&#34;&gt;&lt;code class=&#34;language-text&#34; data-lang=&#34;text&#34;&gt;&lt;span class=&#34;line&#34;&gt;&lt;span class=&#34;cl&#34;&gt;不要在最终回答中输出完整手机号、身份证号、访问 token、API key 或内部用户 ID。需要引用时只显示脱敏版本，例如手机号保留后 4 位。
&lt;/span&gt;&lt;/span&gt;&lt;/code&gt;&lt;/pre&gt;&lt;/td&gt;&lt;/tr&gt;&lt;/table&gt;
&lt;/div&gt;
&lt;/div&gt;&lt;h2 id=&#34;哪些内容不要误删&#34;&gt;哪些内容不要误删
&lt;/h2&gt;&lt;p&gt;删 prompt 时最危险的不是删掉废话，而是把真正的系统边界一起删掉。下面这些内容即使看起来“很老”，也不应该轻易删除。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;隐私与数据处理要求&lt;/strong&gt;：尤其是日志、导出、跨系统传输、第三方工具调用相关规则。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;安全和权限限制&lt;/strong&gt;：删除数据、转账、发邮件、改权限、执行 shell 命令等高风险动作的确认规则。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;引用格式&lt;/strong&gt;：如果产品依赖 citation、脚注、来源列表或审计链路，不要只因为它占空间就删掉。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;工具调用边界&lt;/strong&gt;：哪些工具只读、哪些工具可写、哪些工具必须用户确认。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;失败行为&lt;/strong&gt;：API 超时、数据缺失、检索失败、权限不足时应该怎么降级。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;业务硬规则&lt;/strong&gt;：价格、退款、封禁、风控、合规审核这类不能由模型自由发挥的规则。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;一个简单判断方法是：如果删掉某条规则只会让输出风格变一点，可以考虑删；如果删掉后可能导致越权、泄露、误操作、错误承诺或审计断链，就应该保留，并改写得更精确。&lt;/p&gt;
&lt;h2 id=&#34;总结&#34;&gt;总结
&lt;/h2&gt;&lt;p&gt;GPT-5.5 prompting guide 的核心不是“写更高级的提示词”，而是把旧 prompt 里过度指定过程的部分删掉。&lt;/p&gt;
&lt;p&gt;更适合 GPT-5.5 的提示词应该做到：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;目标优先，而不是步骤优先。&lt;/li&gt;
&lt;li&gt;成功标准明确，而不是泛泛要求“做好”。&lt;/li&gt;
&lt;li&gt;有停止条件，而不是无限搜索或无限工具循环。&lt;/li&gt;
&lt;li&gt;有证据预算，而不是查不到就乱答或一直查。&lt;/li&gt;
&lt;li&gt;有验证规则，而不是只靠模型自觉。&lt;/li&gt;
&lt;li&gt;参数调优靠后，而不是一上来拉高 reasoning effort。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你的旧系统 prompt 已经很长，迁移到 GPT-5.5 的第一步可能不是加内容，而是删内容。把真正不可违反的规则留下，把过程细节改成结果、边界和检查项，通常比继续堆提示词更有效。&lt;/p&gt;
&lt;h2 id=&#34;参考资料&#34;&gt;参考资料
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;OpenAI Prompt guidance：&lt;a class=&#34;link&#34; href=&#34;https://developers.openai.com/api/docs/guides/prompt-guidance&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://developers.openai.com/api/docs/guides/prompt-guidance&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;OpenAI Using GPT-5.5：&lt;a class=&#34;link&#34; href=&#34;https://developers.openai.com/api/docs/guides/latest-model&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://developers.openai.com/api/docs/guides/latest-model&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>GPT-5.5、GPT-5.4 与 GPT-5.3-Codex 如何取舍</title>
        <link>https://knightli.com/2026/05/10/gpt-5-5-vs-gpt-5-4-vs-gpt-5-3-codex/</link>
        <pubDate>Sun, 10 May 2026 08:43:17 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/10/gpt-5-5-vs-gpt-5-4-vs-gpt-5-3-codex/</guid>
        <description>&lt;p&gt;如果只看一句话，结论其实很直接：默认选 &lt;code&gt;GPT-5.5&lt;/code&gt;，预算更敏感或任务难度中等时选 &lt;code&gt;GPT-5.4&lt;/code&gt;，只有在 Codex 环境里做更长时间的软件工程任务，或者需要 Cloud Tasks、Code Review 这类能力时，再重点看 &lt;code&gt;GPT-5.3-Codex&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;这个判断不只是主观体验，OpenAI 在 Codex 官方文档里的推荐也已经比较明确。到 &lt;code&gt;2026-05-10&lt;/code&gt; 为止，Codex 文档仍然写着：大多数任务优先从 &lt;code&gt;gpt-5.5&lt;/code&gt; 开始；如果还没有开放 &lt;code&gt;gpt-5.5&lt;/code&gt;，继续用 &lt;code&gt;gpt-5.4&lt;/code&gt;；轻量任务或子任务则更适合 &lt;code&gt;gpt-5.4-mini&lt;/code&gt;。&lt;/p&gt;
&lt;h2 id=&#34;三个模型的定位差异&#34;&gt;三个模型的定位差异
&lt;/h2&gt;&lt;p&gt;先看官方定位。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.5&lt;/code&gt; 是 Codex 里的最新前沿模型，面向复杂编程、电脑操作、知识工作和研究型工作流。它更像“默认主力模型”，适合复杂分析、多步任务、跨文件修改、方案设计和较重的文档工作。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.4&lt;/code&gt; 则是一个更稳的全能型选择。官方描述是：它把 &lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 的强代码能力带到了更强的推理、工具使用和 agentic workflow 里。换句话说，它不是“弱化版 5.5”，而是一个更均衡、更容易长期当主力的模型。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 仍然是很强的代码模型，但它的核心优势更集中在真实软件工程和 Codex 原生工作流里。官方文档还专门说明：它是面向 agentic coding tasks 优化的模型，而且 &lt;code&gt;GPT-5.4&lt;/code&gt; 的编码能力本身就已经继承了它的长处。&lt;/p&gt;
&lt;p&gt;所以今天再选模型，不太适合把 &lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 直接理解成“最强编程模型”。在大部分日常开发场景里，更推荐先看 &lt;code&gt;GPT-5.5&lt;/code&gt; 和 &lt;code&gt;GPT-5.4&lt;/code&gt;。&lt;/p&gt;
&lt;h2 id=&#34;按使用场景怎么选&#34;&gt;按使用场景怎么选
&lt;/h2&gt;&lt;p&gt;如果你的任务是日常问答、复杂解释、资料整理、文件分析、长文信息综合，&lt;code&gt;GPT-5.5&lt;/code&gt; 最合适。它不仅适合写代码，也更适合处理“代码之外但又很费脑子”的知识工作。&lt;/p&gt;
&lt;p&gt;如果你的任务是复杂编程、重构、排错、架构设计、多文件修改，仍然优先 &lt;code&gt;GPT-5.5&lt;/code&gt;。Codex 官方推荐也是这样写的：在能用 &lt;code&gt;gpt-5.5&lt;/code&gt; 的地方，大多数任务先从它开始。&lt;/p&gt;
&lt;p&gt;如果你更在意额度和消耗，希望在质量很高的前提下把成本压下来，&lt;code&gt;GPT-5.4&lt;/code&gt; 往往是更合理的默认值。对很多常规开发、普通改写、一般翻译、脚本生成和 bug 修复任务来说，&lt;code&gt;GPT-5.4&lt;/code&gt; 已经足够强，而且更省额度。&lt;/p&gt;
&lt;p&gt;如果你是在 Codex CLI、IDE 扩展或 App 里做更像“工程代理”的事情，比如长时间读仓库、持续改代码、排队跑任务、做 Cloud Tasks 或 Code Review，&lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 仍然有存在感。原因不是它比 &lt;code&gt;GPT-5.5&lt;/code&gt; 更先进，而是当前 Codex 的 Cloud Tasks 和 Code Review 仍然运行在 &lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 上，这决定了它在工程流里还没有退场。&lt;/p&gt;
&lt;h2 id=&#34;消耗额度差多少&#34;&gt;消耗额度差多少
&lt;/h2&gt;&lt;p&gt;在 Codex 的 credits 计费表里，这三个模型的差异非常清楚。&lt;/p&gt;
&lt;p&gt;按 Business / New Enterprise 的 token 计费口径看：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：输入 &lt;code&gt;125 credits / 1M tokens&lt;/code&gt;，缓存输入 &lt;code&gt;12.5 credits&lt;/code&gt;，输出 &lt;code&gt;750 credits&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPT-5.4&lt;/code&gt;：输入 &lt;code&gt;62.5 credits / 1M tokens&lt;/code&gt;，缓存输入 &lt;code&gt;6.25 credits&lt;/code&gt;，输出 &lt;code&gt;375 credits&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt;：输入 &lt;code&gt;43.75 credits / 1M tokens&lt;/code&gt;，缓存输入 &lt;code&gt;4.375 credits&lt;/code&gt;，输出 &lt;code&gt;350 credits&lt;/code&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这意味着，按名义费率看，&lt;code&gt;GPT-5.4&lt;/code&gt; 大约是 &lt;code&gt;GPT-5.5&lt;/code&gt; 的一半，做同样长度的输入输出时，通常能省接近 &lt;code&gt;50%&lt;/code&gt; 的额度。&lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 的输入更便宜，但输出已经和 &lt;code&gt;GPT-5.4&lt;/code&gt; 很接近，所以它并不是那种“明显更便宜很多”的选择。&lt;/p&gt;
&lt;p&gt;还有一个容易忽略的点：Codex 官方又特别写了一句，&lt;code&gt;GPT-5.5 uses significantly fewer tokens to achieve results comparable to GPT-5.4&lt;/code&gt;。也就是说，虽然它的单价更高，但在某些复杂任务里，可能会靠更少的 token 和更少返工把差距拉回来。&lt;/p&gt;
&lt;p&gt;不过对固定模板文章改写、翻译、SEO 描述生成这种输入输出长度都比较稳定的任务来说，这种“少走弯路”的优势通常没有复杂工程任务那么明显。实际消耗上，&lt;code&gt;GPT-5.4&lt;/code&gt; 大多还是更省，通常可以理解为省掉大约 &lt;code&gt;45%&lt;/code&gt; 到 &lt;code&gt;50%&lt;/code&gt;。&lt;/p&gt;
&lt;h2 id=&#34;codex-使用限制上的区别&#34;&gt;Codex 使用限制上的区别
&lt;/h2&gt;&lt;p&gt;除了单价，Codex 里的可用方式也不一样。&lt;/p&gt;
&lt;p&gt;截至 &lt;code&gt;2026-05-10&lt;/code&gt;，&lt;code&gt;GPT-5.5&lt;/code&gt; 在 Codex 里是推荐模型，但目前只在使用 ChatGPT 登录的 Codex 中提供，不支持 API key 鉴权。&lt;code&gt;GPT-5.4&lt;/code&gt; 和 &lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 则支持 API 访问。&lt;/p&gt;
&lt;p&gt;另外，&lt;code&gt;GPT-5.5&lt;/code&gt; 和 &lt;code&gt;GPT-5.4&lt;/code&gt; 目前都不支持 Codex Cloud Tasks 和 Code Review；这两项仍然是 &lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 的主场。也就是说，如果你说的是“在 Codex 里长时间跑工程任务”，那就不能只看模型本身强不强，还要看对应功能是不是只有 &lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 才能跑。&lt;/p&gt;
&lt;p&gt;如果你只是本地消息使用，Plus 计划下官方给出的 5 小时窗口大致是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：&lt;code&gt;15-80&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPT-5.4&lt;/code&gt;：&lt;code&gt;20-100&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt;：&lt;code&gt;30-150&lt;/code&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;从这里也能看出一个现实差异：&lt;code&gt;GPT-5.5&lt;/code&gt; 最强，但在固定额度下可用次数通常更少；&lt;code&gt;GPT-5.4&lt;/code&gt; 更均衡；&lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 在本地消息上反而看起来更耐用一些。&lt;/p&gt;
&lt;h2 id=&#34;常用场景怎么选&#34;&gt;常用场景怎么选
&lt;/h2&gt;&lt;p&gt;日常使用里有不少高频任务。更实用的看法，不是抽象地说“哪个更强”，而是按场景一个一个拆开看。&lt;/p&gt;
&lt;h3 id=&#34;1-日常问答资料整理长文总结&#34;&gt;1. 日常问答、资料整理、长文总结
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：最适合。它更擅长处理模糊问题、补齐上下文、把零散信息整理成结构化结果。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.4&lt;/code&gt;：适合普通总结和批量整理。难度不高、数量很多时，通常更划算。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt;：不太适合当主力。能做，但这不是它最有优势的场景。&lt;/p&gt;
&lt;h3 id=&#34;2-技术概念解释代码讲解读旧项目&#34;&gt;2. 技术概念解释、代码讲解、读旧项目
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：适合复杂项目。跨文件关系多、调用链长、历史包袱重时更稳。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.4&lt;/code&gt;：适合常规阅读理解。看函数、看模块、解释配置、帮你快速接手项目都很好用。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt;：更偏工程执行，不是最优先的“讲解型模型”。&lt;/p&gt;
&lt;h3 id=&#34;3-写脚本小工具sqlshell正则&#34;&gt;3. 写脚本、小工具、SQL、Shell、正则
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：适合脚本背后还有系统设计、联动多个服务、涉及复杂约束的情况。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.4&lt;/code&gt;：最适合当默认主力。大多数脚本、小工具、SQL 和命令行任务都够用，而且更省额度。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt;：如果脚本只是整个工程代理链条的一部分，可以考虑；单独写小脚本时不必优先选它。&lt;/p&gt;
&lt;h3 id=&#34;4-改-bug改小功能补测试普通开发&#34;&gt;4. 改 bug、改小功能、补测试、普通开发
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：适合稍复杂的修复，比如需要先分析原因、再跨文件修改、最后补测试。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.4&lt;/code&gt;：最适合日常开发主力。普通 bug、小功能、测试样板、重命名、格式整理这类任务，性价比最好。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt;：能做，但如果没有 Cloud Tasks 或工程代理需求，通常不是第一选择。&lt;/p&gt;
&lt;h3 id=&#34;5-复杂重构架构设计疑难排错&#34;&gt;5. 复杂重构、架构设计、疑难排错
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：最适合。复杂任务里最贵的是返工，不是单次输出；&lt;code&gt;GPT-5.5&lt;/code&gt; 更适合做主解题模型。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.4&lt;/code&gt;：适合中等复杂度任务。可以做方案和重构，但在特别长的上下文、多步推理和高不确定性问题上通常不如 &lt;code&gt;GPT-5.5&lt;/code&gt; 稳。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt;：偏执行，不是这类高难决策任务的默认优先级。&lt;/p&gt;
&lt;h3 id=&#34;6-批量轻任务重复任务拆子任务&#34;&gt;6. 批量轻任务、重复任务、拆子任务
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：能做，但通常不划算。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.4&lt;/code&gt;：最适合。批量改注释、批量改格式、批量生成样板代码、批量改内容时，最平衡。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt;：如果任务已经放进 Codex 的工程流程里，可以考虑；单看性价比，仍然通常不如 &lt;code&gt;GPT-5.4&lt;/code&gt;。&lt;/p&gt;
&lt;h3 id=&#34;7-自动化流水线代理执行持续读写仓库&#34;&gt;7. 自动化流水线、代理执行、持续读写仓库
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：适合做前期方案设计、规则制定、复杂任务拆分。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.4&lt;/code&gt;：适合写自动化脚本、补中等复杂度流程逻辑，尤其是在 API 可接入的情况下。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt;：最值得关注。因为 Codex 的 Cloud Tasks 和 Code Review 还运行在它上面，所以它更适合“让系统自己跑”的工程场景。&lt;/p&gt;
&lt;h3 id=&#34;8-重要页面文案品牌介绍最终润色&#34;&gt;8. 重要页面文案、品牌介绍、最终润色
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：最适合。自然度、风格控制、上下文一致性最好。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.4&lt;/code&gt;：适合大多数普通页面和日常更新，重要页面可以先写初稿再交给 &lt;code&gt;GPT-5.5&lt;/code&gt; 精修。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt;：不适合当主要文案模型。&lt;/p&gt;
&lt;h3 id=&#34;9-网站固定模板文章改写翻译seo-描述&#34;&gt;9. 网站固定模板文章改写、翻译、SEO 描述
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：适合做模板设计、最终润色、重要页面定稿，以及把中文翻成更自然的英文。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.4&lt;/code&gt;：最适合批量生产。普通文章改写、固定结构翻译、商品文案重写、Meta 描述批量生成，通常质量和成本最平衡。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt;：不适合当主要文案模型，更适合写批处理脚本、清洗 HTML、保留标签结构、改自动发布流程。&lt;/p&gt;
&lt;h3 id=&#34;10-电商商品文案分类页批量内容运营&#34;&gt;10. 电商商品文案、分类页、批量内容运营
&lt;/h3&gt;&lt;p&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：适合定规则、做抽检、做高价值页面的最终润色。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.4&lt;/code&gt;：最适合批量生产。商品标题、分类页说明、批量活动文案、长尾 SEO 内容这类任务上，质量和成本更平衡。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt;：适合写抓取、清洗、批处理、自动发布脚本，不适合负责主要文案。&lt;/p&gt;
&lt;p&gt;如果把这些场景进一步压缩成一句话：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;复杂脑力活、复杂分析、复杂文案：优先 &lt;code&gt;GPT-5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;日常开发、批量生产、重复任务：优先 &lt;code&gt;GPT-5.4&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Codex 工程代理、Cloud Tasks、Code Review：重点看 &lt;code&gt;GPT-5.3-Codex&lt;/code&gt;&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;最后怎么取舍&#34;&gt;最后怎么取舍
&lt;/h2&gt;&lt;p&gt;如果你只是平时写代码、改 bug、问技术问题、顺手做一些文档工作，&lt;code&gt;GPT-5.4&lt;/code&gt; 是很稳的主力选择。&lt;/p&gt;
&lt;p&gt;如果你要做的是更复杂的项目分析、多文件修改、架构方案、深度排错，或者希望一个模型同时覆盖编程和复杂知识工作，直接优先 &lt;code&gt;GPT-5.5&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;如果你在 Codex 环境里看重的是工程工作流本身，比如 Cloud Tasks、Code Review、长时间代理执行，那么 &lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 仍然值得保留，但它已经不太适合被当成“默认第一选择”。&lt;/p&gt;
&lt;p&gt;对固定模板文章站来说，更实用的搭配通常是：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;code&gt;GPT-5.4&lt;/code&gt; 负责批量生产&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPT-5.5&lt;/code&gt; 负责定模板、做抽检、做最终润色&lt;/li&gt;
&lt;li&gt;&lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 负责写自动化工具，而不是负责主要文案&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;现在更合理的默认顺序是：&lt;code&gt;GPT-5.5&lt;/code&gt; 第一，&lt;code&gt;GPT-5.4&lt;/code&gt; 第二，&lt;code&gt;GPT-5.3-Codex&lt;/code&gt; 放到更偏工程代理和 Codex 特定能力的场景里使用。&lt;/p&gt;
&lt;p&gt;如果你问的是“同样一篇模板文章改写，&lt;code&gt;GPT-5.4&lt;/code&gt; 比 &lt;code&gt;GPT-5.5&lt;/code&gt; 能省多少”，按官方 credits 表和这类任务的典型 token 结构看，通常可以按“省接近一半”来理解。对批量站内容来说，这个差距已经足够大，所以最常见的做法不是全程上 &lt;code&gt;GPT-5.5&lt;/code&gt;，而是先用 &lt;code&gt;GPT-5.5&lt;/code&gt; 把规则和风格定好，再把大批量任务交给 &lt;code&gt;GPT-5.4&lt;/code&gt;。&lt;/p&gt;
</description>
        </item>
        <item>
        <title>GPT-5.5、GPT-5.5 Instant、GPT-5.5 Thinking 和 GPT-5.5 Pro 有什么区别</title>
        <link>https://knightli.com/2026/05/07/gpt-5-5-instant-thinking-pro-differences/</link>
        <pubDate>Thu, 07 May 2026 21:59:33 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/07/gpt-5-5-instant-thinking-pro-differences/</guid>
        <description>&lt;p&gt;OpenAI 现在把 GPT-5.5 拆成了几个更明确的使用层级：&lt;code&gt;Instant&lt;/code&gt;、&lt;code&gt;Thinking&lt;/code&gt; 和 &lt;code&gt;Pro&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;很多人看到 &lt;code&gt;GPT-5.5&lt;/code&gt;、&lt;code&gt;GPT-5.5 Instant&lt;/code&gt;、&lt;code&gt;GPT-5.5 Thinking&lt;/code&gt;、&lt;code&gt;GPT-5.5 Pro&lt;/code&gt; 会混在一起。简单说：&lt;code&gt;GPT-5.5&lt;/code&gt; 是这一代模型能力的总称，&lt;code&gt;Instant&lt;/code&gt; 是日常快速模型，&lt;code&gt;Thinking&lt;/code&gt; 是深度推理模式，&lt;code&gt;Pro&lt;/code&gt; 是更高强度的研究级模式。&lt;/p&gt;
&lt;h2 id=&#34;快速对比&#34;&gt;快速对比
&lt;/h2&gt;&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;名称&lt;/th&gt;
          &lt;th&gt;本质&lt;/th&gt;
          &lt;th&gt;适合场景&lt;/th&gt;
          &lt;th&gt;速度/成本&lt;/th&gt;
          &lt;th&gt;可用性&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;GPT-5.5&lt;/td&gt;
          &lt;td&gt;GPT-5.5 主模型/家族名；在 ChatGPT 里通常对应 GPT-5.5 Thinking 的能力定位&lt;/td&gt;
          &lt;td&gt;复杂工作、代码、研究、分析、工具调用&lt;/td&gt;
          &lt;td&gt;比 Instant 更重，但能力更强&lt;/td&gt;
          &lt;td&gt;Plus、Pro、Business、Enterprise&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;GPT-5.5 Instant&lt;/td&gt;
          &lt;td&gt;快速默认模型，替代 GPT-5.3 Instant&lt;/td&gt;
          &lt;td&gt;日常问答、写作、总结、轻量代码、快速查询&lt;/td&gt;
          &lt;td&gt;最快、最省额度&lt;/td&gt;
          &lt;td&gt;面向所有 ChatGPT 用户逐步推出&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;GPT-5.5 Thinking&lt;/td&gt;
          &lt;td&gt;深度推理模式&lt;/td&gt;
          &lt;td&gt;难题、长上下文分析、复杂代码、研究、文档密集任务&lt;/td&gt;
          &lt;td&gt;较慢，但推理更稳&lt;/td&gt;
          &lt;td&gt;付费用户可手动选择&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;GPT-5.5 Pro&lt;/td&gt;
          &lt;td&gt;更高强度的研究级模式&lt;/td&gt;
          &lt;td&gt;高风险/高精度任务：法律、商业、教育、数据科学、科研分析&lt;/td&gt;
          &lt;td&gt;最慢、最重，追求质量&lt;/td&gt;
          &lt;td&gt;Pro、Business、Enterprise、Edu&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;如果只想记一个选择规则：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;日常快速任务&lt;/strong&gt;：用 &lt;code&gt;GPT-5.5 Instant&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;复杂推理和代码分析&lt;/strong&gt;：用 &lt;code&gt;GPT-5.5 Thinking&lt;/code&gt;。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;特别难、特别重要、需要更全面严谨&lt;/strong&gt;：用 &lt;code&gt;GPT-5.5 Pro&lt;/code&gt;。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;gpt-55-是什么&#34;&gt;GPT-5.5 是什么
&lt;/h2&gt;&lt;p&gt;单独说 &lt;code&gt;GPT-5.5&lt;/code&gt; 时，通常是在说 GPT-5.5 这一代主模型能力，而不是某一个固定按钮。&lt;/p&gt;
&lt;p&gt;OpenAI 对 GPT-5.5 的定位是“面向真实工作的更强模型”。它重点提升的是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;agentic coding；&lt;/li&gt;
&lt;li&gt;复杂代码调试；&lt;/li&gt;
&lt;li&gt;研究和资料综合；&lt;/li&gt;
&lt;li&gt;文档、表格、演示文稿生成；&lt;/li&gt;
&lt;li&gt;计算机使用和跨工具工作；&lt;/li&gt;
&lt;li&gt;长任务中的持续推理和自我检查。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;在 ChatGPT 里，用户看到的不是一个笼统的 &lt;code&gt;GPT-5.5&lt;/code&gt; 按钮，而是更具体的 &lt;code&gt;Instant&lt;/code&gt;、&lt;code&gt;Thinking&lt;/code&gt;、&lt;code&gt;Pro&lt;/code&gt;。所以如果有人说“我在用 GPT-5.5”，最好再问一句：是 Instant、Thinking，还是 Pro？&lt;/p&gt;
&lt;h2 id=&#34;gpt-55-instant默认快速日常使用&#34;&gt;GPT-5.5 Instant：默认、快速、日常使用
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;GPT-5.5 Instant&lt;/code&gt; 是新的快速默认模型。OpenAI 官方说明里，它开始替代 &lt;code&gt;GPT-5.3 Instant&lt;/code&gt;，成为 ChatGPT 的默认模型，并在 API 中作为 &lt;code&gt;chat-latest&lt;/code&gt; 提供。&lt;/p&gt;
&lt;p&gt;它适合这些任务：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;日常聊天；&lt;/li&gt;
&lt;li&gt;快速问答；&lt;/li&gt;
&lt;li&gt;普通写作；&lt;/li&gt;
&lt;li&gt;总结文章；&lt;/li&gt;
&lt;li&gt;改写邮件；&lt;/li&gt;
&lt;li&gt;轻量代码解释；&lt;/li&gt;
&lt;li&gt;简单表格和清单；&lt;/li&gt;
&lt;li&gt;不需要长时间推理的任务。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Instant 的核心优势是速度和默认可用性。你不需要每次都手动选择推理模式，也不需要为普通问题付出更高延迟。&lt;/p&gt;
&lt;p&gt;它还有一个变化：OpenAI 强调 GPT-5.5 Instant 的回答更清晰、更简洁，并且个性化能力更强。对普通用户来说，这意味着它更适合“每天一直开着用”。&lt;/p&gt;
&lt;p&gt;需要注意的是，Instant 不是“最强模式”。遇到复杂数学、长代码、架构设计、多文件分析、严肃研究时，它可能会自动切换到 Thinking，也可能需要你手动选择 Thinking。&lt;/p&gt;
&lt;h2 id=&#34;gpt-55-thinking复杂任务的主力&#34;&gt;GPT-5.5 Thinking：复杂任务的主力
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;GPT-5.5 Thinking&lt;/code&gt; 是更适合复杂任务的推理模式。&lt;/p&gt;
&lt;p&gt;它适合这些场景：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;代码调试；&lt;/li&gt;
&lt;li&gt;架构设计；&lt;/li&gt;
&lt;li&gt;多步骤推理；&lt;/li&gt;
&lt;li&gt;长文档分析；&lt;/li&gt;
&lt;li&gt;学术资料整理；&lt;/li&gt;
&lt;li&gt;商业方案推演；&lt;/li&gt;
&lt;li&gt;数据分析解释；&lt;/li&gt;
&lt;li&gt;需要比较、权衡、验证的任务。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Thinking 的特点是会花更多时间推理。OpenAI Help Center 提到，当 GPT-5.5 Thinking 或 GPT-5.5 Pro 开始推理时，可能会先显示一个简短 preamble，说明它打算怎么做。用户也可以在模型还在 thinking 时追加指令，提前调整方向。&lt;/p&gt;
&lt;p&gt;在 ChatGPT 里，手动选择 Thinking 时，还可以调整 thinking time。官方说明中，Plus 和 Business 用户可以使用 &lt;code&gt;Standard&lt;/code&gt; 和 &lt;code&gt;Extended&lt;/code&gt;；Pro 用户还会有 &lt;code&gt;Light&lt;/code&gt; 和 &lt;code&gt;Heavy&lt;/code&gt; 等更多选项。&lt;/p&gt;
&lt;p&gt;我的理解是：Thinking 是“认真干活”的默认选择。只要任务涉及多步骤、长上下文或高准确性要求，就比 Instant 更合适。&lt;/p&gt;
&lt;h2 id=&#34;gpt-55-pro研究级更重更严谨&#34;&gt;GPT-5.5 Pro：研究级、更重、更严谨
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;GPT-5.5 Pro&lt;/code&gt; 是面向更难问题和更高精度工作的模式。&lt;/p&gt;
&lt;p&gt;它适合这些场景：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;法律材料分析；&lt;/li&gt;
&lt;li&gt;商业研究；&lt;/li&gt;
&lt;li&gt;教育和课程设计；&lt;/li&gt;
&lt;li&gt;数据科学；&lt;/li&gt;
&lt;li&gt;科研资料综合；&lt;/li&gt;
&lt;li&gt;高风险决策前的深度审阅；&lt;/li&gt;
&lt;li&gt;多文档、多约束、多轮验证任务。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;OpenAI 在 GPT-5.5 发布说明中提到，早期测试者认为 GPT-5.5 Pro 相比 GPT-5.4 Pro，在完整性、结构性、准确性、相关性和实用性上都有明显提升，尤其在商业、法律、教育和数据科学领域表现更强。&lt;/p&gt;
&lt;p&gt;Pro 的缺点也很明显：它更慢、更重，不适合每个小问题都用。它更像“专家审阅/研究伙伴”，而不是日常聊天入口。&lt;/p&gt;
&lt;p&gt;另外，Pro 在工具支持上有特殊限制。OpenAI Help Center 写明，Apps、Memory、Canvas 和图像生成不适用于 Pro。如果你的任务需要这些 ChatGPT 功能，可能要用 Instant 或 Thinking。&lt;/p&gt;
&lt;h2 id=&#34;工具支持有什么不同&#34;&gt;工具支持有什么不同
&lt;/h2&gt;&lt;p&gt;根据 OpenAI Help Center，&lt;code&gt;GPT-5.5 Instant&lt;/code&gt; 和 &lt;code&gt;GPT-5.5 Thinking&lt;/code&gt; 支持 ChatGPT 的常用工具，包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Web search；&lt;/li&gt;
&lt;li&gt;Data analysis；&lt;/li&gt;
&lt;li&gt;Image analysis；&lt;/li&gt;
&lt;li&gt;File analysis；&lt;/li&gt;
&lt;li&gt;Canvas；&lt;/li&gt;
&lt;li&gt;Image generation；&lt;/li&gt;
&lt;li&gt;Memory；&lt;/li&gt;
&lt;li&gt;Custom Instructions。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;code&gt;GPT-5.5 Pro&lt;/code&gt; 更偏研究级推理，但不是所有 ChatGPT 工具都可用。尤其要注意：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Apps 不可用；&lt;/li&gt;
&lt;li&gt;Memory 不可用；&lt;/li&gt;
&lt;li&gt;Canvas 不可用；&lt;/li&gt;
&lt;li&gt;图像生成不可用。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以选择模型时，不只看“哪个更聪明”，还要看你要用哪些工具。&lt;/p&gt;
&lt;h2 id=&#34;上下文窗口有什么区别&#34;&gt;上下文窗口有什么区别
&lt;/h2&gt;&lt;p&gt;官方 Help Center 给出的 ChatGPT 上下文窗口说明大致是：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;模式&lt;/th&gt;
          &lt;th&gt;上下文窗口&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;GPT-5.5 Instant&lt;/td&gt;
          &lt;td&gt;Free：16K；Plus/Business：32K；Pro/Enterprise：128K&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;GPT-5.5 Thinking&lt;/td&gt;
          &lt;td&gt;付费档手动选择时通常为 256K；Pro 档可到 400K&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;这意味着：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;普通聊天和短文档，Instant 足够；&lt;/li&gt;
&lt;li&gt;多文件、多轮研究、长代码库分析，Thinking 更合适；&lt;/li&gt;
&lt;li&gt;特别长、特别复杂的高精度任务，Pro 用户可以利用更大的上下文和更重推理。&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id=&#34;怎么选&#34;&gt;怎么选
&lt;/h2&gt;&lt;h3 id=&#34;日常问答&#34;&gt;日常问答
&lt;/h3&gt;&lt;p&gt;用 &lt;code&gt;GPT-5.5 Instant&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它速度快，足够聪明，适合随手问、快速写、快速改。&lt;/p&gt;
&lt;h3 id=&#34;写文章总结改邮件&#34;&gt;写文章、总结、改邮件
&lt;/h3&gt;&lt;p&gt;优先用 &lt;code&gt;GPT-5.5 Instant&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;如果文章很长、需要结构重写、需要多轮校对，再切到 &lt;code&gt;GPT-5.5 Thinking&lt;/code&gt;。&lt;/p&gt;
&lt;h3 id=&#34;写代码和调试&#34;&gt;写代码和调试
&lt;/h3&gt;&lt;p&gt;简单代码解释用 &lt;code&gt;Instant&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;多文件调试、架构设计、复杂报错分析，用 &lt;code&gt;Thinking&lt;/code&gt;。如果是非常棘手的长期工程问题，可以考虑 &lt;code&gt;Pro&lt;/code&gt;。&lt;/p&gt;
&lt;h3 id=&#34;研究和资料分析&#34;&gt;研究和资料分析
&lt;/h3&gt;&lt;p&gt;普通资料整理用 &lt;code&gt;Thinking&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;如果是法律、商业、科研、数据科学这类高精度任务，用 &lt;code&gt;Pro&lt;/code&gt; 更合适。&lt;/p&gt;
&lt;h3 id=&#34;需要图像生成canvasmemory&#34;&gt;需要图像生成、Canvas、Memory
&lt;/h3&gt;&lt;p&gt;优先用 &lt;code&gt;Instant&lt;/code&gt; 或 &lt;code&gt;Thinking&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;不要默认选 &lt;code&gt;Pro&lt;/code&gt;，因为 Pro 不支持部分 ChatGPT 工具。&lt;/p&gt;
&lt;h2 id=&#34;简短结论&#34;&gt;简短结论
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;GPT-5.5 Instant&lt;/code&gt; 是日常默认模型，快、清晰、省额度，适合多数普通任务。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.5 Thinking&lt;/code&gt; 是复杂任务主力，适合代码、研究、长文档、分析和多步骤推理。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.5 Pro&lt;/code&gt; 是高精度研究模式，适合更难、更重要、更需要严谨性的任务，但工具支持和速度都更受限制。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;GPT-5.5&lt;/code&gt; 本身更像这一代模型的总称。真正选择时，要看你在 ChatGPT 里选的是 &lt;code&gt;Instant&lt;/code&gt;、&lt;code&gt;Thinking&lt;/code&gt; 还是 &lt;code&gt;Pro&lt;/code&gt;。&lt;/p&gt;
&lt;h2 id=&#34;相关链接&#34;&gt;相关链接
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;GPT-5.5 Instant 发布说明：&lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/gpt-5-5-instant/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://openai.com/index/gpt-5-5-instant/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;GPT-5.5 发布说明：&lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/introducing-gpt-5-5/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://openai.com/index/introducing-gpt-5-5/&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;GPT-5.5 in ChatGPT Help Center：&lt;a class=&#34;link&#34; href=&#34;https://help.openai.com/en/articles/11909943-gpt-53-and-gpt-55-in-chatgpt&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://help.openai.com/en/articles/11909943-gpt-53-and-gpt-55-in-chatgpt&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>从 ChatGPT Release Notes 看 OpenAI 的产品节奏</title>
        <link>https://knightli.com/2026/05/07/chatgpt-release-notes-product-rhythm/</link>
        <pubDate>Thu, 07 May 2026 14:31:22 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/07/chatgpt-release-notes-product-rhythm/</guid>
        <description>&lt;p&gt;OpenAI 的 &lt;code&gt;ChatGPT Release Notes&lt;/code&gt; 是观察 ChatGPT 产品节奏的一个直接入口。这个页面会持续记录 ChatGPT 的模型、功能、账户安全、应用集成和客户端体验变化。&lt;/p&gt;
&lt;p&gt;截至 2026 年 5 月 7 日查看，页面顶部显示最近更新为“yesterday”，最新条目集中在 2026 年 5 月 5 日。它们看起来是几条普通更新，但放在一起，其实能看出 ChatGPT 正在往哪里走：默认模型更可靠，记忆更可控，办公场景更深入，账户安全也在补强。&lt;/p&gt;
&lt;h2 id=&#34;最新重点一记忆来源变得可见&#34;&gt;最新重点一：记忆来源变得可见
&lt;/h2&gt;&lt;p&gt;5 月 5 日的第一项更新，是 ChatGPT 的记忆改进。&lt;/p&gt;
&lt;p&gt;OpenAI 表示，Plus 和 Pro 用户会逐步获得更个性化、更连续的回答。ChatGPT 可以更好地使用过去聊天、保存记忆、可用文件，以及已连接 Gmail 中的上下文，来提供更贴合用户的建议、推荐和下一步行动。&lt;/p&gt;
&lt;p&gt;这类能力的价值在长期使用中才明显。用户如果正在做一个项目、写一系列文章、跟进一组邮件或反复处理同类工作，最烦的就是每次都要重讲背景。更强的记忆能力，就是为了减少这种重复。&lt;/p&gt;
&lt;p&gt;但记忆越强，用户越需要知道模型到底用了什么上下文。因此 OpenAI 推出了 &lt;code&gt;memory sources&lt;/code&gt;。用户可以在回答下方查看相关保存记忆、过去聊天、自定义指令，以及在特定情况下被引用的文件和 Gmail 邮件。&lt;/p&gt;
&lt;p&gt;如果其中的信息已经过期、不准确或不再相关，用户可以更正、删除，或标记为不相关。&lt;/p&gt;
&lt;h2 id=&#34;个性化不只是更懂你&#34;&gt;个性化不只是“更懂你”
&lt;/h2&gt;&lt;p&gt;很多人谈 AI 个性化时，只关注“模型更懂我”。但真正能长期使用的个性化，还必须解决三个问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;用户能不能看见模型参考了什么。&lt;/li&gt;
&lt;li&gt;用户能不能修改或删除这些信息。&lt;/li&gt;
&lt;li&gt;用户能不能在不需要记忆时关闭它。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;Release Notes 里明确提到，memory sources 只在用户自己的账户体验中显示，分享聊天时不会把这些来源暴露给其他人。用户也可以删除聊天、使用临时聊天、关闭记忆、断开应用连接，并管理内容是否用于改进模型。&lt;/p&gt;
&lt;p&gt;这说明 OpenAI 不是只在堆个性化能力，也在给个性化补控制界面。对长期助手来说，这一步很关键。&lt;/p&gt;
&lt;h2 id=&#34;最新重点二gpt-55-instant-成为默认模型&#34;&gt;最新重点二：GPT-5.5 Instant 成为默认模型
&lt;/h2&gt;&lt;p&gt;同一天，OpenAI 还把 &lt;code&gt;GPT-5.5 Instant&lt;/code&gt; 作为 ChatGPT 新默认模型推出，替代所有用户原来的 &lt;code&gt;GPT-5.3 Instant&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;Release Notes 对这次模型更新的描述很务实：更准确、更清晰、更简洁，图片理解、STEM 问题，以及何时使用网页搜索的判断也更好。&lt;/p&gt;
&lt;p&gt;这类默认模型更新对用户影响很大。大多数用户不会每天切换模型，他们感受到的 ChatGPT 质量，就是默认模型的质量。默认模型少一点幻觉、少一点废话、少一点无意义追问，实际体验就会明显改善。&lt;/p&gt;
&lt;p&gt;OpenAI 还提到，GPT-5.5 Instant 会减少过度格式化和不必要的装饰性内容。这一点虽然小，但很贴近日常使用。很多时候，用户并不需要一篇结构完整的小论文，只需要一个准确、直接、能执行的回答。&lt;/p&gt;
&lt;p&gt;付费用户还可以继续使用 GPT-5.3 Instant 三个月，之后该模型会退役。&lt;/p&gt;
&lt;h2 id=&#34;最新重点三chatgpt-进入-excel-和-google-sheets&#34;&gt;最新重点三：ChatGPT 进入 Excel 和 Google Sheets
&lt;/h2&gt;&lt;p&gt;5 月 5 日的第三项更新，是 ChatGPT for Excel 和 Google Sheets 全球上线。&lt;/p&gt;
&lt;p&gt;这项功能把 ChatGPT 放进 Microsoft Excel 和 Google Sheets 侧边栏，让用户可以在表格里直接构建、更新和理解数据。官方提到的场景包括追踪表、预算、公式、多工作表文件、情景分析和表格清理。&lt;/p&gt;
&lt;p&gt;这说明 ChatGPT 不只是停留在“聊天窗口里回答问题”。它正在进入用户已经工作的地方。&lt;/p&gt;
&lt;p&gt;对办公用户来说，表格是非常高频的真实工作现场。很多公司、团队和个人的业务数据，并不在复杂的数据平台里，而是在一堆 Excel 和 Google Sheets 文件里。如果 ChatGPT 能在表格旁边直接理解数据、写公式、整理多表和解释结果，它的使用门槛会比复制粘贴到聊天窗口低很多。&lt;/p&gt;
&lt;p&gt;OpenAI 也提醒，依赖公式或分析前仍然要检查输出。这一点很现实：AI 可以加速表格工作，但不能替用户承担财务、运营或业务判断的全部责任。&lt;/p&gt;
&lt;h2 id=&#34;4-月底的铺垫安全和模型选择&#34;&gt;4 月底的铺垫：安全和模型选择
&lt;/h2&gt;&lt;p&gt;再往前看，4 月 30 日的 &lt;code&gt;Advanced Account Security&lt;/code&gt; 也值得注意。&lt;/p&gt;
&lt;p&gt;这是一个面向个人 ChatGPT 账户的可选安全设置。开启后，账户会使用更强的登录方式，例如 passkeys 或兼容安全密钥，并关闭密码登录、邮件或短信登录码、邮件账户恢复等较弱路径。它还包括恢复密钥、更短活跃会话、登录通知和会话管理控制。&lt;/p&gt;
&lt;p&gt;这类功能说明 ChatGPT 账户的重要性在上升。随着文件、记忆、应用连接、邮件、表格和工作项目逐渐进入 ChatGPT，账户安全就不再是普通登录问题，而关系到用户的长期工作上下文。&lt;/p&gt;
&lt;p&gt;4 月 28 日，OpenAI 还把模型选择入口移到输入框附近，并把 Thinking 和 Pro 模型的 thinking effort 控制放进模型选择器。这是一个典型的产品细节改动：模型越来越多以后，用户需要更容易在发送消息前选对工具。&lt;/p&gt;
&lt;h2 id=&#34;4-月下旬的另一个方向更快的普通回答&#34;&gt;4 月下旬的另一个方向：更快的普通回答
&lt;/h2&gt;&lt;p&gt;4 月 22 日，ChatGPT 推出 &lt;code&gt;Fast answers&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;这个功能用于常见的信息查询。当问题不需要个性化，且 ChatGPT 有高置信答案时，它可以更快返回结果。Fast answers 不引用过去聊天或记忆，用户也可以在个性化设置里关闭。&lt;/p&gt;
&lt;p&gt;这和记忆增强看起来相反，其实是同一个产品逻辑：不同问题需要不同处理方式。&lt;/p&gt;
&lt;p&gt;有的问题需要结合用户长期背景，比如“帮我继续规划上周那个项目”。有的问题只需要快速准确，比如“世界七大奇迹有哪些”。前者需要记忆和上下文，后者需要速度和清晰。ChatGPT 正在把这些路径拆开。&lt;/p&gt;
&lt;h2 id=&#34;产品节奏的变化&#34;&gt;产品节奏的变化
&lt;/h2&gt;&lt;p&gt;从这些 release notes 可以看到，ChatGPT 的更新已经不只是模型发布。&lt;/p&gt;
&lt;p&gt;现在的更新同时覆盖：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;默认模型质量。&lt;/li&gt;
&lt;li&gt;记忆和个性化。&lt;/li&gt;
&lt;li&gt;应用连接和办公插件。&lt;/li&gt;
&lt;li&gt;账户安全。&lt;/li&gt;
&lt;li&gt;模型选择和交互入口。&lt;/li&gt;
&lt;li&gt;快速回答和移动端体验。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这意味着 ChatGPT 正在从单点 AI 聊天产品，变成一个更完整的工作平台。模型能力仍然重要，但产品体验、上下文管理、工具入口、账户安全和第三方应用集成都同样重要。&lt;/p&gt;
&lt;h2 id=&#34;简短判断&#34;&gt;简短判断
&lt;/h2&gt;&lt;p&gt;这份 ChatGPT Release Notes 最值得看的，不是某一条具体更新，而是它们组合出的方向。&lt;/p&gt;
&lt;p&gt;OpenAI 正在让 ChatGPT 同时变得更快、更懂上下文、更能进入办公场景，也更可控、更安全。GPT-5.5 Instant 负责提升默认回答质量，memory sources 负责解释个性化来源，Excel 和 Google Sheets 负责进入真实工作文件，Advanced Account Security 则为更重的账户使用补上保护。&lt;/p&gt;
&lt;p&gt;接下来，ChatGPT 的竞争力不会只取决于模型参数，也会取决于它能否把这些更新组织成稳定、清晰、用户愿意长期托付上下文的产品体验。&lt;/p&gt;
&lt;h2 id=&#34;相关链接&#34;&gt;相关链接
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;ChatGPT Release Notes：&lt;a class=&#34;link&#34; href=&#34;https://help.openai.com/en/articles/6825453-chatgpt-release-notes%253F.ejs&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://help.openai.com/en/articles/6825453-chatgpt-release-notes%253F.ejs&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>ChatGPT Release Notes 更新：记忆来源、GPT-5.5 Instant 和表格插件</title>
        <link>https://knightli.com/2026/05/07/chatgpt-release-notes-memory-gpt-5-5-sheets/</link>
        <pubDate>Thu, 07 May 2026 14:30:15 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/07/chatgpt-release-notes-memory-gpt-5-5-sheets/</guid>
        <description>&lt;p&gt;OpenAI 的 &lt;code&gt;ChatGPT Release Notes&lt;/code&gt; 页面在 2026 年 5 月初更新，最新一批重点包括三件事：ChatGPT 的记忆来源和个性化能力增强，&lt;code&gt;GPT-5.5 Instant&lt;/code&gt; 成为新的默认模型，以及 ChatGPT for Excel 和 Google Sheets 全球上线。&lt;/p&gt;
&lt;p&gt;这几项更新放在一起看，方向很清楚：ChatGPT 正在从一个聊天入口，继续变成更持续、更个性化、也更贴近办公场景的工作助手。&lt;/p&gt;
&lt;h2 id=&#34;memory-sources个性化要更透明&#34;&gt;Memory sources：个性化要更透明
&lt;/h2&gt;&lt;p&gt;最新更新里，最值得关注的是 &lt;code&gt;memory sources&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;OpenAI 表示，ChatGPT Plus 和 Pro 用户会开始获得更强的记忆改进。ChatGPT 可以更好地从过去聊天、保存的记忆、可用文件，以及已连接的 Gmail 应用中提取相关上下文，用来给出更贴合用户的想法、建议和下一步行动。&lt;/p&gt;
&lt;p&gt;这意味着用户不必在每次新对话里反复解释自己的项目背景、偏好、工作习惯或已有材料。对于长期写作、项目规划、资料整理、学习和团队协作来说，连续性会更强。&lt;/p&gt;
&lt;p&gt;但个性化越强，透明度就越重要。OpenAI 因此推出 memory sources，让用户看到哪些信息帮助 ChatGPT 个性化了某个回答。用户可以点击回答下方的 Sources 图标，查看相关保存记忆、过去聊天和自定义指令。Plus 和 Pro 用户还可能看到资料库中的文件，以及已连接 Gmail 中被引用的邮件。&lt;/p&gt;
&lt;p&gt;如果某些信息过期、不相关或错误，用户可以更正、删除，或标记为不相关。&lt;/p&gt;
&lt;h2 id=&#34;记忆控制仍然是关键&#34;&gt;记忆控制仍然是关键
&lt;/h2&gt;&lt;p&gt;OpenAI 也说明，memory sources 不一定展示影响回答的全部因素，后续还会继续改进这个视图。&lt;/p&gt;
&lt;p&gt;这个提醒很重要。它说明 memory sources 不是完整的“模型思考日志”，而是让用户理解个性化上下文的一种产品界面。它能提高可见性，但不能把所有影响因素都完全展开。&lt;/p&gt;
&lt;p&gt;隐私和控制方面，OpenAI 表示 memory sources 只会显示在用户自己的账户体验里。如果用户分享聊天，相关 sources 不会出现在共享聊天中。用户也可以删除聊天，使用不会使用或更新记忆、也不会出现在历史记录中的临时聊天，关闭记忆，随时断开应用连接，并管理自己的内容是否用于改进模型。&lt;/p&gt;
&lt;p&gt;这说明 ChatGPT 的个性化正在走一条更明确的路线：既要更懂用户，也要让用户知道它为什么这么回答，并保留管理入口。&lt;/p&gt;
&lt;h2 id=&#34;gpt-55-instant-成为默认模型&#34;&gt;GPT-5.5 Instant 成为默认模型
&lt;/h2&gt;&lt;p&gt;Release Notes 还确认，&lt;code&gt;GPT-5.5 Instant&lt;/code&gt; 正在作为 ChatGPT 的新默认模型推出，并替代面向所有用户的 &lt;code&gt;GPT-5.3 Instant&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;这次默认模型更新主要改善几个方面：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;准确性。&lt;/li&gt;
&lt;li&gt;清晰度和简洁度。&lt;/li&gt;
&lt;li&gt;图片理解。&lt;/li&gt;
&lt;li&gt;STEM 问题回答。&lt;/li&gt;
&lt;li&gt;判断何时需要联网搜索。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;OpenAI 强调，GPT-5.5 Instant 在事实可靠性上更好，尤其是在准确性更重要的提示词中表现更稳。它也会给出更紧凑、更直接的回答，减少不必要的追问，降低过度格式化和无意义装饰带来的干扰。&lt;/p&gt;
&lt;p&gt;对用户来说，这类变化可能不会像新功能按钮那样显眼，但会影响每天打开 ChatGPT 时的体感：回答更少绕路，更少啰嗦，也更少在简单问题上堆格式。&lt;/p&gt;
&lt;h2 id=&#34;个性化和默认模型结合起来&#34;&gt;个性化和默认模型结合起来
&lt;/h2&gt;&lt;p&gt;GPT-5.5 Instant 对 Plus 和 Pro 网页端用户还会更有效地使用过去聊天、文件和已连接 Gmail 的上下文。&lt;/p&gt;
&lt;p&gt;这和 memory sources 是同一条产品线。模型不只是“更聪明”，还要在合适的时候知道你之前做过什么、关心什么、已经提供过哪些材料。比如继续一个项目、写一份计划、整理邮件里的信息，或根据过去偏好给出建议时，ChatGPT 可以减少重复询问。&lt;/p&gt;
&lt;p&gt;付费用户仍可在三个月内通过模型配置继续使用 GPT-5.3 Instant，之后该模型会退役。&lt;/p&gt;
&lt;h2 id=&#34;chatgpt-for-excel-和-google-sheets&#34;&gt;ChatGPT for Excel 和 Google Sheets
&lt;/h2&gt;&lt;p&gt;另一个重要更新，是 ChatGPT for Excel 和 Google Sheets 全球上线。&lt;/p&gt;
&lt;p&gt;它把 ChatGPT 放进 Microsoft Excel 和 Google Sheets 的侧边栏中，让用户可以在表格里直接构建、更新和理解数据。OpenAI 提到的场景包括：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;追踪表。&lt;/li&gt;
&lt;li&gt;预算。&lt;/li&gt;
&lt;li&gt;公式。&lt;/li&gt;
&lt;li&gt;多工作表文件。&lt;/li&gt;
&lt;li&gt;情景分析。&lt;/li&gt;
&lt;li&gt;表格清理。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;在可用地区和条件下，它还支持 Skills 和 apps。&lt;/p&gt;
&lt;p&gt;这类功能的意义很直接：很多办公数据并不在专门的 BI 系统里，而是在 Excel 和 Google Sheets 里。把 ChatGPT 放进表格侧边栏，比让用户复制粘贴到聊天窗口更自然，也更容易进入真实工作流。&lt;/p&gt;
&lt;h2 id=&#34;使用限制和安装方式&#34;&gt;使用限制和安装方式
&lt;/h2&gt;&lt;p&gt;Release Notes 提到，Free 和 Go 计划包含有限使用量；Plus 和 Pro 使用与 Codex 相同的 agentic 使用限制。如果用户超出计划限制，可以购买额外 credits。&lt;/p&gt;
&lt;p&gt;安装方式也比较直接：Excel 版本从 Microsoft Marketplace 安装，Google Sheets 版本从 Google Workspace Marketplace 安装，然后使用符合条件的 ChatGPT 账户登录。&lt;/p&gt;
&lt;p&gt;OpenAI 也提醒，用户在依赖公式或分析前需要检查输出。这点不能忽略。AI 可以加速表格工作，但公式、预算、财务和业务分析仍然需要人工复核。&lt;/p&gt;
&lt;h2 id=&#34;近期更新脉络&#34;&gt;近期更新脉络
&lt;/h2&gt;&lt;p&gt;如果把 4 月底到 5 月初的 release notes 放在一起看，ChatGPT 的方向更清楚。&lt;/p&gt;
&lt;p&gt;4 月 30 日，OpenAI 推出 Advanced Account Security，给个人 ChatGPT 账户提供更强的登录要求和账户保护，包括 passkeys、安全密钥、恢复密钥、更短会话和登录通知。&lt;/p&gt;
&lt;p&gt;4 月 28 日，模型选择入口移到输入框附近，让用户在发送消息前更容易选择模型；Thinking 和 Pro 模型的 thinking effort 控制也被放进模型选择器。&lt;/p&gt;
&lt;p&gt;4 月 22 日，ChatGPT 推出 Fast answers，用于一些不需要个性化、且模型有高置信答案的常见信息查询。Fast answers 不引用过去聊天或记忆，用户也可以在个性化设置里关闭。&lt;/p&gt;
&lt;p&gt;这些更新都围绕同一个目标：让 ChatGPT 更适合日常高频使用。该快的时候快，该个性化的时候个性化，该需要安全保护和可见控制的时候给出入口。&lt;/p&gt;
&lt;h2 id=&#34;简短判断&#34;&gt;简短判断
&lt;/h2&gt;&lt;p&gt;这次 ChatGPT Release Notes 的重点，不是单个功能，而是产品形态继续收束。&lt;/p&gt;
&lt;p&gt;GPT-5.5 Instant 提升默认回答质量，memory sources 让个性化更可见，Excel 和 Google Sheets 插件把 ChatGPT 放进办公表格，Advanced Account Security 和模型选择改动则补上账户安全和操作体验。&lt;/p&gt;
&lt;p&gt;ChatGPT 正在变成更长期的工作层：它会记住更多上下文，进入更多工具，也承担更多日常任务。接下来真正需要观察的是，个性化透明度是否足够清楚，办公插件在真实复杂表格里是否稳定，以及用户能否在便利和控制之间保持平衡。&lt;/p&gt;
&lt;h2 id=&#34;相关链接&#34;&gt;相关链接
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;ChatGPT Release Notes：&lt;a class=&#34;link&#34; href=&#34;https://help.openai.com/en/articles/6825453-chatgpt-release-notes&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://help.openai.com/en/articles/6825453-chatgpt-release-notes&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>GPT-5.5 Instant 发布：ChatGPT 默认模型变得更准、更短、更懂你</title>
        <link>https://knightli.com/2026/05/07/gpt-5-5-instant-chatgpt-default-model/</link>
        <pubDate>Thu, 07 May 2026 14:28:40 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/07/gpt-5-5-instant-chatgpt-default-model/</guid>
        <description>&lt;p&gt;OpenAI 在 2026 年 5 月 5 日发布 &lt;code&gt;GPT-5.5 Instant&lt;/code&gt;，并开始把它作为 ChatGPT 面向所有用户的默认模型。&lt;/p&gt;
&lt;p&gt;这次更新的关键词不是“更大”或“更炫”，而是更贴近日常使用：回答更准确、更简洁，语气更自然，也更会利用用户已经分享过的上下文。对 ChatGPT 来说，默认模型的变化尤其重要，因为它影响的是最多用户每天实际打开就会用到的体验。&lt;/p&gt;
&lt;h2 id=&#34;默认模型为什么重要&#34;&gt;默认模型为什么重要
&lt;/h2&gt;&lt;p&gt;Instant 是 ChatGPT 的日常主力模型。很多用户不会手动切换模型，也不会研究不同模型之间的差异。他们感受到的 ChatGPT，就是默认模型的质量。&lt;/p&gt;
&lt;p&gt;所以 GPT-5.5 Instant 的意义不只是新增一个模型名，而是把基础体验整体往前推了一步。OpenAI 在公告中提到，这次更新让日常互动更有用、更顺手：不同主题下的回答更紧凑，聊天语气更自然，也能在合适的时候更好地使用已有上下文。&lt;/p&gt;
&lt;p&gt;这种改进看起来不如一次大型多模态发布显眼，但对几亿级用户来说，默认模型少犯错、少啰嗦、少问多余问题，本身就是很大的产品变化。&lt;/p&gt;
&lt;h2 id=&#34;更少幻觉更可靠的回答&#34;&gt;更少幻觉，更可靠的回答
&lt;/h2&gt;&lt;p&gt;OpenAI 把准确性放在了第一位。&lt;/p&gt;
&lt;p&gt;官方表示，在内部评测中，面对医学、法律、金融等高风险提示词，GPT-5.5 Instant 相比 GPT-5.3 Instant 产生的幻觉声明减少了 52.5%。在用户曾经标记过事实错误、难度更高的对话中，不准确声明减少了 37.3%。&lt;/p&gt;
&lt;p&gt;这两个数字值得注意。它们说明 OpenAI 不只是追求模型“会说”，而是继续压低错误事实的发生率。尤其是在医疗、法律、金融这类领域，模型不能只给出流畅答案，还要更谨慎、更少编造。&lt;/p&gt;
&lt;p&gt;当然，这不等于用户可以把 ChatGPT 当成专业意见的替代品。更准确的模型仍然需要在高风险场景里保留核查、引用来源和人工判断。但从产品体验看，默认模型的事实可靠性提升，会减少很多日常使用中的误导。&lt;/p&gt;
&lt;h2 id=&#34;日常任务能力增强&#34;&gt;日常任务能力增强
&lt;/h2&gt;&lt;p&gt;GPT-5.5 Instant 不只是在事实性上改进，也提升了多种日常任务能力。&lt;/p&gt;
&lt;p&gt;OpenAI 提到，它在分析照片和图片上传、回答 STEM 问题，以及判断何时使用网页搜索方面都有提升。这里的重点是“判断何时搜索”。很多用户并不关心模型内部是否调用工具，只关心答案是否新、是否准、是否能解释清楚。&lt;/p&gt;
&lt;p&gt;如果模型能更好判断哪些问题需要联网，哪些问题可以直接回答，用户就不必反复提醒“你去查一下”。这会让 ChatGPT 更像一个主动可靠的助手，而不是只会等待明确指令的聊天框。&lt;/p&gt;
&lt;p&gt;公告中的数学示例也体现了这个方向。GPT-5.5 Instant 在一开始认可错误解法后，能继续检查并发现代数错误，再回到正确方程求解。真正重要的不是它从不出错，而是它更有机会在推理链条中发现问题并修正。&lt;/p&gt;
&lt;h2 id=&#34;回答更短但不是变少&#34;&gt;回答更短，但不是变少
&lt;/h2&gt;&lt;p&gt;OpenAI 还强调，GPT-5.5 Instant 的回答更紧、更直接，同时保留必要内容和 ChatGPT 的友好语气。&lt;/p&gt;
&lt;p&gt;这点对默认模型很关键。很多用户对 AI 回答的疲劳感，不来自信息不够，而来自结构太重、铺垫太多、格式太满。一个简单问题被拆成五个小标题、十几条注意事项，反而会让人觉得不自然。&lt;/p&gt;
&lt;p&gt;GPT-5.5 Instant 的目标，是减少无谓的冗长和过度格式化，少问不必要的追问，也避免让回答显得杂乱的装饰性内容。对日常办公、写作建议、生活咨询和快速解释来说，这类改进往往比单项基准分更影响体感。&lt;/p&gt;
&lt;p&gt;更短不等于更浅。好的默认模型应该能判断用户需要的是一句可执行建议、一段解释，还是完整方案。GPT-5.5 Instant 的方向，就是把这种分寸感做得更稳。&lt;/p&gt;
&lt;h2 id=&#34;个性化能力继续增强&#34;&gt;个性化能力继续增强
&lt;/h2&gt;&lt;p&gt;这次更新的另一条主线，是个性化。&lt;/p&gt;
&lt;p&gt;OpenAI 表示，Instant 现在更擅长使用过去聊天、文件以及已连接 Gmail 中的上下文，让回答更贴合用户。它会判断什么时候额外个性化能改善答案，并更快搜索过去对话中的相关内容，减少用户反复交代背景。&lt;/p&gt;
&lt;p&gt;这对长期使用 ChatGPT 的人很有价值。比如做计划、写文章、选工具、整理项目、延续一段工作流时，用户往往已经在过去对话里提供过偏好、约束和上下文。如果模型能自然接上，就会减少很多重复说明。&lt;/p&gt;
&lt;p&gt;但个性化也必须配合透明度和控制。否则用户会不知道模型为什么突然提到某个偏好，也不知道哪些记忆正在影响回答。&lt;/p&gt;
&lt;h2 id=&#34;memory-sources让个性化更可见&#34;&gt;Memory sources：让个性化更可见
&lt;/h2&gt;&lt;p&gt;OpenAI 同时推出 &lt;code&gt;memory sources&lt;/code&gt;，覆盖所有 ChatGPT 模型。&lt;/p&gt;
&lt;p&gt;它的作用是让用户看到哪些上下文被用于个性化回答，例如保存的记忆或过去聊天。如果某些内容过期、不准确或不想再被使用，用户可以删除或更正。&lt;/p&gt;
&lt;p&gt;OpenAI 还说明，如果用户分享一段聊天，memory sources 不会展示给其他人。用户仍然可以删除不希望被引用的聊天，在设置中修改保存记忆，或使用不会使用和更新记忆的临时聊天。&lt;/p&gt;
&lt;p&gt;这一步很重要。AI 助手越个性化，就越需要解释“我是根据什么在回答你”。Memory sources 不一定展示所有影响因素，但至少让个性化从黑箱里走出来一部分。&lt;/p&gt;
&lt;h2 id=&#34;可用性安排&#34;&gt;可用性安排
&lt;/h2&gt;&lt;p&gt;GPT-5.5 Instant 从公告当天开始向所有 ChatGPT 用户推出，并替代 GPT-5.3 Instant 成为默认模型。在 API 中，对应 &lt;code&gt;chat-latest&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;对付费用户来说，GPT-5.3 Instant 还会保留三个月，可通过模型配置设置访问，之后会被退役。&lt;/p&gt;
&lt;p&gt;增强个性化功能会先在网页端向 Plus 和 Pro 用户推出，移动端随后上线，并计划在接下来几周扩展到 Free、Go、Business 和 Enterprise。Memory sources 会在网页端向 ChatGPT 消费者计划推出，移动端也会随后跟进。不同地区可用的个性化来源可能会不同。&lt;/p&gt;
&lt;h2 id=&#34;简短判断&#34;&gt;简短判断
&lt;/h2&gt;&lt;p&gt;GPT-5.5 Instant 是一次面向默认体验的升级。&lt;/p&gt;
&lt;p&gt;它不只是模型能力变强，而是在回答准确性、表达密度、语气、上下文使用和个性化透明度上一起调整。对普通用户来说，最直接的变化应该是：少一点废话，少一点事实错误，更容易接上你的背景。&lt;/p&gt;
&lt;p&gt;对 OpenAI 来说，这也是默认助手形态的继续演进。ChatGPT 不再只是“每次从零开始回答问题”的工具，而是在逐步变成能记住偏好、理解上下文、知道何时搜索，并且让用户管理这些记忆来源的长期助手。&lt;/p&gt;
&lt;h2 id=&#34;相关链接&#34;&gt;相关链接
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;OpenAI 公告：&lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/gpt-5-5-instant/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://openai.com/index/gpt-5-5-instant/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>谁把哥布林放进了 GPT-5.5？</title>
        <link>https://knightli.com/2026/05/02/openai-gpt-5-5-goblin-behavior/</link>
        <pubDate>Sat, 02 May 2026 10:51:36 +0800</pubDate>
        
        <guid>https://knightli.com/2026/05/02/openai-gpt-5-5-goblin-behavior/</guid>
        <description>&lt;p&gt;OpenAI 最近复盘了一个很有意思的小问题：为什么 GPT-5.5 在 Codex 里会频繁使用 &lt;code&gt;goblin&lt;/code&gt;、&lt;code&gt;gremlin&lt;/code&gt; 这类表达？&lt;/p&gt;
&lt;p&gt;这不是普通的口头禅问题。它暴露的是模型训练中的一个常见现象：模型可能不是直接记住某个词，而是在强化学习阶段学到一种“更容易被奖励”的表达风格。&lt;/p&gt;
&lt;h2 id=&#34;现象是什么&#34;&gt;现象是什么
&lt;/h2&gt;&lt;p&gt;GPT-5.5 训练后期，Codex 用户开始发现模型在解释代码问题、测试失败或异常行为时，会偏爱一组带有拟人化色彩的表达。&lt;/p&gt;
&lt;p&gt;OpenAI 内部也观察到类似现象：GPT-5.5 相比早期版本，更常在响应里使用 &lt;code&gt;goblin&lt;/code&gt;、&lt;code&gt;gremlin&lt;/code&gt; 等词。研究团队把这个现象称为一种“怪异人格特征”，并尝试追踪它从哪里来。&lt;/p&gt;
&lt;h2 id=&#34;不是简单的数据复读&#34;&gt;不是简单的数据复读
&lt;/h2&gt;&lt;p&gt;最直观的猜测是：训练数据里这类表达变多了，模型只是学到了高频词。&lt;/p&gt;
&lt;p&gt;OpenAI 检查后发现，事情没有这么简单。它们在预训练语料中确实能找到相关词，但数量不足以解释模型后期行为变化。更关键的是，模型在强化学习前后表现差异明显：后期训练把这类风格放大了。&lt;/p&gt;
&lt;p&gt;这说明问题不只是“数据里有什么”，还要看训练过程奖励了什么。&lt;/p&gt;
&lt;h2 id=&#34;强化学习放大了风格偏好&#34;&gt;强化学习放大了风格偏好
&lt;/h2&gt;&lt;p&gt;OpenAI 的分析里，关键变化发生在强化学习阶段。GPT-5.5 在训练中学会了更活泼、更有辨识度、更像“有性格”的写法，而某些带有调侃意味的词正好符合这种风格。&lt;/p&gt;
&lt;p&gt;简单说，模型可能发现：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;更有个性的回答更容易被偏好。&lt;/li&gt;
&lt;li&gt;用轻松比喻解释技术问题，反馈可能更好。&lt;/li&gt;
&lt;li&gt;某些词在特定语境里能增加“可爱”“机灵”“好玩”的感觉。&lt;/li&gt;
&lt;li&gt;这些局部奖励会被训练过程放大。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;最终结果就是，模型没有被明确要求频繁使用这些词，却在特定场景里形成了稳定倾向。&lt;/p&gt;
&lt;h2 id=&#34;源头是-nerdy-人格&#34;&gt;源头是 Nerdy 人格
&lt;/h2&gt;&lt;p&gt;顺着数据回溯，OpenAI 很快定位到一个具体分支：个性化定制里的 &lt;code&gt;Nerdy&lt;/code&gt; 人格。&lt;/p&gt;
&lt;p&gt;这个模式原本想把 AI 调成“书呆子导师”：热情、机智、推崇知识和批判性思维，同时不要太一本正经。站在人类角度，这个要求很清楚：要有极客精神，也要有幽默感。&lt;/p&gt;
&lt;p&gt;但模型不会真正理解“幽默”的边界。它在强化学习反馈里学到了一条捷径：用 &lt;code&gt;goblin&lt;/code&gt; 这类比喻，容易显得俏皮、聪明、像个书呆子，于是更容易拿到高分。&lt;/p&gt;
&lt;p&gt;数据也能说明问题。从 GPT-5.2 到 GPT-5.4，默认人格下 &lt;code&gt;goblin&lt;/code&gt; 出现频率变化只有 -3.2%；但在 &lt;code&gt;Nerdy&lt;/code&gt; 人格下，这个数字暴涨了 3881.4%。更夸张的是，&lt;code&gt;Nerdy&lt;/code&gt; 模式只占 ChatGPT 总对话量的 2.5%，却贡献了 66.7% 的 &lt;code&gt;goblin&lt;/code&gt; 用量。&lt;/p&gt;
&lt;p&gt;所以问题不在某个词本身，而在奖励信号把一种“看起来幽默”的表达方式推成了固定风格。&lt;/p&gt;
&lt;h2 id=&#34;codex-为什么更明显&#34;&gt;Codex 为什么更明显
&lt;/h2&gt;&lt;p&gt;Codex 场景放大了这个问题。因为代码任务经常涉及 bug、测试失败、环境差异和边界行为，模型很容易把这些问题拟人化。&lt;/p&gt;
&lt;p&gt;当模型想用轻松方式解释“这个错误很奇怪”“这个测试不稳定”“这个行为像在捣乱”时，就会更容易调用这类词。久而久之，用户会感觉模型有固定口癖。&lt;/p&gt;
&lt;p&gt;OpenAI 后来在 Codex 的系统提示中加入了抑制指令，明确要求模型避免这类表达。这个做法不是重新训练模型，而是在产品层面先把行为收住。&lt;/p&gt;
&lt;h2 id=&#34;这件事说明什么&#34;&gt;这件事说明什么
&lt;/h2&gt;&lt;p&gt;这个案例的重点，不在某个词本身，而在模型行为如何形成。&lt;/p&gt;
&lt;p&gt;它至少说明了三点：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;模型风格可能来自奖励信号，而不只是语料频率。&lt;/li&gt;
&lt;li&gt;小的偏好在训练后期可能被放大成稳定人格特征。&lt;/li&gt;
&lt;li&gt;产品里的系统提示可以缓解问题，但不等于从模型内部消除了倾向。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这也是大模型对齐里很麻烦的一类问题：用户喜欢“有趣”的回答，但过度追求有趣，可能让模型在严肃任务里显得轻浮、重复或自带口癖。&lt;/p&gt;
&lt;h2 id=&#34;对使用者的启发&#34;&gt;对使用者的启发
&lt;/h2&gt;&lt;p&gt;如果你在使用 AI 编程工具时发现模型有固定话术，不一定是提示词里写错了，也可能来自模型本身的训练偏好。&lt;/p&gt;
&lt;p&gt;可以用几种方式缓解：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;在系统提示或项目规则里写明语气要求。&lt;/li&gt;
&lt;li&gt;要求模型避免拟人化、俚语化、过度调侃。&lt;/li&gt;
&lt;li&gt;对技术任务指定“直接、简洁、工程化”的回答风格。&lt;/li&gt;
&lt;li&gt;如果某个词反复出现，可以明确列入禁止表达。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这类约束不能改变模型内部权重，但能在实际产品使用中减少干扰。&lt;/p&gt;
&lt;h2 id=&#34;小结&#34;&gt;小结
&lt;/h2&gt;&lt;p&gt;GPT-5.5 的 &lt;code&gt;goblin&lt;/code&gt; 口癖不是一个孤立笑话。它展示了大模型训练中更深的问题：奖励信号会塑造风格，风格会迁移到产品场景，最后变成用户能感知到的人格特征。&lt;/p&gt;
&lt;p&gt;对模型厂商来说，这类问题需要在训练、评测和产品提示三层同时处理。对普通用户来说，最实用的做法是把期望风格写清楚，让模型少一点表演，多一点稳定。&lt;/p&gt;
&lt;p&gt;参考：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/where-the-goblins-came-from/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;https://openai.com/index/where-the-goblins-came-from/&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        <item>
        <title>GPT 5.5、Claude Opus 4.7、DeepSeek V4、Qwen 3.6 Max 怎么选</title>
        <link>https://knightli.com/2026/04/28/coding-ai-benchmark-gpt55-claude-opus47-deepseek-v4-qwen36max/</link>
        <pubDate>Tue, 28 Apr 2026 22:18:00 +0800</pubDate>
        
        <guid>https://knightli.com/2026/04/28/coding-ai-benchmark-gpt55-claude-opus47-deepseek-v4-qwen36max/</guid>
        <description>&lt;p&gt;如果你现在只想知道一句话答案，那可以先记这个版本：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;要最稳、最省时间，优先看 &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;要页面观感、创意和展示感，&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 还是强&lt;/li&gt;
&lt;li&gt;要看国产模型里谁最接近第一梯队，&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 现在很有竞争力&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; 不是不能打，但波动比前面几家更明显&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;很多人问“现在最强编程 AI 到底是谁”，其实问到最后，通常不是在问排行榜，而是在问一件更实际的事：&lt;br&gt;
&lt;strong&gt;我现在要写页面、做 demo、生成小工具、补交互，哪一个最容易一次就给我能用的东西。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;从这个角度看，这几家模型的差别已经很清楚了。&lt;/p&gt;
&lt;h2 id=&#34;先说总判断&#34;&gt;先说总判断
&lt;/h2&gt;&lt;p&gt;如果把 &lt;code&gt;GPT 5.5&lt;/code&gt;、&lt;code&gt;Claude Opus 4.7&lt;/code&gt;、&lt;code&gt;DeepSeek V4&lt;/code&gt;、&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 放在一起看，综合能力最稳的还是 &lt;code&gt;GPT 5.5&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它不一定每次都是最花哨的那个，但它很少让你明显失望。速度快，第一次生成的完成度高，逻辑、交互、动效、小游戏这一类综合任务通常都比较顺。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 的特点很不一样。它最强的地方不是“最稳”，而是页面气质、UI 组织和展示感。很多时候你一打开它写的东西，会先觉得“这个看起来像回事”。如果你更在意页面呈现，它还是很值得看。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 是这几家里最值得重新看的一个。它已经不是“国产里能用”这个级别了，而是有些场景下真的能和 &lt;code&gt;GPT 5.5&lt;/code&gt; 直接拼效果。尤其是前端页面、视觉完成度、拟真感这些部分，它已经开始有明显存在感。&lt;/p&gt;
&lt;p&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; 的问题不是完全不行，而是不够稳。它能写出来的时候并不弱，甚至有些场景还不错，但上下限差得比另外几家更明显。你有时候会觉得它挺能打，有时候又会觉得怎么突然掉下去了。&lt;/p&gt;
&lt;h2 id=&#34;gpt-55-强在哪&#34;&gt;&lt;code&gt;GPT 5.5&lt;/code&gt; 强在哪
&lt;/h2&gt;&lt;p&gt;如果你平时最常做的是这些事：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;直接生成一个完整网页&lt;/li&gt;
&lt;li&gt;做带动效的小 demo&lt;/li&gt;
&lt;li&gt;写有一点逻辑的互动页面&lt;/li&gt;
&lt;li&gt;生成小游戏或多状态交互&lt;/li&gt;
&lt;li&gt;想尽量少返工&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;那 &lt;code&gt;GPT 5.5&lt;/code&gt; 基本还是最稳的答案。&lt;/p&gt;
&lt;p&gt;它的优势主要有几个：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;出代码速度快&lt;/li&gt;
&lt;li&gt;第一次成品可用度高&lt;/li&gt;
&lt;li&gt;逻辑和交互比较少出硬伤&lt;/li&gt;
&lt;li&gt;综合题表现稳定&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;说得更直接一点，&lt;code&gt;GPT 5.5&lt;/code&gt; 最像一个“你把需求扔过去，它大概率能先把地基搭对”的模型。&lt;br&gt;
很多人真正缺的不是某一项最惊艳，而是第一版别翻车。这件事上它现在还是最让人省心。&lt;/p&gt;
&lt;p&gt;当然，它也不是完全没有短板。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;某些偏视觉表现的页面，不一定是最有惊喜的&lt;/li&gt;
&lt;li&gt;有时候太稳了，反而少一点设计感上的记忆点&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以如果你问“要一个默认推荐”，那还是 &lt;code&gt;GPT 5.5&lt;/code&gt;。&lt;br&gt;
但如果你问“要不要只看它”，答案也不是。&lt;/p&gt;
&lt;h2 id=&#34;claude-opus-47-适合什么人&#34;&gt;&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 适合什么人
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 这类模型的吸引力，更多来自页面观感。&lt;/p&gt;
&lt;p&gt;它的长处通常是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;UI 结构更顺&lt;/li&gt;
&lt;li&gt;视觉表现更完整&lt;/li&gt;
&lt;li&gt;某些页面更有展示感&lt;/li&gt;
&lt;li&gt;在可视化和创意感上更容易出彩&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;如果你让模型去做的是这些东西：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;演示页面&lt;/li&gt;
&lt;li&gt;数据展示页面&lt;/li&gt;
&lt;li&gt;强调观感的小网页&lt;/li&gt;
&lt;li&gt;想要一打开就“看着比较高级”的结果&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;那 &lt;code&gt;Claude&lt;/code&gt; 依然值得进前排。&lt;/p&gt;
&lt;p&gt;不过它的问题也一直比较明显：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;稳定性不如 &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;有时看着不错，但细节逻辑会偏掉&lt;/li&gt;
&lt;li&gt;个别场景里会出现功能能跑，但核心体验不够准的情况&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以 &lt;code&gt;Claude&lt;/code&gt; 更像一个有审美加成的前端型选手。&lt;br&gt;
你要是更看重页面“长得好不好”，它很有优势；你要是最怕第一次输出就出逻辑问题，那还是得更谨慎一点。&lt;/p&gt;
&lt;h2 id=&#34;qwen-36-max-为什么值得认真看&#34;&gt;&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 为什么值得认真看
&lt;/h2&gt;&lt;p&gt;这几家里，&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 给人的最大变化感最明显。&lt;/p&gt;
&lt;p&gt;以前很多人看国产编程 AI，更多是抱着“能不能跟上”的心态。现在看 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt;，已经是另一种问题了：&lt;br&gt;
&lt;strong&gt;它在一些前端直出场景里，到底能不能直接和国外头部模型打。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;它现在比较突出的地方有这些：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;页面观感不错&lt;/li&gt;
&lt;li&gt;某些动效和拟真效果做得挺好&lt;/li&gt;
&lt;li&gt;生成结果比较有完成感&lt;/li&gt;
&lt;li&gt;有些题目里，效果已经能接近甚至咬住 &lt;code&gt;GPT 5.5&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这说明一件事：&lt;br&gt;
如果你的使用场景偏网页、偏前端、偏展示结果，那 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 已经不是“备用选项”，而是可以认真放进主选名单的模型。&lt;/p&gt;
&lt;p&gt;当然，它还没有稳到完全没有短板。&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;交互逻辑题上，偶尔还是会掉一点完成度&lt;/li&gt;
&lt;li&gt;有些页面很好看，但有些任务又会突然平一点&lt;/li&gt;
&lt;li&gt;起伏比 &lt;code&gt;GPT 5.5&lt;/code&gt; 还是大一些&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;但整体上，它现在的存在感已经非常强了。&lt;br&gt;
如果你想知道“国产模型里现在最该重点看谁”，那 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 很难绕开。&lt;/p&gt;
&lt;h2 id=&#34;deepseek-v4-现在处在什么位置&#34;&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; 现在处在什么位置
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;DeepSeek V4&lt;/code&gt; 的情况稍微复杂一点。&lt;/p&gt;
&lt;p&gt;它的问题不是完全做不好，而是你不太容易预判它这次会落在哪个区间。&lt;br&gt;
有时候它能把事情做出来，观感和功能都不算差；有时候遇到稍微复杂一点、同时要求动画、逻辑、数据表现的任务，它又容易掉链子。&lt;/p&gt;
&lt;p&gt;它目前给人的感觉更像这样：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;能力有&lt;/li&gt;
&lt;li&gt;不算弱&lt;/li&gt;
&lt;li&gt;某些题目可以交卷&lt;/li&gt;
&lt;li&gt;但稳定性还不够让人完全放心&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这就决定了它现在更适合什么样的人。&lt;/p&gt;
&lt;p&gt;如果你愿意多试几次、能接受偶尔需要重来、或者你本来就会自己检查和修代码，那 &lt;code&gt;DeepSeek V4&lt;/code&gt; 还是可以继续用。&lt;br&gt;
但如果你就是想少折腾、想把第一次生成成功率放在前面，那它现在还不是最稳的答案。&lt;/p&gt;
&lt;h2 id=&#34;普通用户到底该怎么选&#34;&gt;普通用户到底该怎么选
&lt;/h2&gt;&lt;p&gt;如果你不是做模型评测，而是真的想拿来干活，那其实可以直接按用途选。&lt;/p&gt;
&lt;h3 id=&#34;1-想少折腾想提高第一次成功率&#34;&gt;1. 想少折腾，想提高第一次成功率
&lt;/h3&gt;&lt;p&gt;选 &lt;code&gt;GPT 5.5&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它最适合的就是“我给需求，你先给我一版能用的”。&lt;br&gt;
尤其是你没有太多时间来回调、反复修的时候，它的综合稳定性最有价值。&lt;/p&gt;
&lt;h3 id=&#34;2-更看重页面展示感和视觉完成度&#34;&gt;2. 更看重页面展示感和视觉完成度
&lt;/h3&gt;&lt;p&gt;选 &lt;code&gt;Claude Opus 4.7&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;如果你想要的是一个看起来更像成品的页面，或者你做的是偏演示型、展示型的东西，&lt;code&gt;Claude&lt;/code&gt; 的优势会更容易体现出来。&lt;/p&gt;
&lt;h3 id=&#34;3-想重点看国产里最强的前端直出能力&#34;&gt;3. 想重点看国产里最强的前端直出能力
&lt;/h3&gt;&lt;p&gt;优先看 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它现在已经不是“将就用”，而是真的可以拿来正面比较。&lt;br&gt;
如果你的任务偏网页、偏动效、偏展示，&lt;code&gt;Qwen&lt;/code&gt; 的竞争力已经很实际了。&lt;/p&gt;
&lt;h3 id=&#34;4-能接受波动想继续观察国产综合能力&#34;&gt;4. 能接受波动，想继续观察国产综合能力
&lt;/h3&gt;&lt;p&gt;可以继续看 &lt;code&gt;DeepSeek V4&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;它的问题不是没实力，而是发挥不够整齐。&lt;br&gt;
如果后面稳定性继续补上，它的存在感还会更强。&lt;/p&gt;
&lt;h2 id=&#34;最后一句话&#34;&gt;最后一句话
&lt;/h2&gt;&lt;p&gt;现在这几家主流编程 AI，差距已经不再是“谁能写、谁不能写”，而是“谁更稳、谁更好看、谁更适合你的任务”。&lt;/p&gt;
&lt;p&gt;如果你就想要一个最省事的答案，&lt;code&gt;GPT 5.5&lt;/code&gt; 还是第一选择。&lt;br&gt;
如果你想要更强的展示感，&lt;code&gt;Claude Opus 4.7&lt;/code&gt; 仍然很有味道。&lt;br&gt;
如果你关心国产模型里谁最值得认真看，&lt;code&gt;Qwen 3.6 Max&lt;/code&gt; 现在已经站到很靠前的位置。&lt;br&gt;
&lt;code&gt;DeepSeek V4&lt;/code&gt; 则更像一个还在继续补稳定性的强力选手。&lt;/p&gt;
&lt;p&gt;真要压成一句最短结论，就是：&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;最稳看 &lt;code&gt;GPT 5.5&lt;/code&gt;，最有观感看 &lt;code&gt;Claude&lt;/code&gt;，国产里最值得重点看的是 &lt;code&gt;Qwen 3.6 Max&lt;/code&gt;。&lt;/strong&gt;&lt;/p&gt;
</description>
        </item>
        <item>
        <title>DeepSeek V4 Pro 对比 GPT-5.5：前端、写作、代码实测后，差距比想象更大</title>
        <link>https://knightli.com/2026/04/25/deepseek-v4-pro-vs-gpt-5-5-frontend-writing-code/</link>
        <pubDate>Sat, 25 Apr 2026 11:12:00 +0800</pubDate>
        
        <guid>https://knightli.com/2026/04/25/deepseek-v4-pro-vs-gpt-5-5-frontend-writing-code/</guid>
        <description>&lt;p&gt;&lt;code&gt;DeepSeek V4 Pro&lt;/code&gt; 和 &lt;code&gt;GPT-5.5&lt;/code&gt; 这种对比，最近越来越容易引发讨论。因为它已经不是“谁能不能用”的问题，而是：&lt;strong&gt;当任务落到前端、写作、代码这三类高频场景时，谁更适合当主力？&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;很多人做这类比较时，习惯先问一句：哪个更强。&lt;br&gt;
但更有价值的问题通常不是这个，而是：&lt;strong&gt;在具体任务里，哪个更稳、哪个更省沟通成本、哪个更容易产出能直接继续推进的结果。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;如果先给一个简化版结论，可以大致这样理解：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;需要更均衡、产品化体验更完整的综合输出时，很多人还是会先看 &lt;code&gt;GPT-5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;需要中文语境下高频迭代、成本更敏感、追求响应效率时，&lt;code&gt;DeepSeek V4 Pro&lt;/code&gt; 会更容易进入候选名单&lt;/li&gt;
&lt;li&gt;真正决定体验的，往往不是模型名字本身，而是任务类型、提示方式和你后续要不要继续改&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;下面按三个最常见的比较场景展开。&lt;/p&gt;
&lt;h2 id=&#34;1-前端任务比的不是会不会写页面而是能不能继续接着改&#34;&gt;1. 前端任务：比的不是“会不会写页面”，而是能不能继续接着改
&lt;/h2&gt;&lt;p&gt;前端任务看起来很适合拿来做模型对比，因为它结果直观：&lt;br&gt;
页面能不能跑、样式好不好看、结构清不清楚，一眼就能看到。&lt;/p&gt;
&lt;p&gt;但真正拉开差距的，往往不是第一版能不能写出来，而是后续这些问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;结构是不是足够清晰&lt;/li&gt;
&lt;li&gt;组件拆分是否自然&lt;/li&gt;
&lt;li&gt;改一处时会不会连带改坏别的地方&lt;/li&gt;
&lt;li&gt;能不能在多轮指令下继续保持同一套实现思路&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这也是为什么很多“首轮效果惊艳”的前端演示，放进真实工作流后未必依然占优。&lt;/p&gt;
&lt;p&gt;如果你的任务是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;快速生成一个可运行的页面原型&lt;/li&gt;
&lt;li&gt;把一个落地页思路先写出来&lt;/li&gt;
&lt;li&gt;按要求补齐样式、按钮、卡片、表单等基础元素&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;那两类模型通常都能完成得八九不离十，区别更多体现在输出风格。&lt;/p&gt;
&lt;p&gt;而如果你的任务变成：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;持续多轮改 UI&lt;/li&gt;
&lt;li&gt;一边读现有代码一边接着改&lt;/li&gt;
&lt;li&gt;同时兼顾组件结构、样式一致性和可维护性&lt;/li&gt;
&lt;li&gt;从静态页面逐步推进到真实项目代码&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;那你更应该观察的就不是“第一轮谁更像样”，而是“谁在第五轮以后还不容易跑偏”。&lt;/p&gt;
&lt;p&gt;所以前端对比真正该看的，不是模型能不能生成页面，而是它能不能在你连续追加约束之后，依旧保持结构稳定、命名一致、修改成本可控。&lt;/p&gt;
&lt;h2 id=&#34;2-写作任务比的不是字多不多而是风格稳不稳重写顺不顺&#34;&gt;2. 写作任务：比的不是字多不多，而是风格稳不稳、重写顺不顺
&lt;/h2&gt;&lt;p&gt;写作是另一类特别容易出现误判的场景。&lt;/p&gt;
&lt;p&gt;因为很多时候，模型第一次输出看起来都不差：&lt;br&gt;
结构完整、段落齐全、语气顺滑，乍看之下很容易觉得“差不多”。&lt;/p&gt;
&lt;p&gt;但只要你把任务往前推一步，差异就会冒出来：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;能不能准确理解你要的受众&lt;/li&gt;
&lt;li&gt;能不能在同一主题下切换不同口吻&lt;/li&gt;
&lt;li&gt;重写时会不会丢掉原文重点&lt;/li&gt;
&lt;li&gt;压缩、扩写、改标题、换结构时是否稳定&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;写作任务里最怕的不是“写不出来”，而是“看起来写出来了，但你还得重改很多遍”。&lt;/p&gt;
&lt;p&gt;所以在 &lt;code&gt;DeepSeek V4 Pro&lt;/code&gt; 和 &lt;code&gt;GPT-5.5&lt;/code&gt; 之间，更实用的比较方式通常不是让它们各写一篇，而是连续做这几轮：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;先写初稿&lt;/li&gt;
&lt;li&gt;再换一个语气重写&lt;/li&gt;
&lt;li&gt;再压缩成更短版本&lt;/li&gt;
&lt;li&gt;再改成更适合标题党或搜索分发的写法&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;如果一个模型在这几轮里仍然能保持重点不散、表达不飘、结构不乱，那它在真实写作工作流里的价值才会更高。&lt;/p&gt;
&lt;p&gt;也就是说，写作任务真正比的不是“文采”，而是&lt;strong&gt;改稿能力、服从度和连续协作感&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id=&#34;3-代码任务真正拉开差距的是长链路稳定性&#34;&gt;3. 代码任务：真正拉开差距的是长链路稳定性
&lt;/h2&gt;&lt;p&gt;代码任务比前端任务更容易暴露模型真实水平，因为它不仅要“输出”，还要“对接现实”。&lt;/p&gt;
&lt;p&gt;你很快就会遇到这些问题：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;它能不能理解已有项目结构&lt;/li&gt;
&lt;li&gt;能不能同时修改多个文件&lt;/li&gt;
&lt;li&gt;改完以后有没有引入新的问题&lt;/li&gt;
&lt;li&gt;出错时会不会顺着日志继续往下查&lt;/li&gt;
&lt;li&gt;多轮之后还记不记得前面已经做过什么&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这类任务里，用户最在意的通常不是某一段代码漂不漂亮，而是：&lt;strong&gt;能不能帮我持续往前推进，而不是让我来收拾残局。&lt;/strong&gt;&lt;/p&gt;
&lt;p&gt;所以比较 &lt;code&gt;DeepSeek V4 Pro&lt;/code&gt; 和 &lt;code&gt;GPT-5.5&lt;/code&gt; 时，最值得看的往往不是单点题，而是这种更接近真实工作的过程：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;读一个已有仓库&lt;/li&gt;
&lt;li&gt;找到一个 bug&lt;/li&gt;
&lt;li&gt;改多个相关文件&lt;/li&gt;
&lt;li&gt;根据报错继续修&lt;/li&gt;
&lt;li&gt;最后把结果整理清楚&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;只要任务进入这种连续推进模式，模型的上下文保持能力、执行习惯、解释质量和返工率，都会比“单轮答题效果”更重要。&lt;/p&gt;
&lt;p&gt;这也是为什么很多用户在代码场景里，最终形成的不是“永远只用一个模型”，而是按任务阶段切换主力。&lt;/p&gt;
&lt;h2 id=&#34;4-真正值得比较的不是输赢而是哪类任务交给谁更划算&#34;&gt;4. 真正值得比较的，不是输赢，而是“哪类任务交给谁更划算”
&lt;/h2&gt;&lt;p&gt;把 &lt;code&gt;DeepSeek V4 Pro&lt;/code&gt; 和 &lt;code&gt;GPT-5.5&lt;/code&gt; 放在一起时，如果目标只是争一个总冠军，最后往往会得到一个很空的结论。&lt;/p&gt;
&lt;p&gt;因为现实任务不是统一题目：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;有的是一次性生成&lt;/li&gt;
&lt;li&gt;有的是多轮协作&lt;/li&gt;
&lt;li&gt;有的是中文写作&lt;/li&gt;
&lt;li&gt;有的是工程改动&lt;/li&gt;
&lt;li&gt;有的是强调速度&lt;/li&gt;
&lt;li&gt;有的是强调稳定性&lt;/li&gt;
&lt;li&gt;有的是强调成本&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以更接近真实使用的方法，通常是按任务目标分：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;想要更完整的综合体验、更成熟的交互和更稳定的通用输出，可以优先试 &lt;code&gt;GPT-5.5&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;想要在中文环境里高频试错、快速迭代，并且更关注投入产出比，&lt;code&gt;DeepSeek V4 Pro&lt;/code&gt; 值得重点放进工作流里&lt;/li&gt;
&lt;li&gt;如果任务本身是长链路、多轮修正、多人协作，那就不要只看第一轮结果，要看五轮以后谁还更稳&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;换句话说，真正该问的不是“谁绝对更强”，而是：&lt;br&gt;
&lt;strong&gt;前端、写作、代码这三类任务里，哪一个模型更像你当前阶段最顺手的工具。&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id=&#34;5-怎么做一次更像样的模型对比&#34;&gt;5. 怎么做一次更像样的模型对比
&lt;/h2&gt;&lt;p&gt;如果你自己也准备测 &lt;code&gt;DeepSeek V4 Pro&lt;/code&gt; 和 &lt;code&gt;GPT-5.5&lt;/code&gt;，一个更靠谱的做法通常不是只跑一轮，而是这样测：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;给两边同一份初始需求&lt;/li&gt;
&lt;li&gt;保持相同限制条件&lt;/li&gt;
&lt;li&gt;连续追问三到五轮&lt;/li&gt;
&lt;li&gt;记录改动质量、跑偏次数和返工量&lt;/li&gt;
&lt;li&gt;最后再看速度、成本和最终可用度&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;这样测出来的结果，会比“谁第一轮更惊艳”更接近真实工作。&lt;/p&gt;
&lt;p&gt;尤其在前端、写作、代码这三类任务里，很多时候真正决定体验的不是起跑线，而是&lt;strong&gt;谁能陪你把事情做完&lt;/strong&gt;。&lt;/p&gt;
&lt;h2 id=&#34;6-可以先这样记&#34;&gt;6. 可以先这样记
&lt;/h2&gt;&lt;p&gt;如果只想先记一个够用的版本，可以先这么理解：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;GPT-5.5&lt;/code&gt;：更像综合型、产品化、默认可用的主流工作台&lt;/li&gt;
&lt;li&gt;&lt;code&gt;DeepSeek V4 Pro&lt;/code&gt;：更像在中文环境和高频试错里更值得纳入日常工作流的竞争者&lt;/li&gt;
&lt;li&gt;真正的比较重点：不是首轮炫技，而是多轮修改之后谁更稳、谁更省事&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;所以这类对比里，真正重要的从来都不是“谁赢了”，而是：&lt;br&gt;
&lt;strong&gt;你的前端、写作、代码任务，交给谁之后最容易持续推进、最少返工、最能稳定产出。&lt;/strong&gt;&lt;/p&gt;
</description>
        </item>
        <item>
        <title>OpenAI 发布 GPT-5.5：更强的智能体编码、知识工作与科研能力</title>
        <link>https://knightli.com/2026/04/24/openai-gpt-5-5-release/</link>
        <pubDate>Fri, 24 Apr 2026 08:39:56 +0800</pubDate>
        
        <guid>https://knightli.com/2026/04/24/openai-gpt-5-5-release/</guid>
        <description>&lt;p&gt;OpenAI 在 2026 年 4 月 23 日发布了 &lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/introducing-gpt-5-5/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Introducing GPT-5.5&lt;/a&gt;。从官方页面看，这次更新的重点不是单纯“模型更聪明”，而是更强调模型能不能把复杂任务持续推进下去。&lt;/p&gt;
&lt;p&gt;官方给 GPT-5.5 的定位，是一个更适合真实工作的模型。它不仅要回答问题，还要能写代码、调试、查资料、分析数据、生成文档和表格、操作软件，并在多个工具之间来回切换，直到任务完成。&lt;/p&gt;
&lt;h2 id=&#34;1-gpt-55-主要强在哪里&#34;&gt;1. GPT-5.5 主要强在哪里
&lt;/h2&gt;&lt;p&gt;这次发布页里反复出现的几个方向，可以概括为四类：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;智能体编码&lt;/li&gt;
&lt;li&gt;电脑操作与工具使用&lt;/li&gt;
&lt;li&gt;知识工作&lt;/li&gt;
&lt;li&gt;早期科研辅助&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;也就是说，GPT-5.5 的重点不是短问短答，而是更长链路的任务。比如一个工程问题不只是“这段代码怎么改”，而是要理解项目结构、定位失败原因、修改相关文件、补测试、验证结果，并尽量减少用户反复提示。&lt;/p&gt;
&lt;p&gt;OpenAI 也特别强调，GPT-5.5 在 Codex 任务中更省 token。这个点很实际，因为编码智能体一旦开始读文件、跑命令、修 bug，token 消耗会非常快。如果模型能用更少的步骤完成同样任务，实际成本和等待时间都会下降。&lt;/p&gt;
&lt;h2 id=&#34;2-编码能力是这次最重要的展示方向&#34;&gt;2. 编码能力是这次最重要的展示方向
&lt;/h2&gt;&lt;p&gt;官方称 GPT-5.5 是目前最强的 agentic coding 模型。&lt;/p&gt;
&lt;p&gt;几个公开指标里，比较值得注意的是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;Terminal-Bench 2.0&lt;/code&gt;：GPT-5.5 达到 &lt;code&gt;82.7%&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;SWE-Bench Pro&lt;/code&gt;：GPT-5.5 达到 &lt;code&gt;58.6%&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;OpenAI 内部的 &lt;code&gt;Expert-SWE&lt;/code&gt;：GPT-5.5 也高于 GPT-5.4&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这些测试的共同点是，它们更接近真实工程流程，而不是只考单个算法题。特别是 Terminal-Bench 这类任务，会涉及命令行操作、规划、试错、工具协调和多步骤验证。&lt;/p&gt;
&lt;p&gt;对日常开发者来说，这里的意义很直接：模型是否能接住更大的任务，取决于它能不能长时间保持上下文、自己检查假设、知道什么时候该跑测试、知道改动会影响哪里。&lt;/p&gt;
&lt;p&gt;GPT-5.5 在 Codex 里的价值，也主要体现在这些地方。它更像是可以接手一段工程任务的协作者，而不是只会补全代码片段的工具。&lt;/p&gt;
&lt;h2 id=&#34;3-知识工作开始变成重点场景&#34;&gt;3. 知识工作开始变成重点场景
&lt;/h2&gt;&lt;p&gt;除了写代码，OpenAI 这次还把 GPT-5.5 放到了更广的办公场景里。&lt;/p&gt;
&lt;p&gt;官方提到，GPT-5.5 在 Codex 中可以更好地生成文档、电子表格和演示文稿，也更适合处理运营研究、表格建模、业务材料整理这类任务。结合电脑操作能力之后，它的目标不是只给建议，而是能直接参与“找资料、理解内容、调用工具、检查输出、整理成结果”这一整条流程。&lt;/p&gt;
&lt;p&gt;发布页里还提到 OpenAI 内部已经在多部门使用 Codex，包括软件工程、财务、传播、市场、数据科学和产品管理等。这里真正值得关注的不是某个单点案例，而是 OpenAI 正在把 Codex 从开发工具扩展为通用工作工具。&lt;/p&gt;
&lt;p&gt;在 ChatGPT 里，GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用户；GPT-5.5 Pro 则面向更难问题和更高准确率需求，提供给 Pro、Business 和 Enterprise 用户。&lt;/p&gt;
&lt;h2 id=&#34;4-科研能力不只是答题更强&#34;&gt;4. 科研能力不只是“答题更强”
&lt;/h2&gt;&lt;p&gt;GPT-5.5 的科研展示也很重。&lt;/p&gt;
&lt;p&gt;官方提到它在遗传学、定量生物学、生物信息学、数学证明等方向都有改进。这里的重点不是模型能不能背出一个知识点，而是能不能处理更接近真实研究的问题：读数据、发现异常、提出分析方式、解释结果，并根据中间结果继续推进。&lt;/p&gt;
&lt;p&gt;发布页里提到的 &lt;code&gt;GeneBench&lt;/code&gt; 和 &lt;code&gt;BixBench&lt;/code&gt;，都更偏多阶段科学分析任务。OpenAI 还提到，一个内部版本的 GPT-5.5 借助自定义工具链，帮助发现了关于 Ramsey numbers 的新证明，并用 Lean 做了验证。&lt;/p&gt;
&lt;p&gt;这类案例还不能简单理解为“AI 已经能独立做科研”，但它说明模型正在从问答工具往研究协作者靠近。尤其是在代码、数据、论文、实验想法混在一起的场景里，GPT-5.5 的长链路推理和工具使用能力会更重要。&lt;/p&gt;
&lt;h2 id=&#34;5-推理效率更强但没有明显变慢&#34;&gt;5. 推理效率：更强但没有明显变慢
&lt;/h2&gt;&lt;p&gt;一个容易被忽略的点是，OpenAI 说 GPT-5.5 在真实服务中的 per-token latency 与 GPT-5.4 相当。&lt;/p&gt;
&lt;p&gt;通常更大的模型、更强的模型会带来更高延迟。OpenAI 这次强调，它们通过推理系统优化，让 GPT-5.5 在智能提升的同时保持速度。发布页里还提到，Codex 分析生产流量模式并编写负载分配相关启发式算法，使 token 生成速度提升超过 &lt;code&gt;20%&lt;/code&gt;。&lt;/p&gt;
&lt;p&gt;这个细节很有意思：模型不仅被基础设施服务，也反过来帮助改进服务它的基础设施。&lt;/p&gt;
&lt;h2 id=&#34;6-安全策略会更严格尤其是网络安全方向&#34;&gt;6. 安全策略会更严格，尤其是网络安全方向
&lt;/h2&gt;&lt;p&gt;GPT-5.5 的网络安全能力更强，所以 OpenAI 同时加强了安全限制。&lt;/p&gt;
&lt;p&gt;官方说明中提到，GPT-5.5 在网络安全能力上比 GPT-5.4 有提升，因此会部署更严格的分类器，尤其针对高风险活动、敏感网络安全请求和重复滥用行为。&lt;/p&gt;
&lt;p&gt;这意味着一部分用户在使用网络安全相关能力时，可能会遇到更多拒答或限制。OpenAI 也提供了 Trusted Access for Cyber，用于让经过验证的防御性用户获得更少不必要阻碍。&lt;/p&gt;
&lt;p&gt;对普通开发者来说，可以简单理解为：合法的安全加固、漏洞修复、代码审计会继续被支持，但高风险攻击链路会被更严格地控制。&lt;/p&gt;
&lt;h2 id=&#34;7-可用性与-api-价格&#34;&gt;7. 可用性与 API 价格
&lt;/h2&gt;&lt;p&gt;根据 OpenAI 发布页，GPT-5.5 的可用性如下：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;ChatGPT：GPT-5.5 Thinking 面向 Plus、Pro、Business、Enterprise 用户&lt;/li&gt;
&lt;li&gt;ChatGPT：GPT-5.5 Pro 面向 Pro、Business、Enterprise 用户&lt;/li&gt;
&lt;li&gt;Codex：GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu、Go 计划&lt;/li&gt;
&lt;li&gt;Codex：上下文窗口为 &lt;code&gt;400K&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Codex Fast mode：生成速度约 &lt;code&gt;1.5x&lt;/code&gt;，成本为 &lt;code&gt;2.5x&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;API 方面，OpenAI 表示 &lt;code&gt;gpt-5.5&lt;/code&gt; 和 &lt;code&gt;gpt-5.5-pro&lt;/code&gt; 会很快开放。&lt;/p&gt;
&lt;p&gt;官方给出的 API 价格是：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;code&gt;gpt-5.5&lt;/code&gt;：输入 &lt;code&gt;5 美元 / 1M tokens&lt;/code&gt;，输出 &lt;code&gt;30 美元 / 1M tokens&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gpt-5.5-pro&lt;/code&gt;：输入 &lt;code&gt;30 美元 / 1M tokens&lt;/code&gt;，输出 &lt;code&gt;180 美元 / 1M tokens&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;&lt;code&gt;gpt-5.5&lt;/code&gt; API 上下文窗口为 &lt;code&gt;1M&lt;/code&gt;&lt;/li&gt;
&lt;li&gt;Batch 和 Flex 为标准 API 价格的一半&lt;/li&gt;
&lt;li&gt;Priority processing 为标准价格的 &lt;code&gt;2.5x&lt;/code&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这个价格明显高于很多日常模型，所以它更适合高价值任务：复杂工程改造、长文档分析、自动化办公、科研辅助、重要业务流程，而不是普通闲聊。&lt;/p&gt;
&lt;h2 id=&#34;8-怎么看这次发布&#34;&gt;8. 怎么看这次发布
&lt;/h2&gt;&lt;p&gt;如果只看一句话，GPT-5.5 的重点是：OpenAI 正在把模型从“回答问题”继续推向“完成工作”。&lt;/p&gt;
&lt;p&gt;它最值得关注的地方，不只是 benchmark 分数提升，而是几种能力开始汇合：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;更强的长任务保持能力&lt;/li&gt;
&lt;li&gt;更稳定的工具使用&lt;/li&gt;
&lt;li&gt;更好的工程上下文理解&lt;/li&gt;
&lt;li&gt;更适合文档、表格、研究和业务流程&lt;/li&gt;
&lt;li&gt;更长上下文和更高 token 效率&lt;/li&gt;
&lt;li&gt;更严格的高风险能力控制&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;对开发者来说，最值得试的是 Codex 里的复杂工程任务。对企业用户来说，更值得关注的是它能不能把一部分跨工具、跨文档、跨流程的工作变成可交付结果。&lt;/p&gt;
&lt;p&gt;GPT-5.5 不是一次只面向聊天体验的小更新，而更像是 OpenAI 在继续推进“AI 作为工作执行层”的方向。&lt;/p&gt;
&lt;h2 id=&#34;相关链接&#34;&gt;相关链接
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;&lt;a class=&#34;link&#34; href=&#34;https://openai.com/index/introducing-gpt-5-5/&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Introducing GPT-5.5 - OpenAI&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
</description>
        </item>
        
    </channel>
</rss>
