Claude Sonnet 5 发布：更强的 Agent 能力和更低的使用门槛

Anthropic 在 2026 年 6 月 30 日发布 Claude Sonnet 5。它是 Sonnet 系列的新一代模型，定位不是单纯追求最高能力，而是把更强的 Agent、编码和工具调用能力放到更容易日常使用的价格区间里。

按 Anthropic 的说法，Sonnet 5 在推理、工具使用、编码和知识工作上明显强于 Sonnet 4.6，部分任务接近 Opus 4.8，但价格更低。对开发者来说，最直接的变化是：Claude Code、Claude Platform 和 Claude API 都可以使用 claude-sonnet-5。

可用范围和价格

Claude Sonnet 5 已面向所有 Claude 计划开放：

Free 和 Pro 用户默认使用 Sonnet 5。
Max、Team 和 Enterprise 用户可以使用 Sonnet 5。
Claude Code 和 Claude Platform 已支持 Sonnet 5。
开发者可在 Claude API 中使用模型名 claude-sonnet-5。

API 价格采用先低后高的过渡安排：

时间	输入价格	输出价格
2026 年 8 月 31 日前	2 美元 / 百万 token	10 美元 / 百万 token
之后标准价格	3 美元 / 百万 token	15 美元 / 百万 token

Anthropic 还表示，Sonnet 5 使用了更新后的 tokenizer。相同输入在新 tokenizer 下可能映射为更多 token，大约是原来的 1.0 到 1.35 倍，具体取决于内容类型。首发优惠价的一个目的，就是让从 Sonnet 4.6 迁移过来的成本变化更平滑。

重点提升：让 Sonnet 更像可用的执行层

Sonnet 5 的关键词是 Agent。Anthropic 强调，它能制定计划、使用浏览器和终端等工具，并在更长的任务链条里持续执行。

这对开发者和企业用户的意义比较明确：

编码任务不只停留在补全片段，而是更适合处理多步骤修改、调试和验证。
工具调用更稳定，适合接入浏览器、终端、企业应用和内部工作流。
在中等 effort 下，Sonnet 5 提供了更好的性价比；在更高 effort 下，部分任务可以接近 Opus 4.8。
对 Claude Code 用户来说，它更像一个日常可用的执行模型，而不是只在少数高难任务中才启用的昂贵模型。

Anthropic 引用了早期合作伙伴的反馈：Sonnet 5 在复杂代码库、棕地项目、保险流程、法律研究和数据分析等任务中，能更完整地跟进任务，而不是中途停下或只给出建议。

安全评估：更安全，但不是无风险

Anthropic 的安全评估给出了两个方向的结论。

一方面，Sonnet 5 相比 Sonnet 4.6 表现更稳。它在 Agent 安全、拒绝恶意请求、抵抗提示注入、减少幻觉和减少迎合方面都有改进。Anthropic 的自动行为审计也显示，Sonnet 5 的不良行为率低于 Sonnet 4.6。

另一方面，它并不比更强的 Opus 4.8 或 Mythos Preview 更稳。在同一类安全评估中，Sonnet 5 的不良行为率仍高于这两个模型。

网络安全能力方面，Anthropic 表示没有刻意用网络安全任务训练 Sonnet 5。它可以完成一些常规、无害的安全任务，但在潜在危险能力评估中，明显弱于 Opus 4.8 和 Mythos 5。原文提到，在 Firefox 漏洞利用评估中，Sonnet 5 没有成功生成完整可用的 exploit，但相对 Sonnet 4.6 有更高的部分成功率。

因此，Sonnet 5 默认启用了网络安全防护。这些防护用于实时检测和阻止危险网络安全用途，强度与 Claude Opus 4.7、Opus 4.8 类似，但低于 Fable 5 上更严格的防护。

迁移时要注意什么

如果你已经在用 Claude API 或 Claude Code，可以把 Sonnet 5 看成 Sonnet 4.6 的直接升级候选，但迁移前建议留意三件事。

第一，模型名需要改为：

1

claude-sonnet-5

第二，成本不能只看单价。Sonnet 5 的标准单价高于首发优惠价，且 tokenizer 变化可能让部分输入消耗更多 token。对长上下文、日志分析、代码库扫描这类任务，最好用自己的真实请求重新估算一次。

第三，effort 设置会影响性价比。Sonnet 5 的优势之一是可以在不同 effort 下覆盖更宽的成本和能力区间。日常编码、文档整理、轻量 Agent 任务未必需要直接拉到最高 effort；真正需要长时间规划和多工具协作时，再提高 effort 更合理。

它和 Opus 4.8 的关系

Sonnet 5 并不是取代 Opus 4.8。更准确地说，它把一部分原本更接近 Opus 的 Agent 能力下放到了 Sonnet 级别。

如果任务追求最高上限，尤其是复杂研究、深度推理、长链路 Agent 和高难编码，Opus 4.8 仍然有位置。如果任务更看重日常吞吐、价格和稳定执行，Sonnet 5 会更适合作为默认模型。

这也是这次发布最值得关注的地方：Sonnet 系列不再只是“够快、够便宜”的中档模型，而是开始承担大量实际执行型工作。对企业和开发者来说，模型选择可能会从“默认 Opus，嫌贵再降级”，变成“默认 Sonnet 5，必要时升级 Opus”。

小结

Claude Sonnet 5 的发布，说明 Anthropic 正在把 Agent 能力从旗舰模型向更常用的模型层级扩散。它的核心卖点不是单项 benchmark，而是更完整的任务执行能力、可接受的价格和更广的默认可用范围。

短期看，最适合关注三类场景：

Claude Code 中的多步骤编码、调试和代码库修改。
企业内部 Agent、数据分析、文档和工作流自动化。
需要在成本和能力之间做细粒度平衡的 API 应用。

如果你已经在使用 Sonnet 4.6，Sonnet 5 值得测试；如果你目前主要依赖 Opus 4.8，也可以把一部分中等复杂度任务下放给 Sonnet 5，观察成本和完成率的变化。

实际迁移指南：先用任务分层测试

如果团队已经在用 Sonnet 4.6，不建议一发布就把所有调用切到 Sonnet 5。更稳的做法是先把任务按难度和风险分层：轻量问答、摘要、代码解释、单文件修改、多文件重构、长流程 Agent、带工具调用的自动化任务，分别准备一组样本。

第一轮测试重点看完成率和返工率，而不是只看回答是否更“聪明”。比如 Claude Code 场景里，可以比较它是否更少漏改测试、是否能更稳定地读懂仓库结构、是否会在不确定时停下来提问。

第二轮再看成本。Sonnet 5 的 tokenizer 变化可能让同一段输入产生更多 token，所以要用真实日志测算，不要只按标价心算。尤其是长上下文、文档分析和代码库任务，token 变化会直接影响账单。

第三轮才决定默认模型。我的建议是：把 Sonnet 5 先设为日常 Agent 和编码任务候选，把 Opus/Fable 留给失败重试或高价值任务，把 Haiku 留给批量轻任务。这样迁移更平滑，也更容易发现真正提升的环节。

观察指标

试用 Sonnet 5 时，可以记录四个指标：任务一次完成率、人工修改时间、工具调用失败率、单位任务成本。只看 benchmark 很容易误判，因为团队里的真实任务通常混合了代码、文档、环境、权限和上下文记忆。

如果某类任务 Sonnet 5 比旧模型更稳定，就值得优先迁移；如果只是回答更长但改动更冒进，那就应该继续保留人工确认或改用更保守的提示词。

原文：Introducing Claude Sonnet 5