Claude Sonnet 5 发布:更强的 Agent 能力和更低的使用门槛

Anthropic 发布 Claude Sonnet 5,强化编码、工具调用和长流程 Agent 能力,并公布可用范围、API 价格、安全评估与迁移注意点。

Anthropic 在 2026 年 6 月 30 日发布 Claude Sonnet 5。它是 Sonnet 系列的新一代模型,定位不是单纯追求最高能力,而是把更强的 Agent、编码和工具调用能力放到更容易日常使用的价格区间里。

按 Anthropic 的说法,Sonnet 5 在推理、工具使用、编码和知识工作上明显强于 Sonnet 4.6,部分任务接近 Opus 4.8,但价格更低。对开发者来说,最直接的变化是:Claude Code、Claude Platform 和 Claude API 都可以使用 claude-sonnet-5

可用范围和价格

Claude Sonnet 5 已面向所有 Claude 计划开放:

  • Free 和 Pro 用户默认使用 Sonnet 5。
  • Max、Team 和 Enterprise 用户可以使用 Sonnet 5。
  • Claude Code 和 Claude Platform 已支持 Sonnet 5。
  • 开发者可在 Claude API 中使用模型名 claude-sonnet-5

API 价格采用先低后高的过渡安排:

时间 输入价格 输出价格
2026 年 8 月 31 日前 2 美元 / 百万 token 10 美元 / 百万 token
之后标准价格 3 美元 / 百万 token 15 美元 / 百万 token

Anthropic 还表示,Sonnet 5 使用了更新后的 tokenizer。相同输入在新 tokenizer 下可能映射为更多 token,大约是原来的 1.0 到 1.35 倍,具体取决于内容类型。首发优惠价的一个目的,就是让从 Sonnet 4.6 迁移过来的成本变化更平滑。

重点提升:让 Sonnet 更像可用的执行层

Sonnet 5 的关键词是 Agent。Anthropic 强调,它能制定计划、使用浏览器和终端等工具,并在更长的任务链条里持续执行。

这对开发者和企业用户的意义比较明确:

  1. 编码任务不只停留在补全片段,而是更适合处理多步骤修改、调试和验证。
  2. 工具调用更稳定,适合接入浏览器、终端、企业应用和内部工作流。
  3. 在中等 effort 下,Sonnet 5 提供了更好的性价比;在更高 effort 下,部分任务可以接近 Opus 4.8。
  4. 对 Claude Code 用户来说,它更像一个日常可用的执行模型,而不是只在少数高难任务中才启用的昂贵模型。

Anthropic 引用了早期合作伙伴的反馈:Sonnet 5 在复杂代码库、棕地项目、保险流程、法律研究和数据分析等任务中,能更完整地跟进任务,而不是中途停下或只给出建议。

安全评估:更安全,但不是无风险

Anthropic 的安全评估给出了两个方向的结论。

一方面,Sonnet 5 相比 Sonnet 4.6 表现更稳。它在 Agent 安全、拒绝恶意请求、抵抗提示注入、减少幻觉和减少迎合方面都有改进。Anthropic 的自动行为审计也显示,Sonnet 5 的不良行为率低于 Sonnet 4.6。

另一方面,它并不比更强的 Opus 4.8 或 Mythos Preview 更稳。在同一类安全评估中,Sonnet 5 的不良行为率仍高于这两个模型。

网络安全能力方面,Anthropic 表示没有刻意用网络安全任务训练 Sonnet 5。它可以完成一些常规、无害的安全任务,但在潜在危险能力评估中,明显弱于 Opus 4.8 和 Mythos 5。原文提到,在 Firefox 漏洞利用评估中,Sonnet 5 没有成功生成完整可用的 exploit,但相对 Sonnet 4.6 有更高的部分成功率。

因此,Sonnet 5 默认启用了网络安全防护。这些防护用于实时检测和阻止危险网络安全用途,强度与 Claude Opus 4.7、Opus 4.8 类似,但低于 Fable 5 上更严格的防护。

迁移时要注意什么

如果你已经在用 Claude API 或 Claude Code,可以把 Sonnet 5 看成 Sonnet 4.6 的直接升级候选,但迁移前建议留意三件事。

第一,模型名需要改为:

1
claude-sonnet-5

第二,成本不能只看单价。Sonnet 5 的标准单价高于首发优惠价,且 tokenizer 变化可能让部分输入消耗更多 token。对长上下文、日志分析、代码库扫描这类任务,最好用自己的真实请求重新估算一次。

第三,effort 设置会影响性价比。Sonnet 5 的优势之一是可以在不同 effort 下覆盖更宽的成本和能力区间。日常编码、文档整理、轻量 Agent 任务未必需要直接拉到最高 effort;真正需要长时间规划和多工具协作时,再提高 effort 更合理。

它和 Opus 4.8 的关系

Sonnet 5 并不是取代 Opus 4.8。更准确地说,它把一部分原本更接近 Opus 的 Agent 能力下放到了 Sonnet 级别。

如果任务追求最高上限,尤其是复杂研究、深度推理、长链路 Agent 和高难编码,Opus 4.8 仍然有位置。如果任务更看重日常吞吐、价格和稳定执行,Sonnet 5 会更适合作为默认模型。

这也是这次发布最值得关注的地方:Sonnet 系列不再只是“够快、够便宜”的中档模型,而是开始承担大量实际执行型工作。对企业和开发者来说,模型选择可能会从“默认 Opus,嫌贵再降级”,变成“默认 Sonnet 5,必要时升级 Opus”。

小结

Claude Sonnet 5 的发布,说明 Anthropic 正在把 Agent 能力从旗舰模型向更常用的模型层级扩散。它的核心卖点不是单项 benchmark,而是更完整的任务执行能力、可接受的价格和更广的默认可用范围。

短期看,最适合关注三类场景:

  • Claude Code 中的多步骤编码、调试和代码库修改。
  • 企业内部 Agent、数据分析、文档和工作流自动化。
  • 需要在成本和能力之间做细粒度平衡的 API 应用。

如果你已经在使用 Sonnet 4.6,Sonnet 5 值得测试;如果你目前主要依赖 Opus 4.8,也可以把一部分中等复杂度任务下放给 Sonnet 5,观察成本和完成率的变化。

实际迁移指南:先用任务分层测试

如果团队已经在用 Sonnet 4.6,不建议一发布就把所有调用切到 Sonnet 5。更稳的做法是先把任务按难度和风险分层:轻量问答、摘要、代码解释、单文件修改、多文件重构、长流程 Agent、带工具调用的自动化任务,分别准备一组样本。

第一轮测试重点看完成率和返工率,而不是只看回答是否更“聪明”。比如 Claude Code 场景里,可以比较它是否更少漏改测试、是否能更稳定地读懂仓库结构、是否会在不确定时停下来提问。

第二轮再看成本。Sonnet 5 的 tokenizer 变化可能让同一段输入产生更多 token,所以要用真实日志测算,不要只按标价心算。尤其是长上下文、文档分析和代码库任务,token 变化会直接影响账单。

第三轮才决定默认模型。我的建议是:把 Sonnet 5 先设为日常 Agent 和编码任务候选,把 Opus/Fable 留给失败重试或高价值任务,把 Haiku 留给批量轻任务。这样迁移更平滑,也更容易发现真正提升的环节。

观察指标

试用 Sonnet 5 时,可以记录四个指标:任务一次完成率、人工修改时间、工具调用失败率、单位任务成本。只看 benchmark 很容易误判,因为团队里的真实任务通常混合了代码、文档、环境、权限和上下文记忆。

如果某类任务 Sonnet 5 比旧模型更稳定,就值得优先迁移;如果只是回答更长但改动更冒进,那就应该继续保留人工确认或改用更保守的提示词。

原文:Introducing Claude Sonnet 5

记录并分享
使用 Hugo 构建
主题 StackJimmy 设计