Claude Sonnet 5 發布:更強的 Agent 能力與更低的使用門檻

Anthropic 發布 Claude Sonnet 5,強化編碼、工具調用與長流程 Agent 能力,並公布可用範圍、API 價格、安全評估與遷移注意事項。

Anthropic 在 2026 年 6 月 30 日發布 Claude Sonnet 5。它是 Sonnet 系列的新一代模型,定位不是單純追求最高能力,而是把更強的 Agent、編碼和工具調用能力,放到更容易日常使用的價格區間。

按 Anthropic 的說法,Sonnet 5 在推理、工具使用、編碼和知識工作上明顯強於 Sonnet 4.6,部分任務接近 Opus 4.8,但價格更低。對開發者來說,最直接的變化是:Claude Code、Claude Platform 和 Claude API 都可以使用 claude-sonnet-5

可用範圍與價格

Claude Sonnet 5 已面向所有 Claude 方案開放:

  • Free 和 Pro 使用者預設使用 Sonnet 5。
  • Max、Team 和 Enterprise 使用者可以使用 Sonnet 5。
  • Claude Code 和 Claude Platform 已支援 Sonnet 5。
  • 開發者可在 Claude API 中使用模型名 claude-sonnet-5

API 價格採用先低後高的過渡安排:

時間 輸入價格 輸出價格
2026 年 8 月 31 日前 2 美元 / 百萬 token 10 美元 / 百萬 token
之後標準價格 3 美元 / 百萬 token 15 美元 / 百萬 token

Anthropic 還表示,Sonnet 5 使用更新後的 tokenizer。相同輸入在新 tokenizer 下可能映射為更多 token,大約是原來的 1.0 到 1.35 倍,取決於內容類型。首發優惠價的一個目的,就是讓從 Sonnet 4.6 遷移過來的成本變化更平滑。

重點提升:讓 Sonnet 更像可用的執行層

Sonnet 5 的關鍵字是 Agent。Anthropic 強調,它能制定計畫、使用瀏覽器和終端等工具,並在更長的任務鏈條中持續執行。

這對開發者和企業使用者的意義很明確:

  1. 編碼任務不只停留在補全片段,而是更適合處理多步驟修改、除錯和驗證。
  2. 工具調用更穩定,適合接入瀏覽器、終端、企業應用和內部工作流。
  3. 在中等 effort 下,Sonnet 5 提供更好的性價比;在更高 effort 下,部分任務可以接近 Opus 4.8。
  4. 對 Claude Code 使用者來說,它更像日常可用的執行模型,而不是只在少數高難任務才啟用的昂貴模型。

Anthropic 引用了早期合作夥伴的回饋:Sonnet 5 在複雜程式碼庫、棕地專案、保險流程、法律研究和資料分析等任務中,能更完整地跟進任務,而不是中途停下或只給出建議。

安全評估:更安全,但不是無風險

Anthropic 的安全評估有兩個方向。

一方面,Sonnet 5 相比 Sonnet 4.6 表現更穩。它在 Agent 安全、拒絕惡意請求、抵抗提示注入、減少幻覺和降低迎合方面都有改進。Anthropic 的自動行為審計也顯示,Sonnet 5 的不良行為率低於 Sonnet 4.6。

另一方面,它並不比更強的 Opus 4.8 或 Mythos Preview 更穩。在同類安全評估中,Sonnet 5 的不良行為率仍高於這兩個模型。

網路安全能力方面,Anthropic 表示沒有刻意用網路安全任務訓練 Sonnet 5。它可以完成一些常規、無害的安全任務,但在潛在危險能力評估中,明顯弱於 Opus 4.8 和 Mythos 5。原文提到,在 Firefox 漏洞利用評估中,Sonnet 5 沒有成功生成完整可用的 exploit,但相對 Sonnet 4.6 有更高的部分成功率。

因此,Sonnet 5 預設啟用網路安全防護。這些防護用於即時偵測和阻止危險網路安全用途,強度與 Claude Opus 4.7、Opus 4.8 類似,但低於 Fable 5 上更嚴格的防護。

遷移時要注意什麼

如果你已經在用 Claude API 或 Claude Code,可以把 Sonnet 5 看成 Sonnet 4.6 的直接升級候選,但遷移前建議留意三件事。

第一,模型名需要改為:

1
claude-sonnet-5

第二,成本不能只看單價。Sonnet 5 的標準單價高於首發優惠價,且 tokenizer 變化可能讓部分輸入消耗更多 token。對長上下文、日誌分析、程式碼庫掃描這類任務,最好用自己的真實請求重新估算一次。

第三,effort 設定會影響性價比。Sonnet 5 的優勢之一,是可以在不同 effort 下覆蓋更寬的成本和能力區間。日常編碼、文件整理、輕量 Agent 任務未必需要直接拉到最高 effort;真正需要長時間規劃和多工具協作時,再提高 effort 更合理。

它和 Opus 4.8 的關係

Sonnet 5 並不是取代 Opus 4.8。更準確地說,它把一部分原本更接近 Opus 的 Agent 能力下放到了 Sonnet 級別。

如果任務追求最高上限,尤其是複雜研究、深度推理、長鏈路 Agent 和高難編碼,Opus 4.8 仍然有位置。如果任務更看重日常吞吐、價格和穩定執行,Sonnet 5 會更適合作為預設模型。

這也是這次發布最值得關注的地方:Sonnet 系列不再只是「夠快、夠便宜」的中階模型,而是開始承擔大量實際執行型工作。對企業和開發者來說,模型選擇可能會從「預設 Opus,嫌貴再降級」,變成「預設 Sonnet 5,必要時升級 Opus」。

小結

Claude Sonnet 5 的發布,說明 Anthropic 正在把 Agent 能力從旗艦模型向更常用的模型層級擴散。它的核心賣點不是單項 benchmark,而是更完整的任務執行能力、可接受的價格和更廣的預設可用範圍。

短期看,最適合關注三類場景:

  • Claude Code 中的多步驟編碼、除錯和程式碼庫修改。
  • 企業內部 Agent、資料分析、文件和工作流自動化。
  • 需要在成本和能力之間做細緻平衡的 API 應用。

如果你已經在使用 Sonnet 4.6,Sonnet 5 值得測試;如果你目前主要依賴 Opus 4.8,也可以把一部分中等複雜度任務下放給 Sonnet 5,觀察成本和完成率的變化。

實際遷移指南:先用任務分層測試

如果團隊已經在用 Sonnet 4.6,不建議一發布就把所有調用切到 Sonnet 5。更穩的做法,是先把任務按難度和風險分層:輕量問答、摘要、程式碼解釋、單檔修改、多檔重構、長流程 Agent、帶工具調用的自動化任務,分別準備一組樣本。

第一輪測試重點看完成率和返工率,而不是只看回答是否更「聰明」。例如 Claude Code 場景裡,可以比較它是否更少漏改測試、是否能更穩定地讀懂倉庫結構、是否會在不確定時停下來提問。

第二輪再看成本。Sonnet 5 的 tokenizer 變化可能讓同一段輸入產生更多 token,所以要用真實日誌測算,不要只按標價心算。尤其是長上下文、文件分析和程式碼庫任務,token 變化會直接影響帳單。

第三輪才決定預設模型。我的建議是:把 Sonnet 5 先設為日常 Agent 和編碼任務候選,把 Opus/Fable 留給失敗重試或高價值任務,把 Haiku 留給批量輕任務。這樣遷移更平滑,也更容易發現真正提升的環節。

觀察指標

試用 Sonnet 5 時,可以記錄四個指標:任務一次完成率、人工修改時間、工具調用失敗率、單位任務成本。只看 benchmark 很容易誤判,因為團隊裡的真實任務通常混合了程式碼、文件、環境、權限和上下文記憶。

如果某類任務 Sonnet 5 比舊模型更穩定,就值得優先遷移;如果只是回答更長但改動更冒進,那就應該繼續保留人工確認或改用更保守的提示詞。

原文:Introducing Claude Sonnet 5

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計