Anthropic 在 2026 年 6 月 30 日發布 Claude Sonnet 5。它是 Sonnet 系列的新一代模型,定位不是單純追求最高能力,而是把更強的 Agent、編碼和工具調用能力,放到更容易日常使用的價格區間。
按 Anthropic 的說法,Sonnet 5 在推理、工具使用、編碼和知識工作上明顯強於 Sonnet 4.6,部分任務接近 Opus 4.8,但價格更低。對開發者來說,最直接的變化是:Claude Code、Claude Platform 和 Claude API 都可以使用 claude-sonnet-5。
可用範圍與價格
Claude Sonnet 5 已面向所有 Claude 方案開放:
- Free 和 Pro 使用者預設使用 Sonnet 5。
- Max、Team 和 Enterprise 使用者可以使用 Sonnet 5。
- Claude Code 和 Claude Platform 已支援 Sonnet 5。
- 開發者可在 Claude API 中使用模型名
claude-sonnet-5。
API 價格採用先低後高的過渡安排:
| 時間 | 輸入價格 | 輸出價格 |
|---|---|---|
| 2026 年 8 月 31 日前 | 2 美元 / 百萬 token | 10 美元 / 百萬 token |
| 之後標準價格 | 3 美元 / 百萬 token | 15 美元 / 百萬 token |
Anthropic 還表示,Sonnet 5 使用更新後的 tokenizer。相同輸入在新 tokenizer 下可能映射為更多 token,大約是原來的 1.0 到 1.35 倍,取決於內容類型。首發優惠價的一個目的,就是讓從 Sonnet 4.6 遷移過來的成本變化更平滑。
重點提升:讓 Sonnet 更像可用的執行層
Sonnet 5 的關鍵字是 Agent。Anthropic 強調,它能制定計畫、使用瀏覽器和終端等工具,並在更長的任務鏈條中持續執行。
這對開發者和企業使用者的意義很明確:
- 編碼任務不只停留在補全片段,而是更適合處理多步驟修改、除錯和驗證。
- 工具調用更穩定,適合接入瀏覽器、終端、企業應用和內部工作流。
- 在中等 effort 下,Sonnet 5 提供更好的性價比;在更高 effort 下,部分任務可以接近 Opus 4.8。
- 對 Claude Code 使用者來說,它更像日常可用的執行模型,而不是只在少數高難任務才啟用的昂貴模型。
Anthropic 引用了早期合作夥伴的回饋:Sonnet 5 在複雜程式碼庫、棕地專案、保險流程、法律研究和資料分析等任務中,能更完整地跟進任務,而不是中途停下或只給出建議。
安全評估:更安全,但不是無風險
Anthropic 的安全評估有兩個方向。
一方面,Sonnet 5 相比 Sonnet 4.6 表現更穩。它在 Agent 安全、拒絕惡意請求、抵抗提示注入、減少幻覺和降低迎合方面都有改進。Anthropic 的自動行為審計也顯示,Sonnet 5 的不良行為率低於 Sonnet 4.6。
另一方面,它並不比更強的 Opus 4.8 或 Mythos Preview 更穩。在同類安全評估中,Sonnet 5 的不良行為率仍高於這兩個模型。
網路安全能力方面,Anthropic 表示沒有刻意用網路安全任務訓練 Sonnet 5。它可以完成一些常規、無害的安全任務,但在潛在危險能力評估中,明顯弱於 Opus 4.8 和 Mythos 5。原文提到,在 Firefox 漏洞利用評估中,Sonnet 5 沒有成功生成完整可用的 exploit,但相對 Sonnet 4.6 有更高的部分成功率。
因此,Sonnet 5 預設啟用網路安全防護。這些防護用於即時偵測和阻止危險網路安全用途,強度與 Claude Opus 4.7、Opus 4.8 類似,但低於 Fable 5 上更嚴格的防護。
遷移時要注意什麼
如果你已經在用 Claude API 或 Claude Code,可以把 Sonnet 5 看成 Sonnet 4.6 的直接升級候選,但遷移前建議留意三件事。
第一,模型名需要改為:
|
|
第二,成本不能只看單價。Sonnet 5 的標準單價高於首發優惠價,且 tokenizer 變化可能讓部分輸入消耗更多 token。對長上下文、日誌分析、程式碼庫掃描這類任務,最好用自己的真實請求重新估算一次。
第三,effort 設定會影響性價比。Sonnet 5 的優勢之一,是可以在不同 effort 下覆蓋更寬的成本和能力區間。日常編碼、文件整理、輕量 Agent 任務未必需要直接拉到最高 effort;真正需要長時間規劃和多工具協作時,再提高 effort 更合理。
它和 Opus 4.8 的關係
Sonnet 5 並不是取代 Opus 4.8。更準確地說,它把一部分原本更接近 Opus 的 Agent 能力下放到了 Sonnet 級別。
如果任務追求最高上限,尤其是複雜研究、深度推理、長鏈路 Agent 和高難編碼,Opus 4.8 仍然有位置。如果任務更看重日常吞吐、價格和穩定執行,Sonnet 5 會更適合作為預設模型。
這也是這次發布最值得關注的地方:Sonnet 系列不再只是「夠快、夠便宜」的中階模型,而是開始承擔大量實際執行型工作。對企業和開發者來說,模型選擇可能會從「預設 Opus,嫌貴再降級」,變成「預設 Sonnet 5,必要時升級 Opus」。
小結
Claude Sonnet 5 的發布,說明 Anthropic 正在把 Agent 能力從旗艦模型向更常用的模型層級擴散。它的核心賣點不是單項 benchmark,而是更完整的任務執行能力、可接受的價格和更廣的預設可用範圍。
短期看,最適合關注三類場景:
- Claude Code 中的多步驟編碼、除錯和程式碼庫修改。
- 企業內部 Agent、資料分析、文件和工作流自動化。
- 需要在成本和能力之間做細緻平衡的 API 應用。
如果你已經在使用 Sonnet 4.6,Sonnet 5 值得測試;如果你目前主要依賴 Opus 4.8,也可以把一部分中等複雜度任務下放給 Sonnet 5,觀察成本和完成率的變化。
實際遷移指南:先用任務分層測試
如果團隊已經在用 Sonnet 4.6,不建議一發布就把所有調用切到 Sonnet 5。更穩的做法,是先把任務按難度和風險分層:輕量問答、摘要、程式碼解釋、單檔修改、多檔重構、長流程 Agent、帶工具調用的自動化任務,分別準備一組樣本。
第一輪測試重點看完成率和返工率,而不是只看回答是否更「聰明」。例如 Claude Code 場景裡,可以比較它是否更少漏改測試、是否能更穩定地讀懂倉庫結構、是否會在不確定時停下來提問。
第二輪再看成本。Sonnet 5 的 tokenizer 變化可能讓同一段輸入產生更多 token,所以要用真實日誌測算,不要只按標價心算。尤其是長上下文、文件分析和程式碼庫任務,token 變化會直接影響帳單。
第三輪才決定預設模型。我的建議是:把 Sonnet 5 先設為日常 Agent 和編碼任務候選,把 Opus/Fable 留給失敗重試或高價值任務,把 Haiku 留給批量輕任務。這樣遷移更平滑,也更容易發現真正提升的環節。
觀察指標
試用 Sonnet 5 時,可以記錄四個指標:任務一次完成率、人工修改時間、工具調用失敗率、單位任務成本。只看 benchmark 很容易誤判,因為團隊裡的真實任務通常混合了程式碼、文件、環境、權限和上下文記憶。
如果某類任務 Sonnet 5 比舊模型更穩定,就值得優先遷移;如果只是回答更長但改動更冒進,那就應該繼續保留人工確認或改用更保守的提示詞。