Claude Sonnet 5 發布：更強的 Agent 能力與更低的使用門檻

Anthropic 在 2026 年 6 月 30 日發布 Claude Sonnet 5。它是 Sonnet 系列的新一代模型，定位不是單純追求最高能力，而是把更強的 Agent、編碼和工具調用能力，放到更容易日常使用的價格區間。

按 Anthropic 的說法，Sonnet 5 在推理、工具使用、編碼和知識工作上明顯強於 Sonnet 4.6，部分任務接近 Opus 4.8，但價格更低。對開發者來說，最直接的變化是：Claude Code、Claude Platform 和 Claude API 都可以使用 claude-sonnet-5。

可用範圍與價格

Claude Sonnet 5 已面向所有 Claude 方案開放：

Free 和 Pro 使用者預設使用 Sonnet 5。
Max、Team 和 Enterprise 使用者可以使用 Sonnet 5。
Claude Code 和 Claude Platform 已支援 Sonnet 5。
開發者可在 Claude API 中使用模型名 claude-sonnet-5。

API 價格採用先低後高的過渡安排：

時間	輸入價格	輸出價格
2026 年 8 月 31 日前	2 美元 / 百萬 token	10 美元 / 百萬 token
之後標準價格	3 美元 / 百萬 token	15 美元 / 百萬 token

Anthropic 還表示，Sonnet 5 使用更新後的 tokenizer。相同輸入在新 tokenizer 下可能映射為更多 token，大約是原來的 1.0 到 1.35 倍，取決於內容類型。首發優惠價的一個目的，就是讓從 Sonnet 4.6 遷移過來的成本變化更平滑。

重點提升：讓 Sonnet 更像可用的執行層

Sonnet 5 的關鍵字是 Agent。Anthropic 強調，它能制定計畫、使用瀏覽器和終端等工具，並在更長的任務鏈條中持續執行。

這對開發者和企業使用者的意義很明確：

編碼任務不只停留在補全片段，而是更適合處理多步驟修改、除錯和驗證。
工具調用更穩定，適合接入瀏覽器、終端、企業應用和內部工作流。
在中等 effort 下，Sonnet 5 提供更好的性價比；在更高 effort 下，部分任務可以接近 Opus 4.8。
對 Claude Code 使用者來說，它更像日常可用的執行模型，而不是只在少數高難任務才啟用的昂貴模型。

Anthropic 引用了早期合作夥伴的回饋：Sonnet 5 在複雜程式碼庫、棕地專案、保險流程、法律研究和資料分析等任務中，能更完整地跟進任務，而不是中途停下或只給出建議。

安全評估：更安全，但不是無風險

Anthropic 的安全評估有兩個方向。

一方面，Sonnet 5 相比 Sonnet 4.6 表現更穩。它在 Agent 安全、拒絕惡意請求、抵抗提示注入、減少幻覺和降低迎合方面都有改進。Anthropic 的自動行為審計也顯示，Sonnet 5 的不良行為率低於 Sonnet 4.6。

另一方面，它並不比更強的 Opus 4.8 或 Mythos Preview 更穩。在同類安全評估中，Sonnet 5 的不良行為率仍高於這兩個模型。

網路安全能力方面，Anthropic 表示沒有刻意用網路安全任務訓練 Sonnet 5。它可以完成一些常規、無害的安全任務，但在潛在危險能力評估中，明顯弱於 Opus 4.8 和 Mythos 5。原文提到，在 Firefox 漏洞利用評估中，Sonnet 5 沒有成功生成完整可用的 exploit，但相對 Sonnet 4.6 有更高的部分成功率。

因此，Sonnet 5 預設啟用網路安全防護。這些防護用於即時偵測和阻止危險網路安全用途，強度與 Claude Opus 4.7、Opus 4.8 類似，但低於 Fable 5 上更嚴格的防護。

遷移時要注意什麼

如果你已經在用 Claude API 或 Claude Code，可以把 Sonnet 5 看成 Sonnet 4.6 的直接升級候選，但遷移前建議留意三件事。

第一，模型名需要改為：

1

claude-sonnet-5

第二，成本不能只看單價。Sonnet 5 的標準單價高於首發優惠價，且 tokenizer 變化可能讓部分輸入消耗更多 token。對長上下文、日誌分析、程式碼庫掃描這類任務，最好用自己的真實請求重新估算一次。

第三，effort 設定會影響性價比。Sonnet 5 的優勢之一，是可以在不同 effort 下覆蓋更寬的成本和能力區間。日常編碼、文件整理、輕量 Agent 任務未必需要直接拉到最高 effort；真正需要長時間規劃和多工具協作時，再提高 effort 更合理。

它和 Opus 4.8 的關係

Sonnet 5 並不是取代 Opus 4.8。更準確地說，它把一部分原本更接近 Opus 的 Agent 能力下放到了 Sonnet 級別。

如果任務追求最高上限，尤其是複雜研究、深度推理、長鏈路 Agent 和高難編碼，Opus 4.8 仍然有位置。如果任務更看重日常吞吐、價格和穩定執行，Sonnet 5 會更適合作為預設模型。

這也是這次發布最值得關注的地方：Sonnet 系列不再只是「夠快、夠便宜」的中階模型，而是開始承擔大量實際執行型工作。對企業和開發者來說，模型選擇可能會從「預設 Opus，嫌貴再降級」，變成「預設 Sonnet 5，必要時升級 Opus」。

小結

Claude Sonnet 5 的發布，說明 Anthropic 正在把 Agent 能力從旗艦模型向更常用的模型層級擴散。它的核心賣點不是單項 benchmark，而是更完整的任務執行能力、可接受的價格和更廣的預設可用範圍。

短期看，最適合關注三類場景：

Claude Code 中的多步驟編碼、除錯和程式碼庫修改。
企業內部 Agent、資料分析、文件和工作流自動化。
需要在成本和能力之間做細緻平衡的 API 應用。

如果你已經在使用 Sonnet 4.6，Sonnet 5 值得測試；如果你目前主要依賴 Opus 4.8，也可以把一部分中等複雜度任務下放給 Sonnet 5，觀察成本和完成率的變化。

實際遷移指南：先用任務分層測試

如果團隊已經在用 Sonnet 4.6，不建議一發布就把所有調用切到 Sonnet 5。更穩的做法，是先把任務按難度和風險分層：輕量問答、摘要、程式碼解釋、單檔修改、多檔重構、長流程 Agent、帶工具調用的自動化任務，分別準備一組樣本。

第一輪測試重點看完成率和返工率，而不是只看回答是否更「聰明」。例如 Claude Code 場景裡，可以比較它是否更少漏改測試、是否能更穩定地讀懂倉庫結構、是否會在不確定時停下來提問。

第二輪再看成本。Sonnet 5 的 tokenizer 變化可能讓同一段輸入產生更多 token，所以要用真實日誌測算，不要只按標價心算。尤其是長上下文、文件分析和程式碼庫任務，token 變化會直接影響帳單。

第三輪才決定預設模型。我的建議是：把 Sonnet 5 先設為日常 Agent 和編碼任務候選，把 Opus/Fable 留給失敗重試或高價值任務，把 Haiku 留給批量輕任務。這樣遷移更平滑，也更容易發現真正提升的環節。

觀察指標

試用 Sonnet 5 時，可以記錄四個指標：任務一次完成率、人工修改時間、工具調用失敗率、單位任務成本。只看 benchmark 很容易誤判，因為團隊裡的真實任務通常混合了程式碼、文件、環境、權限和上下文記憶。

如果某類任務 Sonnet 5 比舊模型更穩定，就值得優先遷移；如果只是回答更長但改動更冒進，那就應該繼續保留人工確認或改用更保守的提示詞。

原文：Introducing Claude Sonnet 5