Claude Fable 5 恢復全球上線：Anthropic 如何處理模型越獄爭議

Wed, 01 Jul 2026 23:37:10 +0800

Anthropic 宣布，針對 Claude Fable 5 和 Claude Mythos 5 的美國出口管制已經解除。Fable 5 於 2026 年 7 月 1 日重新向全球使用者開放，涵蓋 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork；AWS、Google Cloud 與 Microsoft Foundry 上的存取也將陸續恢復。

這次重新上線不只是恢復一個模型。過去三週裡，Fable 5 經歷了發布、被通報存在安全繞過方法、全球暫停存取，再到更新防護後重新部署。Anthropic 同時提出一套評估 AI 模型越獄嚴重度的產業框架，希望未來遇到類似問題時，廠商和監管機構能依風險分級，而不是把所有「繞過護欄」都視為同一種事件。

從發布到暫停：發生了什麼

Fable 5 與 Mythos 5 於 6 月 9 日發布。兩者使用相同的底層模型，但定位不同：

Fable 5 配備較嚴格的安全防護，面向一般使用者開放。
Mythos 5 減少了部分限制，只提供給 Project Glasswing 中通過審核的網路安全合作夥伴，用於防禦性研究。

6 月 12 日，美國政府得知一份來自 Amazon 研究人員的報告。報告展示了一種繞過 Fable 5 安全措施的方法：模型在特定提示引導下識別出多個軟體漏洞，並在其中一個案例中產生了示範漏洞利用方式的程式碼。隨後，美國政府對 Fable 5 和 Mythos 5 實施出口管制，要求 Anthropic 限制外國公民存取。

由於指令立即生效，而 Anthropic 當時無法即時、可靠地核驗使用者國籍，公司暫停了所有使用者對這兩個模型的存取。

Anthropic 後續測試認為，報告中的能力並非 Fable 5 獨有。包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7 在內的較弱模型同樣能夠識別相關漏洞；多款已公開模型也能產生報告中那一個漏洞的利用示範。公司的判斷是：該方法觸及了 Fable 5 防護體系中刻意留下的「安全餘量」，但沒有釋放 Mythos 級別的獨特攻擊能力。

新分類器攔截率超過 99%

即使 Anthropic 將這次事件定性為邊界案例，它仍針對報告中的具體方法訓練了新的安全分類器。

分類器是在模型互動過程中運行的小型自動偵測系統，用來識別可能有害的網路安全請求或輸出。一旦觸發，Fable 5 會停止回應，使用者收到提示，原請求則改由 Opus 4.8 處理。

根據 Anthropic 公布的資料，新分類器在超過 99% 的測試中可以攔截報告所描述的方法。美國商務部 AI Standards and Innovation 中心也測試了更新前後的防護措施。

代價同樣明確：正常的程式設計、除錯和防禦性安全請求更容易被誤判。Anthropic 表示會繼續調整分類器，在阻止真實濫用與減少誤報之間尋找更合適的平衡。

為什麼「發現越獄」不等於「最高風險」

Anthropic 將 Fable 5 的防護描述為縱深防禦：模型訓練、即時分類器、事後濫用分析等多層措施同時運作。任何單層都無法保證百分之百可靠，但組合起來可以提高繞過成本。

這裡最關鍵的概念是「安全餘量」。分類器不僅攔截明確有害的請求，也會攔截一部分可能無害、但存在風險的模糊請求。因此，某個提示突破分類器，並不必然意味著它已經釋放危險能力。

Anthropic 據此將越獄大致分為三類：

輕微越獄：只進入安全餘量，取得的仍是低風險資訊。
狹窄的有害越獄：針對少數具體任務解鎖有害行為，但適用範圍有限。
通用越獄：一次繞過就能解鎖一整類危險能力，風險最高。

公司認為，目前披露的 Fable 5 越獄屬於第一類；截至原文發布時，尚未發現 Fable 5 的通用越獄。

一套越獄嚴重度的四維評分框架

AI 產業目前缺少類似 CVSS 的統一標準，無法用一致方式描述模型越獄的嚴重程度。Anthropic 正與 Amazon、Microsoft、Google 及其他 Glasswing 合作夥伴制定產業框架，初步方案包含四項指標：

指標	需要判斷的問題
能力增益	繞過防護後取得的能力，比現有公開工具和較弱模型強多少？
能力廣度	同一種越獄方法能用於多少種不同的攻擊任務和目標？
武器化難度	將結果變成現實攻擊，需要多少專業知識、人工操作和重試？
可發現性	該方法是只有少數專家掌握，還是已經在網路上廣泛傳播？

這個框架試圖把「護欄被繞過」和「現實危害有多大」分開評估。一個只能完成公開工具早已能做到的低風險任務、需要大量人工嘗試且難以重現的越獄，嚴重度應當較低；如果某種方法能輕易釋放獨特能力，並快速影響電網、銀行等關鍵基礎設施，則需要立即部署臨時緩解措施。

Anthropic 還計畫建立團隊，全天候監控主要的越獄提交管道，並為 Fable 5 開設新的 HackerOne 專案，供安全研究人員提交發現。

與美國政府擴大發布前合作

除了技術修復，Anthropic 也公布了更深入的政府協作安排：

對明顯推進國家安全相關能力邊界的模型，向指定政府機構提供更充分的發布前存取和獨立評估機會。
發現重大越獄或濫用模式後，快速完成調查、分級和資訊共享，並允許政府測試新的防護措施。
為聯合 AI 安全研究配置專門團隊、運算資源和紅隊資源。
推動前沿模型廠商採用共同、自願的安全評估標準，並支持未來將規則寫入適用於所有廠商的監管制度。

這意味著，高能力模型的發布流程可能逐漸從廠商內部測試，轉向廠商、雲端平台、安全研究人員和政府共同參與的評估機制。

恢復後的使用安排

Fable 5 從 7 月 1 日起恢復全球存取。Pro、Max、Team 和部分 Enterprise 方案可在 7 月 7 日前，將最多 50% 的每週用量用於 Fable 5；之後需要使用 usage credits。標準 Enterprise 席位不包含這項臨時額度，具體可用性仍取決於企業是否啟用 usage credits。

Mythos 5 的恢復範圍更窄。美國政府於 6 月 26 日批准部分美國機構重新存取，Anthropic 仍在協調將其開放給更多境內外 Glasswing 合作夥伴。

這次事件留下了什麼

Fable 5 的暫停與恢復，暴露出前沿模型治理中的一個現實難題：越獄是技術事實，但「越獄成功」本身並不足以說明風險有多大。真正影響處置優先順序的，是它解鎖了什麼能力、適用範圍多廣、是否容易被武器化，以及有多少人能取得這種方法。

Anthropic 提出的四維框架仍是草案，卻提供了比「存在繞過，所以立即全面下線」更細緻的討論方式。接下來更值得觀察的是，這套標準能否被其他模型廠商和監管機構共同採用，以及廠商能否在加強防護的同時，把正常開發和防禦性安全工作的誤報控制在可接受範圍內。

原文：Redeploying Fable 5

模型越獄 on KnightLi的博客