Claude Fable 5 恢復全球上線:Anthropic 如何處理模型越獄爭議

Anthropic 恢復 Claude Fable 5 全球存取,並公布新版安全分類器、四維越獄嚴重度框架及與美國政府合作的新安排。

Anthropic 宣布,針對 Claude Fable 5 和 Claude Mythos 5 的美國出口管制已經解除。Fable 5 於 2026 年 7 月 1 日重新向全球使用者開放,涵蓋 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork;AWS、Google Cloud 與 Microsoft Foundry 上的存取也將陸續恢復。

這次重新上線不只是恢復一個模型。過去三週裡,Fable 5 經歷了發布、被通報存在安全繞過方法、全球暫停存取,再到更新防護後重新部署。Anthropic 同時提出一套評估 AI 模型越獄嚴重度的產業框架,希望未來遇到類似問題時,廠商和監管機構能依風險分級,而不是把所有「繞過護欄」都視為同一種事件。

從發布到暫停:發生了什麼

Fable 5 與 Mythos 5 於 6 月 9 日發布。兩者使用相同的底層模型,但定位不同:

  • Fable 5 配備較嚴格的安全防護,面向一般使用者開放。
  • Mythos 5 減少了部分限制,只提供給 Project Glasswing 中通過審核的網路安全合作夥伴,用於防禦性研究。

6 月 12 日,美國政府得知一份來自 Amazon 研究人員的報告。報告展示了一種繞過 Fable 5 安全措施的方法:模型在特定提示引導下識別出多個軟體漏洞,並在其中一個案例中產生了示範漏洞利用方式的程式碼。隨後,美國政府對 Fable 5 和 Mythos 5 實施出口管制,要求 Anthropic 限制外國公民存取。

由於指令立即生效,而 Anthropic 當時無法即時、可靠地核驗使用者國籍,公司暫停了所有使用者對這兩個模型的存取。

Anthropic 後續測試認為,報告中的能力並非 Fable 5 獨有。包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7 在內的較弱模型同樣能夠識別相關漏洞;多款已公開模型也能產生報告中那一個漏洞的利用示範。公司的判斷是:該方法觸及了 Fable 5 防護體系中刻意留下的「安全餘量」,但沒有釋放 Mythos 級別的獨特攻擊能力。

新分類器攔截率超過 99%

即使 Anthropic 將這次事件定性為邊界案例,它仍針對報告中的具體方法訓練了新的安全分類器。

分類器是在模型互動過程中運行的小型自動偵測系統,用來識別可能有害的網路安全請求或輸出。一旦觸發,Fable 5 會停止回應,使用者收到提示,原請求則改由 Opus 4.8 處理。

根據 Anthropic 公布的資料,新分類器在超過 99% 的測試中可以攔截報告所描述的方法。美國商務部 AI Standards and Innovation 中心也測試了更新前後的防護措施。

代價同樣明確:正常的程式設計、除錯和防禦性安全請求更容易被誤判。Anthropic 表示會繼續調整分類器,在阻止真實濫用與減少誤報之間尋找更合適的平衡。

為什麼「發現越獄」不等於「最高風險」

Anthropic 將 Fable 5 的防護描述為縱深防禦:模型訓練、即時分類器、事後濫用分析等多層措施同時運作。任何單層都無法保證百分之百可靠,但組合起來可以提高繞過成本。

這裡最關鍵的概念是「安全餘量」。分類器不僅攔截明確有害的請求,也會攔截一部分可能無害、但存在風險的模糊請求。因此,某個提示突破分類器,並不必然意味著它已經釋放危險能力。

Anthropic 據此將越獄大致分為三類:

  1. 輕微越獄:只進入安全餘量,取得的仍是低風險資訊。
  2. 狹窄的有害越獄:針對少數具體任務解鎖有害行為,但適用範圍有限。
  3. 通用越獄:一次繞過就能解鎖一整類危險能力,風險最高。

公司認為,目前披露的 Fable 5 越獄屬於第一類;截至原文發布時,尚未發現 Fable 5 的通用越獄。

一套越獄嚴重度的四維評分框架

AI 產業目前缺少類似 CVSS 的統一標準,無法用一致方式描述模型越獄的嚴重程度。Anthropic 正與 Amazon、Microsoft、Google 及其他 Glasswing 合作夥伴制定產業框架,初步方案包含四項指標:

指標 需要判斷的問題
能力增益 繞過防護後取得的能力,比現有公開工具和較弱模型強多少?
能力廣度 同一種越獄方法能用於多少種不同的攻擊任務和目標?
武器化難度 將結果變成現實攻擊,需要多少專業知識、人工操作和重試?
可發現性 該方法是只有少數專家掌握,還是已經在網路上廣泛傳播?

這個框架試圖把「護欄被繞過」和「現實危害有多大」分開評估。一個只能完成公開工具早已能做到的低風險任務、需要大量人工嘗試且難以重現的越獄,嚴重度應當較低;如果某種方法能輕易釋放獨特能力,並快速影響電網、銀行等關鍵基礎設施,則需要立即部署臨時緩解措施。

Anthropic 還計畫建立團隊,全天候監控主要的越獄提交管道,並為 Fable 5 開設新的 HackerOne 專案,供安全研究人員提交發現。

與美國政府擴大發布前合作

除了技術修復,Anthropic 也公布了更深入的政府協作安排:

  • 對明顯推進國家安全相關能力邊界的模型,向指定政府機構提供更充分的發布前存取和獨立評估機會。
  • 發現重大越獄或濫用模式後,快速完成調查、分級和資訊共享,並允許政府測試新的防護措施。
  • 為聯合 AI 安全研究配置專門團隊、運算資源和紅隊資源。
  • 推動前沿模型廠商採用共同、自願的安全評估標準,並支持未來將規則寫入適用於所有廠商的監管制度。

這意味著,高能力模型的發布流程可能逐漸從廠商內部測試,轉向廠商、雲端平台、安全研究人員和政府共同參與的評估機制。

恢復後的使用安排

Fable 5 從 7 月 1 日起恢復全球存取。Pro、Max、Team 和部分 Enterprise 方案可在 7 月 7 日前,將最多 50% 的每週用量用於 Fable 5;之後需要使用 usage credits。標準 Enterprise 席位不包含這項臨時額度,具體可用性仍取決於企業是否啟用 usage credits。

Mythos 5 的恢復範圍更窄。美國政府於 6 月 26 日批准部分美國機構重新存取,Anthropic 仍在協調將其開放給更多境內外 Glasswing 合作夥伴。

這次事件留下了什麼

Fable 5 的暫停與恢復,暴露出前沿模型治理中的一個現實難題:越獄是技術事實,但「越獄成功」本身並不足以說明風險有多大。真正影響處置優先順序的,是它解鎖了什麼能力、適用範圍多廣、是否容易被武器化,以及有多少人能取得這種方法。

Anthropic 提出的四維框架仍是草案,卻提供了比「存在繞過,所以立即全面下線」更細緻的討論方式。接下來更值得觀察的是,這套標準能否被其他模型廠商和監管機構共同採用,以及廠商能否在加強防護的同時,把正常開發和防禦性安全工作的誤報控制在可接受範圍內。

原文:Redeploying Fable 5

记录并分享
使用 Hugo 建立
主題 StackJimmy 設計