<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>模型越獄 on KnightLi的博客</title>
        <link>https://knightli.com/zh-tw/tags/%E6%A8%A1%E5%9E%8B%E8%B6%8A%E7%8D%84/</link>
        <description>Recent content in 模型越獄 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-tw</language>
        <lastBuildDate>Wed, 01 Jul 2026 23:37:10 +0800</lastBuildDate><atom:link href="https://knightli.com/zh-tw/tags/%E6%A8%A1%E5%9E%8B%E8%B6%8A%E7%8D%84/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Claude Fable 5 恢復全球上線：Anthropic 如何處理模型越獄爭議</title>
        <link>https://knightli.com/zh-tw/2026/07/01/claude-fable-5-redeployment-jailbreak-framework/</link>
        <pubDate>Wed, 01 Jul 2026 23:37:10 +0800</pubDate>
        
        <guid>https://knightli.com/zh-tw/2026/07/01/claude-fable-5-redeployment-jailbreak-framework/</guid>
        <description>&lt;p&gt;Anthropic 宣布，針對 Claude Fable 5 和 Claude Mythos 5 的美國出口管制已經解除。Fable 5 於 2026 年 7 月 1 日重新向全球使用者開放，涵蓋 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork；AWS、Google Cloud 與 Microsoft Foundry 上的存取也將陸續恢復。&lt;/p&gt;
&lt;p&gt;這次重新上線不只是恢復一個模型。過去三週裡，Fable 5 經歷了發布、被通報存在安全繞過方法、全球暫停存取，再到更新防護後重新部署。Anthropic 同時提出一套評估 AI 模型越獄嚴重度的產業框架，希望未來遇到類似問題時，廠商和監管機構能依風險分級，而不是把所有「繞過護欄」都視為同一種事件。&lt;/p&gt;
&lt;h2 id=&#34;從發布到暫停發生了什麼&#34;&gt;從發布到暫停：發生了什麼
&lt;/h2&gt;&lt;p&gt;Fable 5 與 Mythos 5 於 6 月 9 日發布。兩者使用相同的底層模型，但定位不同：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Fable 5 配備較嚴格的安全防護，面向一般使用者開放。&lt;/li&gt;
&lt;li&gt;Mythos 5 減少了部分限制，只提供給 Project Glasswing 中通過審核的網路安全合作夥伴，用於防禦性研究。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;6 月 12 日，美國政府得知一份來自 Amazon 研究人員的報告。報告展示了一種繞過 Fable 5 安全措施的方法：模型在特定提示引導下識別出多個軟體漏洞，並在其中一個案例中產生了示範漏洞利用方式的程式碼。隨後，美國政府對 Fable 5 和 Mythos 5 實施出口管制，要求 Anthropic 限制外國公民存取。&lt;/p&gt;
&lt;p&gt;由於指令立即生效，而 Anthropic 當時無法即時、可靠地核驗使用者國籍，公司暫停了所有使用者對這兩個模型的存取。&lt;/p&gt;
&lt;p&gt;Anthropic 後續測試認為，報告中的能力並非 Fable 5 獨有。包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7 在內的較弱模型同樣能夠識別相關漏洞；多款已公開模型也能產生報告中那一個漏洞的利用示範。公司的判斷是：該方法觸及了 Fable 5 防護體系中刻意留下的「安全餘量」，但沒有釋放 Mythos 級別的獨特攻擊能力。&lt;/p&gt;
&lt;h2 id=&#34;新分類器攔截率超過-99&#34;&gt;新分類器攔截率超過 99%
&lt;/h2&gt;&lt;p&gt;即使 Anthropic 將這次事件定性為邊界案例，它仍針對報告中的具體方法訓練了新的安全分類器。&lt;/p&gt;
&lt;p&gt;分類器是在模型互動過程中運行的小型自動偵測系統，用來識別可能有害的網路安全請求或輸出。一旦觸發，Fable 5 會停止回應，使用者收到提示，原請求則改由 Opus 4.8 處理。&lt;/p&gt;
&lt;p&gt;根據 Anthropic 公布的資料，新分類器在超過 99% 的測試中可以攔截報告所描述的方法。美國商務部 AI Standards and Innovation 中心也測試了更新前後的防護措施。&lt;/p&gt;
&lt;p&gt;代價同樣明確：正常的程式設計、除錯和防禦性安全請求更容易被誤判。Anthropic 表示會繼續調整分類器，在阻止真實濫用與減少誤報之間尋找更合適的平衡。&lt;/p&gt;
&lt;h2 id=&#34;為什麼發現越獄不等於最高風險&#34;&gt;為什麼「發現越獄」不等於「最高風險」
&lt;/h2&gt;&lt;p&gt;Anthropic 將 Fable 5 的防護描述為縱深防禦：模型訓練、即時分類器、事後濫用分析等多層措施同時運作。任何單層都無法保證百分之百可靠，但組合起來可以提高繞過成本。&lt;/p&gt;
&lt;p&gt;這裡最關鍵的概念是「安全餘量」。分類器不僅攔截明確有害的請求，也會攔截一部分可能無害、但存在風險的模糊請求。因此，某個提示突破分類器，並不必然意味著它已經釋放危險能力。&lt;/p&gt;
&lt;p&gt;Anthropic 據此將越獄大致分為三類：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;輕微越獄&lt;/strong&gt;：只進入安全餘量，取得的仍是低風險資訊。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;狹窄的有害越獄&lt;/strong&gt;：針對少數具體任務解鎖有害行為，但適用範圍有限。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;通用越獄&lt;/strong&gt;：一次繞過就能解鎖一整類危險能力，風險最高。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;公司認為，目前披露的 Fable 5 越獄屬於第一類；截至原文發布時，尚未發現 Fable 5 的通用越獄。&lt;/p&gt;
&lt;h2 id=&#34;一套越獄嚴重度的四維評分框架&#34;&gt;一套越獄嚴重度的四維評分框架
&lt;/h2&gt;&lt;p&gt;AI 產業目前缺少類似 CVSS 的統一標準，無法用一致方式描述模型越獄的嚴重程度。Anthropic 正與 Amazon、Microsoft、Google 及其他 Glasswing 合作夥伴制定產業框架，初步方案包含四項指標：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;指標&lt;/th&gt;
          &lt;th&gt;需要判斷的問題&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;能力增益&lt;/td&gt;
          &lt;td&gt;繞過防護後取得的能力，比現有公開工具和較弱模型強多少？&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;能力廣度&lt;/td&gt;
          &lt;td&gt;同一種越獄方法能用於多少種不同的攻擊任務和目標？&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;武器化難度&lt;/td&gt;
          &lt;td&gt;將結果變成現實攻擊，需要多少專業知識、人工操作和重試？&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;可發現性&lt;/td&gt;
          &lt;td&gt;該方法是只有少數專家掌握，還是已經在網路上廣泛傳播？&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;這個框架試圖把「護欄被繞過」和「現實危害有多大」分開評估。一個只能完成公開工具早已能做到的低風險任務、需要大量人工嘗試且難以重現的越獄，嚴重度應當較低；如果某種方法能輕易釋放獨特能力，並快速影響電網、銀行等關鍵基礎設施，則需要立即部署臨時緩解措施。&lt;/p&gt;
&lt;p&gt;Anthropic 還計畫建立團隊，全天候監控主要的越獄提交管道，並為 Fable 5 開設新的 HackerOne 專案，供安全研究人員提交發現。&lt;/p&gt;
&lt;h2 id=&#34;與美國政府擴大發布前合作&#34;&gt;與美國政府擴大發布前合作
&lt;/h2&gt;&lt;p&gt;除了技術修復，Anthropic 也公布了更深入的政府協作安排：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;對明顯推進國家安全相關能力邊界的模型，向指定政府機構提供更充分的發布前存取和獨立評估機會。&lt;/li&gt;
&lt;li&gt;發現重大越獄或濫用模式後，快速完成調查、分級和資訊共享，並允許政府測試新的防護措施。&lt;/li&gt;
&lt;li&gt;為聯合 AI 安全研究配置專門團隊、運算資源和紅隊資源。&lt;/li&gt;
&lt;li&gt;推動前沿模型廠商採用共同、自願的安全評估標準，並支持未來將規則寫入適用於所有廠商的監管制度。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;這意味著，高能力模型的發布流程可能逐漸從廠商內部測試，轉向廠商、雲端平台、安全研究人員和政府共同參與的評估機制。&lt;/p&gt;
&lt;h2 id=&#34;恢復後的使用安排&#34;&gt;恢復後的使用安排
&lt;/h2&gt;&lt;p&gt;Fable 5 從 7 月 1 日起恢復全球存取。Pro、Max、Team 和部分 Enterprise 方案可在 7 月 7 日前，將最多 50% 的每週用量用於 Fable 5；之後需要使用 usage credits。標準 Enterprise 席位不包含這項臨時額度，具體可用性仍取決於企業是否啟用 usage credits。&lt;/p&gt;
&lt;p&gt;Mythos 5 的恢復範圍更窄。美國政府於 6 月 26 日批准部分美國機構重新存取，Anthropic 仍在協調將其開放給更多境內外 Glasswing 合作夥伴。&lt;/p&gt;
&lt;h2 id=&#34;這次事件留下了什麼&#34;&gt;這次事件留下了什麼
&lt;/h2&gt;&lt;p&gt;Fable 5 的暫停與恢復，暴露出前沿模型治理中的一個現實難題：越獄是技術事實，但「越獄成功」本身並不足以說明風險有多大。真正影響處置優先順序的，是它解鎖了什麼能力、適用範圍多廣、是否容易被武器化，以及有多少人能取得這種方法。&lt;/p&gt;
&lt;p&gt;Anthropic 提出的四維框架仍是草案，卻提供了比「存在繞過，所以立即全面下線」更細緻的討論方式。接下來更值得觀察的是，這套標準能否被其他模型廠商和監管機構共同採用，以及廠商能否在加強防護的同時，把正常開發和防禦性安全工作的誤報控制在可接受範圍內。&lt;/p&gt;
&lt;p&gt;原文：&lt;a class=&#34;link&#34; href=&#34;https://www.anthropic.com/news/redeploying-fable-5&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Redeploying Fable 5&lt;/a&gt;&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
