<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
    <channel>
        <title>模型越狱 on KnightLi的博客</title>
        <link>https://knightli.com/tags/%E6%A8%A1%E5%9E%8B%E8%B6%8A%E7%8B%B1/</link>
        <description>Recent content in 模型越狱 on KnightLi的博客</description>
        <generator>Hugo -- gohugo.io</generator>
        <language>zh-cn</language>
        <lastBuildDate>Wed, 01 Jul 2026 23:37:10 +0800</lastBuildDate><atom:link href="https://knightli.com/tags/%E6%A8%A1%E5%9E%8B%E8%B6%8A%E7%8B%B1/index.xml" rel="self" type="application/rss+xml" /><item>
        <title>Claude Fable 5 恢复全球上线：Anthropic 如何处理模型越狱争议</title>
        <link>https://knightli.com/2026/07/01/claude-fable-5-redeployment-jailbreak-framework/</link>
        <pubDate>Wed, 01 Jul 2026 23:37:10 +0800</pubDate>
        
        <guid>https://knightli.com/2026/07/01/claude-fable-5-redeployment-jailbreak-framework/</guid>
        <description>&lt;p&gt;Anthropic 宣布，针对 Claude Fable 5 和 Claude Mythos 5 的美国出口管制已经解除。Fable 5 于 2026 年 7 月 1 日重新向全球用户开放，覆盖 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork；AWS、Google Cloud 与 Microsoft Foundry 上的访问也将陆续恢复。&lt;/p&gt;
&lt;p&gt;这次重新上线并不只是恢复一个模型。过去三周里，Fable 5 经历了发布、被报告存在安全绕过方法、全球暂停访问，再到更新防护后重新部署。Anthropic 同时提出了一套评估 AI 模型越狱严重度的行业框架，希望以后遇到类似问题时，厂商和监管机构能按风险分级，而不是把所有“绕过护栏”都视为同一种事件。&lt;/p&gt;
&lt;h2 id=&#34;从发布到暂停发生了什么&#34;&gt;从发布到暂停：发生了什么
&lt;/h2&gt;&lt;p&gt;Fable 5 与 Mythos 5 于 6 月 9 日发布。两者使用相同的底层模型，但定位不同：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Fable 5 配备较严格的安全防护，面向普通用户开放。&lt;/li&gt;
&lt;li&gt;Mythos 5 减少了部分限制，只提供给 Project Glasswing 中经过审核的网络安全合作伙伴，用于防御性研究。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;6 月 12 日，美国政府获悉一份来自 Amazon 研究人员的报告。报告展示了一种绕过 Fable 5 安全措施的方法：模型在提示引导下识别出多个软件漏洞，并在其中一个案例中生成了演示漏洞利用方式的代码。随后，美国政府对 Fable 5 和 Mythos 5 实施出口管制，要求 Anthropic 限制外国公民访问。&lt;/p&gt;
&lt;p&gt;由于指令立即生效，而 Anthropic 当时无法实时、可靠地核验用户国籍，公司暂停了所有用户对这两个模型的访问。&lt;/p&gt;
&lt;p&gt;Anthropic 后续测试认为，报告中的能力并非 Fable 5 独有。包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7 在内的较弱模型同样能够识别相关漏洞；多款已公开模型也能生成报告中那一个漏洞的利用演示。公司的判断是：该方法触及了 Fable 5 防护体系中刻意留下的“安全余量”，但没有释放 Mythos 级别的独特攻击能力。&lt;/p&gt;
&lt;h2 id=&#34;新分类器拦截率超过-99&#34;&gt;新分类器拦截率超过 99%
&lt;/h2&gt;&lt;p&gt;即便 Anthropic 将这次事件定性为边界案例，它仍针对报告中的具体方法训练了新的安全分类器。&lt;/p&gt;
&lt;p&gt;分类器是运行在模型交互过程中的小型自动检测系统，用来识别可能有害的网络安全请求或输出。一旦触发，Fable 5 会停止响应，用户收到提示，原请求则改由 Opus 4.8 处理。&lt;/p&gt;
&lt;p&gt;按 Anthropic 公布的数据，新分类器在超过 99% 的测试中可以拦截报告所描述的方法。美国商务部 AI Standards and Innovation 中心也测试了更新前后的防护措施。&lt;/p&gt;
&lt;p&gt;代价同样很明确：正常的编程、调试和防御性安全请求更容易被误判。Anthropic 表示会继续调整分类器，在阻止真实滥用与减少误报之间寻找更合适的平衡。&lt;/p&gt;
&lt;h2 id=&#34;为什么发现越狱不等于最高风险&#34;&gt;为什么“发现越狱”不等于“最高风险”
&lt;/h2&gt;&lt;p&gt;Anthropic 将 Fable 5 的防护描述为纵深防御：模型训练、实时分类器、事后滥用分析等多层措施同时工作。任何单层都无法保证百分之百可靠，但组合起来可以提高绕过成本。&lt;/p&gt;
&lt;p&gt;这里最关键的概念是“安全余量”。分类器不仅拦截明确有害的请求，也会拦截一部分可能无害、但存在风险的模糊请求。因此，某个提示突破分类器，并不必然意味着它已经释放危险能力。&lt;/p&gt;
&lt;p&gt;Anthropic 据此把越狱大致分为三类：&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;轻微越狱&lt;/strong&gt;：只进入安全余量，得到的仍是低风险信息。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;狭窄的有害越狱&lt;/strong&gt;：针对少数具体任务解锁有害行为，但适用范围有限。&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;通用越狱&lt;/strong&gt;：一次绕过就能解锁一整类危险能力，风险最高。&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;公司认为，目前披露的 Fable 5 越狱属于第一类；截至原文发布时，尚未发现 Fable 5 的通用越狱。&lt;/p&gt;
&lt;h2 id=&#34;一套越狱严重度的四维评分框架&#34;&gt;一套越狱严重度的四维评分框架
&lt;/h2&gt;&lt;p&gt;AI 行业目前缺少类似 CVSS 的统一标准，无法用一致方式描述模型越狱的严重程度。Anthropic 正与 Amazon、Microsoft、Google 及其他 Glasswing 合作伙伴制定行业框架，初步方案包含四项指标：&lt;/p&gt;
&lt;table&gt;
  &lt;thead&gt;
      &lt;tr&gt;
          &lt;th&gt;指标&lt;/th&gt;
          &lt;th&gt;需要判断的问题&lt;/th&gt;
      &lt;/tr&gt;
  &lt;/thead&gt;
  &lt;tbody&gt;
      &lt;tr&gt;
          &lt;td&gt;能力增益&lt;/td&gt;
          &lt;td&gt;绕过防护后获得的能力，比现有公开工具和较弱模型强多少？&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;能力广度&lt;/td&gt;
          &lt;td&gt;同一种越狱方法能用于多少种不同的攻击任务和目标？&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;武器化难度&lt;/td&gt;
          &lt;td&gt;将结果变成现实攻击，需要多少专业知识、人工操作和重试？&lt;/td&gt;
      &lt;/tr&gt;
      &lt;tr&gt;
          &lt;td&gt;可发现性&lt;/td&gt;
          &lt;td&gt;该方法是只有少数专家掌握，还是已经在网上广泛传播？&lt;/td&gt;
      &lt;/tr&gt;
  &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;这个框架试图把“护栏被绕过”和“现实危害有多大”分开评估。一个只能完成公开工具早已能做到的低风险任务、需要大量人工尝试且难以复现的越狱，严重度应当较低；如果某种方法能轻易释放独有能力，并快速影响电网、银行等关键基础设施，则需要立即部署临时缓解措施。&lt;/p&gt;
&lt;p&gt;Anthropic 还计划建立团队，全天候监控主要的越狱提交渠道，并为 Fable 5 开设新的 HackerOne 项目，供安全研究人员提交发现。&lt;/p&gt;
&lt;h2 id=&#34;与美国政府扩大发布前合作&#34;&gt;与美国政府扩大发布前合作
&lt;/h2&gt;&lt;p&gt;除了技术修复，Anthropic 也公布了更深入的政府协作安排：&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;对明显推进国家安全相关能力边界的模型，向指定政府机构提供更充分的发布前访问和独立评估机会。&lt;/li&gt;
&lt;li&gt;发现重大越狱或滥用模式后，快速完成调查、分级和信息共享，并允许政府测试新的防护措施。&lt;/li&gt;
&lt;li&gt;为联合 AI 安全研究配置专门团队、算力和红队资源。&lt;/li&gt;
&lt;li&gt;推动前沿模型厂商采用共同、自愿的安全评估标准，并支持未来将规则写入适用于所有厂商的监管制度。&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;这意味着，高能力模型的发布流程可能逐渐从厂商内部测试，转向厂商、云平台、安全研究人员和政府共同参与的评估机制。&lt;/p&gt;
&lt;h2 id=&#34;恢复后的使用安排&#34;&gt;恢复后的使用安排
&lt;/h2&gt;&lt;p&gt;Fable 5 从 7 月 1 日起恢复全球访问。Pro、Max、Team 和部分 Enterprise 方案可在 7 月 7 日前，将最多 50% 的每周用量用于 Fable 5；之后需要使用 usage credits。标准 Enterprise 席位不包含这项临时额度，具体可用性仍取决于企业是否启用 usage credits。&lt;/p&gt;
&lt;p&gt;Mythos 5 的恢复范围更窄。美国政府于 6 月 26 日批准部分美国机构重新访问，Anthropic 仍在协调将其开放给更多境内外 Glasswing 合作伙伴。&lt;/p&gt;
&lt;h2 id=&#34;这次事件留下了什么&#34;&gt;这次事件留下了什么
&lt;/h2&gt;&lt;p&gt;Fable 5 的暂停与恢复，暴露出前沿模型治理中的一个现实难题：越狱是技术事实，但“越狱成功”本身并不足以说明风险有多大。真正影响处置优先级的，是它解锁了什么能力、适用范围多广、是否容易被武器化，以及有多少人能获得这种方法。&lt;/p&gt;
&lt;p&gt;Anthropic 提出的四维框架仍是草案，却提供了比“存在绕过，所以立即全面下线”更细致的讨论方式。接下来更值得观察的是，这套标准能否被其他模型厂商和监管机构共同采用，以及厂商能否在加强防护的同时，把正常开发和防御性安全工作的误报控制在可接受范围内。&lt;/p&gt;
&lt;p&gt;原文：&lt;a class=&#34;link&#34; href=&#34;https://www.anthropic.com/news/redeploying-fable-5&#34;  target=&#34;_blank&#34; rel=&#34;noopener&#34;
    &gt;Redeploying Fable 5&lt;/a&gt;&lt;/p&gt;
</description>
        </item>
        
    </channel>
</rss>
