Anthropic 宣布,针对 Claude Fable 5 和 Claude Mythos 5 的美国出口管制已经解除。Fable 5 于 2026 年 7 月 1 日重新向全球用户开放,覆盖 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork;AWS、Google Cloud 与 Microsoft Foundry 上的访问也将陆续恢复。
这次重新上线并不只是恢复一个模型。过去三周里,Fable 5 经历了发布、被报告存在安全绕过方法、全球暂停访问,再到更新防护后重新部署。Anthropic 同时提出了一套评估 AI 模型越狱严重度的行业框架,希望以后遇到类似问题时,厂商和监管机构能按风险分级,而不是把所有“绕过护栏”都视为同一种事件。
从发布到暂停:发生了什么
Fable 5 与 Mythos 5 于 6 月 9 日发布。两者使用相同的底层模型,但定位不同:
- Fable 5 配备较严格的安全防护,面向普通用户开放。
- Mythos 5 减少了部分限制,只提供给 Project Glasswing 中经过审核的网络安全合作伙伴,用于防御性研究。
6 月 12 日,美国政府获悉一份来自 Amazon 研究人员的报告。报告展示了一种绕过 Fable 5 安全措施的方法:模型在提示引导下识别出多个软件漏洞,并在其中一个案例中生成了演示漏洞利用方式的代码。随后,美国政府对 Fable 5 和 Mythos 5 实施出口管制,要求 Anthropic 限制外国公民访问。
由于指令立即生效,而 Anthropic 当时无法实时、可靠地核验用户国籍,公司暂停了所有用户对这两个模型的访问。
Anthropic 后续测试认为,报告中的能力并非 Fable 5 独有。包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7 在内的较弱模型同样能够识别相关漏洞;多款已公开模型也能生成报告中那一个漏洞的利用演示。公司的判断是:该方法触及了 Fable 5 防护体系中刻意留下的“安全余量”,但没有释放 Mythos 级别的独特攻击能力。
新分类器拦截率超过 99%
即便 Anthropic 将这次事件定性为边界案例,它仍针对报告中的具体方法训练了新的安全分类器。
分类器是运行在模型交互过程中的小型自动检测系统,用来识别可能有害的网络安全请求或输出。一旦触发,Fable 5 会停止响应,用户收到提示,原请求则改由 Opus 4.8 处理。
按 Anthropic 公布的数据,新分类器在超过 99% 的测试中可以拦截报告所描述的方法。美国商务部 AI Standards and Innovation 中心也测试了更新前后的防护措施。
代价同样很明确:正常的编程、调试和防御性安全请求更容易被误判。Anthropic 表示会继续调整分类器,在阻止真实滥用与减少误报之间寻找更合适的平衡。
为什么“发现越狱”不等于“最高风险”
Anthropic 将 Fable 5 的防护描述为纵深防御:模型训练、实时分类器、事后滥用分析等多层措施同时工作。任何单层都无法保证百分之百可靠,但组合起来可以提高绕过成本。
这里最关键的概念是“安全余量”。分类器不仅拦截明确有害的请求,也会拦截一部分可能无害、但存在风险的模糊请求。因此,某个提示突破分类器,并不必然意味着它已经释放危险能力。
Anthropic 据此把越狱大致分为三类:
- 轻微越狱:只进入安全余量,得到的仍是低风险信息。
- 狭窄的有害越狱:针对少数具体任务解锁有害行为,但适用范围有限。
- 通用越狱:一次绕过就能解锁一整类危险能力,风险最高。
公司认为,目前披露的 Fable 5 越狱属于第一类;截至原文发布时,尚未发现 Fable 5 的通用越狱。
一套越狱严重度的四维评分框架
AI 行业目前缺少类似 CVSS 的统一标准,无法用一致方式描述模型越狱的严重程度。Anthropic 正与 Amazon、Microsoft、Google 及其他 Glasswing 合作伙伴制定行业框架,初步方案包含四项指标:
| 指标 | 需要判断的问题 |
|---|---|
| 能力增益 | 绕过防护后获得的能力,比现有公开工具和较弱模型强多少? |
| 能力广度 | 同一种越狱方法能用于多少种不同的攻击任务和目标? |
| 武器化难度 | 将结果变成现实攻击,需要多少专业知识、人工操作和重试? |
| 可发现性 | 该方法是只有少数专家掌握,还是已经在网上广泛传播? |
这个框架试图把“护栏被绕过”和“现实危害有多大”分开评估。一个只能完成公开工具早已能做到的低风险任务、需要大量人工尝试且难以复现的越狱,严重度应当较低;如果某种方法能轻易释放独有能力,并快速影响电网、银行等关键基础设施,则需要立即部署临时缓解措施。
Anthropic 还计划建立团队,全天候监控主要的越狱提交渠道,并为 Fable 5 开设新的 HackerOne 项目,供安全研究人员提交发现。
与美国政府扩大发布前合作
除了技术修复,Anthropic 也公布了更深入的政府协作安排:
- 对明显推进国家安全相关能力边界的模型,向指定政府机构提供更充分的发布前访问和独立评估机会。
- 发现重大越狱或滥用模式后,快速完成调查、分级和信息共享,并允许政府测试新的防护措施。
- 为联合 AI 安全研究配置专门团队、算力和红队资源。
- 推动前沿模型厂商采用共同、自愿的安全评估标准,并支持未来将规则写入适用于所有厂商的监管制度。
这意味着,高能力模型的发布流程可能逐渐从厂商内部测试,转向厂商、云平台、安全研究人员和政府共同参与的评估机制。
恢复后的使用安排
Fable 5 从 7 月 1 日起恢复全球访问。Pro、Max、Team 和部分 Enterprise 方案可在 7 月 7 日前,将最多 50% 的每周用量用于 Fable 5;之后需要使用 usage credits。标准 Enterprise 席位不包含这项临时额度,具体可用性仍取决于企业是否启用 usage credits。
Mythos 5 的恢复范围更窄。美国政府于 6 月 26 日批准部分美国机构重新访问,Anthropic 仍在协调将其开放给更多境内外 Glasswing 合作伙伴。
这次事件留下了什么
Fable 5 的暂停与恢复,暴露出前沿模型治理中的一个现实难题:越狱是技术事实,但“越狱成功”本身并不足以说明风险有多大。真正影响处置优先级的,是它解锁了什么能力、适用范围多广、是否容易被武器化,以及有多少人能获得这种方法。
Anthropic 提出的四维框架仍是草案,却提供了比“存在绕过,所以立即全面下线”更细致的讨论方式。接下来更值得观察的是,这套标准能否被其他模型厂商和监管机构共同采用,以及厂商能否在加强防护的同时,把正常开发和防御性安全工作的误报控制在可接受范围内。