Claude Fable 5 恢复全球上线：Anthropic 如何处理模型越狱争议

Wed, 01 Jul 2026 23:37:10 +0800

Anthropic 宣布，针对 Claude Fable 5 和 Claude Mythos 5 的美国出口管制已经解除。Fable 5 于 2026 年 7 月 1 日重新向全球用户开放，覆盖 Claude Platform、Claude.ai、Claude Code 和 Claude Cowork；AWS、Google Cloud 与 Microsoft Foundry 上的访问也将陆续恢复。

这次重新上线并不只是恢复一个模型。过去三周里，Fable 5 经历了发布、被报告存在安全绕过方法、全球暂停访问，再到更新防护后重新部署。Anthropic 同时提出了一套评估 AI 模型越狱严重度的行业框架，希望以后遇到类似问题时，厂商和监管机构能按风险分级，而不是把所有“绕过护栏”都视为同一种事件。

从发布到暂停：发生了什么

Fable 5 与 Mythos 5 于 6 月 9 日发布。两者使用相同的底层模型，但定位不同：

Fable 5 配备较严格的安全防护，面向普通用户开放。
Mythos 5 减少了部分限制，只提供给 Project Glasswing 中经过审核的网络安全合作伙伴，用于防御性研究。

6 月 12 日，美国政府获悉一份来自 Amazon 研究人员的报告。报告展示了一种绕过 Fable 5 安全措施的方法：模型在提示引导下识别出多个软件漏洞，并在其中一个案例中生成了演示漏洞利用方式的代码。随后，美国政府对 Fable 5 和 Mythos 5 实施出口管制，要求 Anthropic 限制外国公民访问。

由于指令立即生效，而 Anthropic 当时无法实时、可靠地核验用户国籍，公司暂停了所有用户对这两个模型的访问。

Anthropic 后续测试认为，报告中的能力并非 Fable 5 独有。包括 Claude Opus 4.8、GPT-5.5 和 Kimi K2.7 在内的较弱模型同样能够识别相关漏洞；多款已公开模型也能生成报告中那一个漏洞的利用演示。公司的判断是：该方法触及了 Fable 5 防护体系中刻意留下的“安全余量”，但没有释放 Mythos 级别的独特攻击能力。

新分类器拦截率超过 99%

即便 Anthropic 将这次事件定性为边界案例，它仍针对报告中的具体方法训练了新的安全分类器。

分类器是运行在模型交互过程中的小型自动检测系统，用来识别可能有害的网络安全请求或输出。一旦触发，Fable 5 会停止响应，用户收到提示，原请求则改由 Opus 4.8 处理。

按 Anthropic 公布的数据，新分类器在超过 99% 的测试中可以拦截报告所描述的方法。美国商务部 AI Standards and Innovation 中心也测试了更新前后的防护措施。

代价同样很明确：正常的编程、调试和防御性安全请求更容易被误判。Anthropic 表示会继续调整分类器，在阻止真实滥用与减少误报之间寻找更合适的平衡。

为什么“发现越狱”不等于“最高风险”

Anthropic 将 Fable 5 的防护描述为纵深防御：模型训练、实时分类器、事后滥用分析等多层措施同时工作。任何单层都无法保证百分之百可靠，但组合起来可以提高绕过成本。

这里最关键的概念是“安全余量”。分类器不仅拦截明确有害的请求，也会拦截一部分可能无害、但存在风险的模糊请求。因此，某个提示突破分类器，并不必然意味着它已经释放危险能力。

Anthropic 据此把越狱大致分为三类：

轻微越狱：只进入安全余量，得到的仍是低风险信息。
狭窄的有害越狱：针对少数具体任务解锁有害行为，但适用范围有限。
通用越狱：一次绕过就能解锁一整类危险能力，风险最高。

公司认为，目前披露的 Fable 5 越狱属于第一类；截至原文发布时，尚未发现 Fable 5 的通用越狱。

一套越狱严重度的四维评分框架

AI 行业目前缺少类似 CVSS 的统一标准，无法用一致方式描述模型越狱的严重程度。Anthropic 正与 Amazon、Microsoft、Google 及其他 Glasswing 合作伙伴制定行业框架，初步方案包含四项指标：

指标	需要判断的问题
能力增益	绕过防护后获得的能力，比现有公开工具和较弱模型强多少？
能力广度	同一种越狱方法能用于多少种不同的攻击任务和目标？
武器化难度	将结果变成现实攻击，需要多少专业知识、人工操作和重试？
可发现性	该方法是只有少数专家掌握，还是已经在网上广泛传播？

这个框架试图把“护栏被绕过”和“现实危害有多大”分开评估。一个只能完成公开工具早已能做到的低风险任务、需要大量人工尝试且难以复现的越狱，严重度应当较低；如果某种方法能轻易释放独有能力，并快速影响电网、银行等关键基础设施，则需要立即部署临时缓解措施。

Anthropic 还计划建立团队，全天候监控主要的越狱提交渠道，并为 Fable 5 开设新的 HackerOne 项目，供安全研究人员提交发现。

与美国政府扩大发布前合作

除了技术修复，Anthropic 也公布了更深入的政府协作安排：

对明显推进国家安全相关能力边界的模型，向指定政府机构提供更充分的发布前访问和独立评估机会。
发现重大越狱或滥用模式后，快速完成调查、分级和信息共享，并允许政府测试新的防护措施。
为联合 AI 安全研究配置专门团队、算力和红队资源。
推动前沿模型厂商采用共同、自愿的安全评估标准，并支持未来将规则写入适用于所有厂商的监管制度。

这意味着，高能力模型的发布流程可能逐渐从厂商内部测试，转向厂商、云平台、安全研究人员和政府共同参与的评估机制。

恢复后的使用安排

Fable 5 从 7 月 1 日起恢复全球访问。Pro、Max、Team 和部分 Enterprise 方案可在 7 月 7 日前，将最多 50% 的每周用量用于 Fable 5；之后需要使用 usage credits。标准 Enterprise 席位不包含这项临时额度，具体可用性仍取决于企业是否启用 usage credits。

Mythos 5 的恢复范围更窄。美国政府于 6 月 26 日批准部分美国机构重新访问，Anthropic 仍在协调将其开放给更多境内外 Glasswing 合作伙伴。

这次事件留下了什么

Fable 5 的暂停与恢复，暴露出前沿模型治理中的一个现实难题：越狱是技术事实，但“越狱成功”本身并不足以说明风险有多大。真正影响处置优先级的，是它解锁了什么能力、适用范围多广、是否容易被武器化，以及有多少人能获得这种方法。

Anthropic 提出的四维框架仍是草案，却提供了比“存在绕过，所以立即全面下线”更细致的讨论方式。接下来更值得观察的是，这套标准能否被其他模型厂商和监管机构共同采用，以及厂商能否在加强防护的同时，把正常开发和防御性安全工作的误报控制在可接受范围内。

原文：Redeploying Fable 5

模型越狱 on KnightLi的博客