Claude Fable 5が世界で提供再開：Anthropicはモデルの脱獄問題にどう対応したか

Anthropicは、Claude Fable 5とClaude Mythos 5に対する米国の輸出規制が解除されたと発表した。Fable 5は2026年7月1日から、Claude Platform、Claude.ai、Claude Code、Claude Coworkを通じて世界中のユーザーに再び提供される。AWS、Google Cloud、Microsoft Foundryでのアクセスも順次復旧する予定だ。

今回の再提供は、単にモデルをオンラインへ戻すだけの出来事ではない。それまでの3週間に、Fable 5は公開、安全対策の回避手法の報告、世界規模でのアクセス停止、防御策を更新した上での再展開を経験した。Anthropicは同時に、AIモデルの脱獄の深刻度を評価する業界フレームワークも提案した。あらゆる「ガードレールの回避」を同じ事象として扱うのではなく、企業と規制当局がリスクを段階的に評価できるようにする狙いがある。

公開から停止まで：何が起きたのか

Fable 5とMythos 5は6月9日に公開された。両者は同じ基盤モデルを使用するが、用途が異なる。

Fable 5は厳格な安全対策を備え、一般ユーザー向けに提供される。
Mythos 5は一部の制限を減らし、防御研究を目的として、Project Glasswingで審査を受けたサイバーセキュリティパートナーだけに提供される。

6月12日、米国政府はAmazonの研究者による報告を把握した。そこでは、Fable 5の安全対策を回避する方法が示されていた。特定のプロンプトを与えると、モデルが複数のソフトウェア脆弱性を特定し、そのうち1件では脆弱性の悪用方法を示すコードも生成した。その後、米国政府はFable 5とMythos 5に輸出規制を適用し、Anthropicに外国籍ユーザーのアクセスを制限するよう求めた。

命令は即時発効したが、Anthropicにはユーザーの国籍をリアルタイムかつ確実に確認する手段がなかった。そのため、同社は全ユーザーを対象に両モデルへのアクセスを停止した。

Anthropicの追加テストによると、報告された能力はFable 5固有のものではなかった。Claude Opus 4.8、GPT-5.5、Kimi K2.7など、より能力の低いモデルでも同じ脆弱性を特定でき、複数の公開モデルが問題となった1件の脆弱性について同様の悪用デモを生成できた。同社は、この手法がFable 5の防御システムに意図的に設けた「安全マージン」へ入り込んだものの、Mythos級に固有の攻撃能力を解放したわけではないと判断している。

新しい分類器は99%以上を遮断

Anthropicは今回の事例を境界的なケースと位置づけながらも、報告された具体的な手法を対象とする新しい安全分類器を訓練した。

分類器とは、モデルとのやり取りの最中に動作し、有害な可能性があるサイバーセキュリティ関連のリクエストや出力を検知する小型の自動システムだ。分類器が作動すると、Fable 5は応答を停止してユーザーに通知し、元のリクエストは代わりにOpus 4.8へ送られる。

Anthropicの公表値によれば、新しい分類器はテストの99%以上で、報告された手法を遮断できる。米国商務省のAI Standards and Innovationセンターも、更新前と更新後の安全対策をテストした。

一方、代償も明確だ。通常のプログラミング、デバッグ、防御目的のセキュリティリクエストが誤って検知される可能性が高まる。Anthropicは、実際の悪用を防ぎながら誤検知を減らせるよう、分類器の調整を続けるとしている。

「脱獄が見つかった」ことが「最高リスク」を意味しない理由

AnthropicはFable 5の防御を多層防御と説明している。モデルの訓練、リアルタイム分類器、事後の悪用分析など、複数の対策が同時に機能する。単独の層で完全な信頼性を保証することはできないが、組み合わせることで回避のコストを高められる。

ここで重要なのが「安全マージン」という考え方だ。分類器は明らかに有害なリクエストだけでなく、無害かもしれないものの一定のリスクを含む曖昧なリクエストも遮断する。そのため、あるプロンプトが分類器を突破したからといって、危険な能力が解放されたとは限らない。

Anthropicは脱獄を大きく3種類に分けている。

軽微な脱獄：安全マージンに入り込むだけで、得られる情報は依然として低リスクである。
限定的で有害な脱獄：少数の具体的なタスクについて有害な挙動を解放するが、適用範囲は限られる。
汎用的な脱獄：1つの回避手法で危険な能力群全体を解放し、最も高いリスクをもたらす。

同社は、現在公開されているFable 5の脱獄は第1の種類に当たると考えている。原文の公開時点では、Fable 5に対する汎用的な脱獄は発見されていなかった。

脱獄の深刻度を測る4項目の評価フレームワーク

AI業界には現在、モデルの脱獄の深刻度を説明するための、CVSSに相当する共通基準がない。AnthropicはAmazon、Microsoft、Google、その他のGlasswingパートナーと業界フレームワークを策定しており、初期案には4つの指標が含まれる。

指標	評価する問い
能力の向上幅	防御を回避して得られる能力は、既存の公開ツールやより弱いモデルよりどれだけ強いか？
能力向上の広さ	同じ脱獄手法を何種類の攻撃タスクや対象に利用できるか？
武器化の容易さ	結果を現実の攻撃に転用するには、どの程度の専門知識、手作業、再試行が必要か？
発見可能性	その手法を知るのは少数の専門家だけか、それともすでにオンラインで広く出回っているか？

このフレームワークは、「ガードレールが回避されたこと」と「現実にどれだけの被害が生じ得るか」を分けて評価する。公開ツールですでに実行できる低リスクの作業に限られ、多くの手作業が必要で再現も難しい脱獄は、深刻度を低く評価すべきだ。一方、固有の能力を容易に解放し、電力網や銀行などの重要インフラへ短時間で影響を与え得る手法には、直ちに暫定的な緩和策を導入する必要がある。

Anthropicはさらに、主要な脱獄報告チャンネルを24時間監視するチームを設置し、セキュリティ研究者がFable 5に関する発見を報告できる新しいHackerOneプログラムを開始する予定だ。

米国政府との公開前連携を拡大

技術的な修正に加えて、Anthropicは政府との連携強化策も発表した。

国家安全保障に関係する領域で能力の最前線を大きく押し広げるモデルについては、指定された政府機関に、より広い公開前アクセスと独立評価の機会を提供する。
重大な脱獄や悪用パターンが見つかった場合、迅速に調査、分類、情報共有を行い、政府機関が新しい安全対策をテストできるようにする。
AIセーフティの共同研究に、専任チーム、計算資源、レッドチームのリソースを割り当てる。
最先端モデルの開発企業に共通の自主的なセキュリティ評価基準の採用を促し、将来的には全事業者に適用される規制への明文化を支持する。

これは、高性能モデルの公開プロセスが、企業内部のテストだけでなく、モデル開発企業、クラウドプラットフォーム、セキュリティ研究者、政府が共同で参加する評価の仕組みへ徐々に移行する可能性を示している。

再提供後の利用条件

Fable 5は7月1日から世界で提供を再開した。Pro、Max、Team、一部のEnterpriseプランでは、7月7日まで週間利用上限の最大50%をFable 5に利用できる。それ以降はusage creditsが必要になる。標準のEnterpriseシートにはこの一時的な利用枠が含まれず、実際に利用できるかどうかは組織がusage creditsを有効にしているかにも左右される。

Mythos 5の復旧範囲はさらに限定的だ。米国政府は6月26日、一部の米国組織によるアクセス再開を承認した。Anthropicは、米国内外のより多くのGlasswingパートナーへ対象を広げるため、引き続き調整している。

今回の出来事が残したもの

Fable 5の停止と再開は、最先端モデルのガバナンスが抱える現実的な難題を浮き彫りにした。脱獄は技術的な事実だが、「脱獄に成功した」という事実だけではリスクの大きさを判断できない。対応の優先順位を決めるのは、どの能力が解放されたか、どれほど広く適用できるか、武器化が容易か、そしてその手法を入手できる人がどれほど多いかという点だ。

Anthropicの4項目フレームワークはまだ草案だが、「回避手法が存在するため、直ちに全面停止する」という対応よりも細かな議論を可能にする。今後注目すべきなのは、ほかのモデル開発企業や規制当局がこの基準を共同採用するか、そして正当な開発や防御目的のセキュリティ作業に対する誤検知を許容範囲に抑えながら、安全対策を強化できるかだ。

原文：Redeploying Fable 5