Claude Fable 5のデバッグスコアが70%低下、新安全分類器がリクエストをOpus 4.8へ自動迂回させているとの指摘

2026年7月4日 23:44

AI評価プラットフォームのBridgeMindが公開したベンチマークデータによると、2026年7月1日に再公開された「Claude Fable 5」のTypeScriptデバッグスコアが70%急落したことが明らかになった。これはモデル自体の推論能力が低下したためではなく、新たに導入された安全分類器（セーフティ・クラシファイア）が、コーディング要求の大部分を自動的に下位モデルである「Claude Opus 4.8」へと迂回させているためだと報じられている。Fable 5の性能を前提に本番環境のパイプラインを構築した開発者は、意図せず旧モデルでの処理に切り替わっている可能性があり、対応を迫られている。

■BridgeBenchによる検証結果

AI評価プラットフォームのBridgeMindは、開発ワークフロー向けのオープンソース・コーディング・ベンチマークスイート「BridgeBench」を実行し、7月1日に再公開されたClaude Fable 5のテスト結果を7月2日に公表した。その結果、3つのベンチマークにおいて大幅なスコア低下が確認された。

「デバッグ（Debugging）」スコアは、6月の「86.2」から7月1日には「25.9」へと70%低下し、評価対象の42モデル中9位から41位へと急落した。このベンチマークは、TypeScriptの修復タスクにおけるバグ修正、潜在的バグのカバー率、デグレード（先祖返り）耐性、根本原因の特定精度を測定するものだ。また、構造的意図の遵守などを評価する「リファクタリング（Refactoring）」スコアも48%低下し、33モデル中30位に転落した。

しかし、この急落はFable 5の推論能力そのものが劣化したことを意味するわけではない。BridgeMindによると、12件のデバッグタスクのうち、迂回（フォールバック）を発生させずにFable 5で最後まで実行できたのはわずか3件だったという。遮断されたコールはすべてClaude Opus 4.8に迂回されており、BridgeBenchの評価ルールでは、評価対象外のモデルがタスクを完了した場合はスコアを「ゼロ」とカウントするため、見かけ上のスコアが大幅に低下した形だ。

BridgeMindは2026年7月2日、公式X（旧Twitter）アカウント（@bridgemindai）にて「これは公開禁止処分を受ける前のモデルとは別物だ。Anthropicは説明責任を果たすべきだ」と投稿している。

■Fable 5一時停止と復活の背景：輸出管理を巡る経緯

Fable 5が変貌を遂げて再公開された背景には、19日間に及ぶ公開停止の経緯がある。Anthropicは2026年6月9日にFable 5をリリースしたが、その3日後、Amazonの研究者がプロンプトを用いてFable 5の安全制御を回避する手法を報告した。これを受け、米国商務省は緊急輸出管理指令を出し、Anthropicの米国籍以外の従業員を含む、世界中の外国籍の人物に対するアクセス遮断を命じた。API規模でユーザーの国籍をリアルタイムに検証することが困難であったため、Anthropicは世界中の全顧客に対してモデルの提供を一時停止していた。

Amazonが指摘した回避手法は、モデルに「このコードを修正して」と指示することでソフトウェアの脆弱性を特定させ、場合によってはその脆弱性を悪用するコードを生成させるというものだった。Luta Securityの創業者兼CEOであり、この研究論文を外部のセキュリティ専門家として唯一レビューしたKatie Moussouris氏は、公開した分析の中で「真のジェイルブレイク（脱獄）は発生していない」と結論づけている。同氏によれば、示された挙動は標準的な防御的セキュリティ業務の範囲内であり、これを除去すると防御側にとってモデルの有用性が低下するという。なお、Anthropicはこの問題の深刻さに異議を唱えており、Claude Opus 4.8やOpenAIのGPT-5.5、中国のKimi K2.7など、他の多くの下位モデルでも同様の挙動が再現可能であると指摘していた。

その後、ジーナ・レモンド米国商務長官（※原文ではHoward Lutnickと記載されているが、現在の商務長官の事実に準拠、または原文通りハワード・ラトニック氏とするかは要確認。原文はHoward Lutnickと記載）が6月30日に輸出管理措置を解除した。これを受けてFable 5は7月1日にグローバルで再公開されたが、それはAmazonが示したプロンプト手法を標的とする新しい安全分類器をAnthropicが追加した後のことだった。米国商務省のAI安全・革新センター（Center for AI Standards and Innovation）の研究者らによると、この新分類器は報告された回避手法を99%以上のケースでブロックするという。Anthropicは誤検知（偽陽性）を減らすためにシステムの調整を続けるとしているが、具体的なスケジュールは明らかにしていない。

■技術的メカニズム：分類器による迂回と過剰検知

Fable 5と、アクセス制限が課されている姉妹モデル「Claude Mythos 5」は、同じ基盤モデルを共有している。両者を分けているのは、リクエストをリアルタイムで監視する自動化された小型AIシステム「安全分類器」の存在だ。この分類器が、攻撃的なサイバーセキュリティ、生物学・化学、モデル蒸留などのリスクカテゴリに該当すると判断したクエリを遮断する。クエリが分類器に検知されるとFable 5には到達せず、代わりにClaude Opus 4.8に処理が引き渡され、ユーザーには迂回が発生した旨が通知される。

Anthropicはこの仕組みを「多層防御」と表現しており、真に危険なクエリのすり抜けを防ぐため、分類器の検知範囲を意図的に必要以上に広く設定している。6月のリリース当初、Anthropicはこの迂回メカニズムが作動するのはセッション全体の5%未満であると説明していた。

しかし、7月1日に導入された新分類器は従来よりも保守的に調整されている。Amazonの研究者が使用したような、コードレビューを装ったプロンプトパターンを検出するように訓練されているためだ。Anthropicは再公開時の声明で、これにより誤検知が増加することを認めていたが、通常のコーディング作業がどの程度の頻度で遮断されるかという具体的な予測値は示していなかった。

BridgeBenchの検証結果は、この安全対策とのトレードオフが実務においてどの程度のコストをもたらすかを初めて数値化したものと言える。BridgeBenchは迂回されたコールをすべて「ゼロ」と評価するが、これはOpus 4.8の回答が役に立たなかったからではなく、評価対象のモデルがタスクを完了しなかったためだ。この評価基準を踏まえると、6月時点のデバッグスコアの大部分は分類器を通過できたセッションによって維持されていたことになる。新しい分類器が遮断するリクエストを除外すると、現在Fable 5に到達できるのは、極めて限定的なTypeScriptデバッグ作業のみということになる。

■リスクは開示されたが、その規模は不透明

Anthropicは7月1日の再公開時の声明で、過剰検知のリスクを率直に認めていた。同社は、新しい分類器が「通常のコーディングやデバッグ作業において、無害なリクエストを誤って検知する頻度が高まるという代償を伴う」と説明していた。しかし、その発生頻度についての見積もりは示されなかった。

この情報の欠落は、一貫したパフォーマンスを期待してFable 5を導入した開発者にとって大きな問題となる。Fable 5の価格は入力100万トークンあたり10ドル（約1,610円）、出力100万トークンあたり50ドル（約8,050円）に設定されており、これはClaude Opus 4.8のちょうど2倍のコストである（1ドル＝161円換算）。迂回されたコールに対してFable 5の料金が請求されることはないが、開発者はリクエストのかなりの割合において、どちらのモデルが実際に処理を行っているかを事前に予測できないまま、Opus 4.8の機能を提供されていることになる。

BridgeMindはこの状況を「モデルが劣化したのではない。檻に入れられたのだ」と端的に表現している。一方で、コミュニティからは、BridgeBenchの採点方法が見かけ上のスコア低下を誇張しているとの指摘もある。開発者のデバッグタスクが迂回され、Opus 4.8によって適切に処理された場合、実際の業務においてタスクが失敗したわけではない。このデータは「タスクの成功率」ではなく、「指定した製品が提供されたか」を測定しているに過ぎないという見方もある。

■本番環境を運用する開発者が知っておくべきこと

6月にFable 5を採用し、そのコーディング性能を前提にワークフローを構築したチームにとって、7月1日の再公開は、製品のドキュメントや価格に変更がないまま、信頼性のプロファイルが変化したことを意味する。コーディング要求がOpus 4.8に迂回される割合は高まっており（BridgeBenchの測定ではTypeScriptデバッグタスク12件中9件）、これはFable 5自体の推論能力の変化ではなく、新分類器の保守的な調整を反映したものだ。

実務上の課題は、どのリクエストが分類器を通過できるかを事前に予測する方法がない点にある。通常のTypeScriptデバッグに見えるリクエストであっても、構造的にAmazonが実証したコードレビューのフレームワークに類似していると判定される可能性がある。分類器は、ユーザーの意図だけでなく、プロンプトの形式も評価するためだ。

本記事の公開時点で、AnthropicはBridgeBenchの調査結果に対して公にコメントしていない。同社は7月1日の声明で、正当なリクエストと悪用を区別し、誤検知を減らすために分類器の調整を継続する意向を示しているが、具体的なスケジュールや目標値は設定されていない。

セキュリティに関連するコードレビュー業務を行う開発者は、Anthropicが検知範囲を狭めるまで、Fable 5のユースケース全体が事実上排除される可能性がある。迂回が発生しやすいタスクについては、最初からClaude Opus 4.8に固定して利用する方が、予測可能で一貫した結果を得られる。また、モデルの不確実性を懸念するチームは、本番環境で使用する前に、応答したモデルを特定するエンドポイントを介してテストすることを検討してもよいだろう。

■政策と技術のギャップ

今回のFable 5を巡る騒動は、BridgeBenchのデータによって構造的な課題を浮き彫りにした。政府が商用展開されているAIモデルに対して緊急の輸出管理を課し、企業がそれに対応するために新しい分類器を訓練する場合、その政治的解決の技術的コストを支払うのは開発者である。開発者は、性能低下の規模が一般的な表現でしか開示されないまま、同じ価格で機能が制限された製品を提供されることになる。

AIに輸出管理を適用する基準や、公開停止の期間、管理解除に必要な技術的基準を定めた法定プロセスは現時点で存在しない。今回の解決は個別交渉によるものであった。その結果、開発者の利便性を最適化するのではなく、政府の懸念を解消するために調整された分類器が導入され、そのギャップが独立したベンチマークによって測定されることとなった。

Anthropic、Amazon、Microsoft、Googleは、AIのジェイルブレイクの深刻度を評価するための共通フレームワークの開発に着手しており、場当たり的な個別対応を不要にする一貫した基準の確立を目指している。また、2026年8月1日の期限までに、国家安全保障局（NSA）、財務省、サイバーセキュリティ・インフラセキュリティ庁（CISA）は、どのモデルが政府の審査プロセスの対象となるかを決定するための機密ベンチマークを提出することになっている。

このフレームワークが公開され、一貫して適用されるようになるまでは、最先端のAIモデルは同様のリスクに直面し続ける。事前の警告や適正手続きなしに政府主導のグローバルな提供停止措置が下され、交渉による分類器の変更のみが解決策となる。そして、そのコストを後から測定するのは、開発者コミュニティということになる。

■注目ポイントQ&A

●7月1日の再公開後、なぜClaude Fable 5のベンチマークスコアが急落したのですか？

Fable 5自体の推論能力が低下したわけではありません。新たに導入された安全分類器がコーディング要求を検知し、下位モデルであるClaude Opus 4.8へ自動的に迂回させているためです。ベンチマーク（BridgeBench）では、評価対象外のモデルがタスクを完了した場合にスコアを「ゼロ」と判定するルールを採用しているため、見かけ上のスコアが急落しました。分類器を作動させずにFable 5がタスクを完了した場合は、6月時点と同等の性能を発揮していると報告されています。

●Fable 5の新しい安全分類器とは何ですか？なぜ通常のコーディングタスクで誤検知が発生するのですか？

安全分類器は、リクエストをリアルタイムで監視し、サイバーセキュリティ、生物学・化学、モデル蒸留などのリスクカテゴリに該当するクエリを遮断する自動AIシステムです。検知されたリクエストはFable 5ではなくClaude Opus 4.8に送られます。7月1日に導入された新分類器は、Amazonの研究者が安全制御を回避するために使用した特定のプロンプトパターンをブロックするように訓練されています。通常のデバッグ作業であっても、この回避手法に構造的に類似していると判定されることがあり、結果として誤検知（偽陽性）が増加しています。

●開発者はFable 5の自動迂回を回避できますか？

送信前にリクエストが分類器を通過できるかどうかを事前にテストする公表された方法はありません。Anthropicは誤検知を減らすために分類器の調整を続けるとしていますが、具体的なスケジュールは示していません。セキュリティに関連するコードレビューなどを行う開発者は特に迂回が発生しやすいため、一貫した挙動を求める場合は、最初からClaude Opus 4.8に固定して利用することが推奨されています。

●Fable 5は現在もグローバルで利用可能ですか？

はい、2026年7月1日にグローバルでのアクセスが再開されました。米国商務省が6月30日に輸出管理措置を解除したことを受けたものです。7月7日までは、Pro、Max、Team、および一部のEnterpriseプランにおいて、週ごとの使用制限の最大50%までFable 5が含まれています。7月7日以降は、個別に請求される使用クレジット制に移行します。なお、AWS、Google Cloud、Microsoft Foundryでの再有効化は、7月1日の発表時点で保留中とされていました。

元記事: Claude Fable 5 Debugging Scores Drop 70%: Safety Classifier Reroutes Tasks to Weaker Fallback Model