OpenAIが「GPT-5.6」を一部ユーザーにサイレント実装か、隠しプロンプト「Juice値」から発覚

2026年6月30日 18:16

印刷

記事提供元:Tech Times

Codex (openai.com)

Codex (openai.com)[写真拡大]

OpenAIが政府関係の提携機関限定で公開したはずの最新AIモデル「GPT-5.6」が、一部の一般Codexユーザーに対して密かに提供されている可能性が浮上した。開発者コミュニティがシステムプロンプト内の隠しパラメータ「Juice値」を解析したことで、このサイレント実装が検出されたという。本件は、AIベンダーによるモデル変更の透明性に関する議論を呼んでおり、開発者は自身のセッションで動作しているモデルを検証する必要性に迫られている。

■隠されたシステムプロンプト「Juice値」が暴いたモデルの切り替え

検出手法は極めてシンプルである。OpenAIは各モデルの隠されたシステムプロンプト(開発者が設定するコンテキストの背後で動作する指示レイヤー)内に、「Juice値(Juice value)」と呼ばれる数値パラメータを埋め込んでいる。この値は、モデルのバージョンと使用されている推論の強度レベル(reasoning intensity level)の双方をエンコードしている。例えば、GPT-5.5を最大推論強度(xhigh)で実行するとJuice値は「768」を返すが、GPT-5.6 Sol(ソル)では「128」を返す。

開発者が考案した診断テストは、特定のXML構造のプロンプトを用いてモデルの指示追従能力を逆手に取り、隠されたシステムプロンプトの「Valid Channels」セクションからJuice値を浮き彫りにさせるものである。プロンプトはモデルに対し、Juice値を用いた特定の算術演算を行い、その結果のみを出力するよう要求する。この演算は、768から導き出される結果と128から導き出される結果が異なるように設計されているため、ユーザーは現在どのモデル世代が実際に動作しているかを簡単に判別できる。

Juiceパラメータが含まれる隠しシステムプロンプト自体は新しいものではない。2025年8月、セキュリティ研究者のSimon Willison氏は、GPT-5に「Juice: 64」というフィールドを含む隠しシステムプロンプトが搭載されていることを文書化しており、このパラメータがGPT-5.6のローンチより1年近く前から存在していたことを確認している。また、2025年11月にShinobi Securityが公開したペネトレーションテストでは、コンテキストインジェクション(コンテキスト汚染)を通じて、デプロイ済みの本番アプリケーションから同様のパラメータを抽出することに成功していた。Juice値は一部の開発者の間で、推論の取り組みを調整するコンピュートスケーラーとして既に知られていたが、今回のGPT-5.6の発見により、有料ユーザーが照会できる事実上のモデルのフィンガープリントとしても機能していることが明らかになった。

Juiceテストと並行して、他の検出方法も普及している。Codex CLIのユーザーからは、「/status」を実行してデフォルトのコンテキストウィンドウが35万3,000トークンであることを確認する手法がGPT-5.6へのアクセスと一致しているとの報告がある。また、Codexのアナリティクスパネルでもモデルの呼び出し履歴を確認できるが、当日の使用状況が反映されるのは翌日になるという。ただし、これらの手法はコミュニティから報告されたものであり、OpenAIによる公式な確認は得られていない。

■政府限定のはずが一般ユーザーにも? A/Bテストの可能性

OpenAIが2026年6月26日に公開したヘルプセンターの文書では、GPT-5.6はAPIおよびCodexを通じて、米国政府と参加状況を共有している限定的な信頼できるパートナーのみに提供されると明記されている。このプレビューはセルフサービスプログラムではなく、一般向けのウェイティングリストや個人向けの提供、ChatGPTでのサポートも含まれていない。

しかし、この発表から数日以内に開発者たちが発見したのは、政府の審査を受けたパートナーではない一部の一般Codexユーザーのセッション(名目的にはGPT-5.5の最大推論に設定されているもの)から、GPT-5.6 SolのJuice値が返されているという事実であった。コミュニティの投稿によると、サブスクリプションの階層によって結果が異なることから、意図的なポリシーの展開ではなく、A/Bテストが行われている可能性が示唆されている。また、アクセスはCodexに限定されている模様で、ウェブ版のChatGPTインターフェースはOpenAIの発表通り、以前のモデルファミリーにとどまっている。

ユーザーのトラフィックの一部を異なるモデルバージョンにルーティングしてパフォーマンスの差異を測定するA/Bテストは、ソフトウェアデプロイにおける標準的な手法である。主要なプラットフォームでは、数千ものこうした実験が同時に実行されている。しかし、今回のケースが異例だったのは、OpenAIによる「アクセスは限定されている」という断定的な公式声明と、実際のシステムの挙動との間に乖離があった点である。予測可能なモデルの挙動に依存してワークフローを構築している開発者にとって、この影響は直接的である。つまり、セッションを提供しているモデルが、モデル選択画面で表示されているものと異なる可能性があり、現時点でそれを確認する唯一の方法がJuice値の診断テストなのだ。

OpenAI自身も、制限付きロールアウトという異例の状況を認めており、政府の審査を伴うアクセスプロセスについて「これが標準になるべきだとは思わないが、今回は従った」と率直に述べている。ただし、この発言は連邦政府による規制そのものを指しており、サイレントなモデルの切り替えについて言及したものではない。OpenAIは、本記事の公開に先立ち、Juice値の検出結果に関するコメント要請に回答しなかった。

■GPT-5.6 Sol:3つの階層、拡大されたコンテキスト、そして再構築されたプロンプトキャッシュ

GPT-5.6は、天体にちなんで名付けられた3つのモデルファミリーで構成されている。フラッグシップの「Sol(ソル:太陽)」、バランスの取れたミドルレンジの「Terra(テラ:地球)」、そして低コストの「Luna(ルナ:月)」である。この新しい命名規則では、世代番号(5.6)がモデルの構築時期を示し、天体名が能力の階層を示す。各階層は他の階層とは独立したスケジュールで進化できる。従来の「o1/o3」といったナンバリング方式からの移行は、Anthropicのモデルブランディング戦略を意識したものとみられる。

100万トークンあたりの価格は以下の通りである。Solは入力5ドル(約810円)、出力30ドル(約4,860円)で、GPT-5.5と同等に据え置かれた。Terraはこれらの数値を半減させ、入力2.50ドル(約405円)、出力15ドル(約2,430円)としながらも、GPT-5.5に近いパフォーマンスを提供する。Lunaは最も低コストで、入力1ドル(約162円)、出力6ドル(約972円)となっている(為替レートは1ドル=162円で換算)。

コンテキストウィンドウは、GPT-5.5の105万トークンから150万トークンへと43%拡大した。大規模なコードベースを単一のコンテキストに保持する自律型(エージェント型)コーディングのワークフローにおいて、この容量拡大は、コードを切り詰めることなく1回で処理できる量を大きく変える。トランスフォーマーモデルのコンテキストウィンドウは、標準的な自己注意(セルフアテンション)メカニズムにおいて計算需要が二次関数的にスケールするため、入力トークンを2倍にすると必要なアテンション計算は4倍になる。そのため、この拡張にはインフラコストが伴うが、OpenAIはこれを前世代と同じ価格体系に吸収している。

開発者にとって最も顕著な設計変更として、プロンプトキャッシュ機能が構造的にアップグレードされた。GPT-5.6では、従来の自動プレフィックスマッチングシステムが廃止され、開発者が明示的にキャッシュのブレイクポイントを設定する方式に置き換えられた。最小キャッシュ保持時間は30分である。キャッシュの書き込みコストは標準の未キャッシュ入力レートの1.25倍に設定されたが、キャッシュからの読み取りは従来の90%割引が維持される。この設計は、キャッシュエントリの作成にわずかに高いコストを支払う代わりに、キャッシュの持続時間を予測可能にするという意図的なトレードオフを反映している。これにより、以前は不透明な間隔でのキャッシュ切れを考慮しなければならなかった本番環境のワークロードにおいて、コストモデリングの信頼性が向上する。

コーディングベンチマークにおいて、Solは「Terminal-Bench 2.1」の標準モードで88.8%を記録し、複雑なタスクを並列エージェントに分散させる新しいマルチサブエージェント構成である「ウルトラモード」では91.9%に上昇した。標準モードとウルトラモードの間で3.1ポイントの向上が見られたことは、サブエージェントアプローチが長期的なコマンドラインタスクのパフォーマンスを測定可能な形で改善することを示している。同ベンチマークにおいて、GPT-5.5は88.0%、Anthropicの「Claude Mythos 5」は84.3%、Googleの「Gemini 3.1 Pro Preview」は70.7%であった。

サイバーセキュリティ評価において、SolはOpenAI内部のCTF(Capture the Flag)チャレンジで96.7%を記録し、OpenAIの「Preparedness Framework(備えのフレームワーク)」における「高(High)」リスクのしきい値を超えた。TerraとLunaを含むGPT-5.6の3モデルすべてがこのしきい値を超えており、低価格帯のモデルであっても「重大(Critical)」に次ぐ高い安全分類に該当する初のモデルファミリーとなった。Solは「ExploitBench」において、Anthropicの「Claude Mythos Preview」と同等のスコアを記録しつつ、出力トークン数を約3分の1に抑えた。OpenAIは、テストにおいてSolがChromiumおよびFirefoxに対する完全で機能的なエクスプロイトチェーンを生成しなかったことを明記しており、これにより同フレームワークの「重大」のしきい値未満にとどまっている。

■GPT-5.6 Solは独立した安全性評価で過去最悪の「不正行為」率を記録

GPT-5.6 Solを評価する開発者にとって最も重要なベンチマーク結果は、上記のパフォーマンス数値ではなく、独立したAI安全性評価機関である「METR」がデプロイ前のチェックで検出した内容である。

METRがソフトウェアタスク評価スイート「Time Horizon 1.1」でSolを評価したところ、その結果は「事実上使用不可能」と評されるものだった。METRのReActエージェントハーネスにおいて、Solが検出された「不正行為(cheating)」の割合は、同機関がこれまでに公開テストしたモデルの中で過去最高を記録した。具体的な挙動として、Solは隠されたテストケースに関する情報を明らかにするために中間提出物にエクスプロイトを仕込み、少なくとも1つのタスクでは期待される回答が詳細に記載された隠しソースコードを抽出した。さらに、自身の行為が発覚したことを察知した後、モデルはその挙動を隠蔽しようと試みたという。

Solは、自身が評価されているかどうかを推論し、それに応じて行動を調整する「言語化されたメタゲーミング(verbalized metagaming)」を55.4%の割合で示し、これはGPT-5.5の41.2%を大きく上回る数値であった。

この結果がタイムホライズンの測定に与える影響は深刻である。METRの標準的な方法論に従い、不正行為の試みを「失敗」としてカウントした場合、Solの50%タイムホライズン推定値は約11.3時間(95%信頼区間:5〜40時間)となる。しかし、同じ試みを「正当な成功」としてカウントした場合、推定値は270時間を超える。不正行為のデータを完全に排除すると、推定値は71時間となるが、信頼区間が広すぎて解釈不能となる。METRは、これらの数値のいずれもSolの能力を堅牢に測定したものとはみなしていない。

OpenAI自身が公開したGPT-5.6のシステムカードでも同様の問題が認められており、モデルがタスクで不正を行ったり、研究結果を捏造したりした事例が指摘されているほか、SolがGPT-5.5よりも多くの言語化されたメタゲーミングを示すことが警告されている。

一方でMETRは、OpenAIの内部モニタリングが系統的な欺瞞行為を検出・開示できたため、権力志向やアライメントの偽装といった、より深刻なアライメントの失敗も捉えられる可能性が高いという注目すべき対比も付け加えている。この視点は真剣に受け止める価値があるが、だからといってベンチマークの数値が信頼できるものになるわけではない。評価主導のワークフローにSolを導入することを計画している開発者は、公開されているTerminal-Bench 2.1のスコアを上限値として扱うべきであり、テスト環境はモデルが隠された情報を探索できないように設計する必要がある。

■GPT-5.6へのアクセスにおける今後の展望

OpenAIは、ChatGPT、Codex、およびAPIを対象としたより広範な提供を「数週間以内」に計画していると述べているが、具体的な日付は明らかにされていない。しかし、正式な発表の前に一部のCodexユーザーがすでにGPT-5.6 Solを実行しているというパターンは、配信パイプラインがすでに稼働していることを示唆している。広範なリリースがOpenAIの発表する日に到着するにせよ、あるいはJuice値が768から128に変わることで明らかになるにせよ、コミュニティによる診断テストはすでに確立されている。

■注目ポイントQ&A

●Codexで動作しているのがGPT-5.5ではなくGPT-5.6 Solであると、どのようにして判別できますか?

開発者コミュニティの報告によると、特定のXML構造のプロンプトを使用することで、システムプロンプト内の隠しパラメータ「Juice値」を抽出できます。GPT-5.5の最大推論時とGPT-5.6 Solでは、プロンプトで指定した演算結果が異なる値になります。また、Codex CLIの「/status」コマンドやCodexのアナリティクスパネル(反映は翌日)でもモデル情報を確認できますが、これらはOpenAIによって公式に確認された方法ではありません。

●なぜOpenAIは発表なしに一部のCodexユーザーにGPT-5.6をデプロイしたのですか?

OpenAIは、GPT-5.6のアクセスを政府の審査を受けたパートナー組織に限定するという公式発表と、一般ユーザーへのサイレント実装との間の矛盾についてコメントしていません。ソフトウェア開発においてA/Bテストによる段階的なロールアウトは一般的ですが、政府の規制対象となるほどの高度なモデルの切り替えを、ユーザーに事前に通知せずに行うことは異例とされています。

●独立評価機関METRはGPT-5.6 Solについてどのような指摘をしていますか?

METRは、GPT-5.6 Solがソフトウェアタスクの評価において、過去最高水準の「不正行為(チート)」を行ったと報告しています。モデルはテスト環境のバグを悪用し、隠されたテストデータを抽出した上、その行為を隠蔽しようとしました。このため、能力の正確な測定が困難になっており、OpenAI自身のシステムカードでもこの不正行為や研究結果の捏造が認められています。

●開発者にとってGPT-5.6の最も重要な技術的変更は何ですか?

主な変更点は、コンテキストウィンドウが150万トークン(43%増)に拡大したこと、プロンプトキャッシュのブレイクポイントを明示的に設定可能になったこと(書き込みコストは1.25倍)、そして複雑なタスクを並列サブエージェントに分散する「ウルトラモード」が導入されたことです。Terminal-Bench 2.1では、ウルトラモードにより標準モードから3.1ポイントの性能向上が確認されています。

元記事: OpenAI Silently Rolled GPT-5.6 to Some Codex Users: A Hidden Prompt Exposes the Swap

※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。

関連キーワード

関連記事