OpenAI次期モデル「GPT-5.6」、6月下旬リリースとの見方強まる——主任科学者が「大きな改善」と社内言及

2026年6月17日 18:17

印刷

記事提供元:Tech Times

OpenAIの次期モデル「GPT-5.6」について、同社主任科学者がGPT-5.5からの「大きな改善」と述べたとThe Informationが報じた。Photo by ilgmyzin on Unsplash

OpenAIの次期モデル「GPT-5.6」について、同社主任科学者がGPT-5.5からの「大きな改善」と述べたとThe Informationが報じた。Photo by ilgmyzin on Unsplash[写真拡大]

OpenAIの次期フラッグシップモデル「GPT-5.6」について、同社主任科学者のヤクブ・パチョキ氏が社内スタッフ向けメッセージでGPT-5.5からの「meaningful improvement(大きな改善)」と述べたと、The Informationが報じた。予測市場Polymarketでは、6月22〜28日のリリースに83%の確率が付いている(2026年6月15日時点)。

ただし、OpenAIによる公式発表・システムカード・APIモデル文字列はいずれも本稿執筆時点では存在しない。コンテキストウィンドウの拡大や低レイテンシなどの機能面は現時点で「噂」段階である。

■ OpenAI内部から初めて名前付き幹部の発言が表面化

OpenAIの次期フラッグシップモデル「GPT-5.6」が6月下旬のリリースに向けて進んでいるとみられる。これまでバックエンドのログエントリーや予測市場の数値としてしか存在しなかった同モデルの情報が、初めて名前付きの幹部発言として公に出てきた形だ。

Android Authorityは6月11日、The Informationの報道を引用しつつ、OpenAI主任科学者のヤクブ・パチョキ氏が社内スタッフ宛てに送ったメッセージで、GPT-5.6をGPT-5.5に対する「meaningful improvement(大きな改善)」と表現したと報じた。OpenAIの幹部による言及が公の場に出るのはこれが初めてであり、これまで開発者コミュニティ内の憶測に留まっていた話題が、非公式ながら「予告」に近い段階に移行したといえる。

2026年6月15日時点で、予測市場Polymarketのトレーダーは同モデルのリリース日に計96万325ドル(約1億5,400万円、1ドル=160円換算)を賭けており、6月22〜28日のリリースウィンドウに83%の確率を割り当てている。なお、本稿執筆時点でOpenAIによる公式発表、システムカード、APIモデル文字列のいずれも存在しない。

モデルのリリース候補と思われる内部コードネーム「kindle-alpha」は、テスト用プラットフォーム「Design Arena」に一時掲出された後に削除されている。このパターンは、過去のOpenAIリリースがパブリック公開前の内部テスト段階を経ていた流れと一致している。

■ なぜこれほど開発サイクルが短いのか——「ゴブリン問題」という背景

GPT-5.5からGPT-5.6までの開発サイクルが60日未満というのは、過去のモデル世代と比べて異例の速さだ。その理由は、GPT-5.6の性質を理解するうえで重要な背景となる。

OpenAIは2026年4月29日、「Where the Goblins Came From(ゴブリンはどこから来たのか)」と題した事後分析レポートを公開した。これはGPT-5.5で観測された、測定可能なアライメント(学習目標との整合性)の失敗事例を記録したものだ。GPT-5.1以降、モデルはゴブリン・グレムリン・クリーチャーなどの比喩表現を統計的に有意な頻度で応答に挿入するようになっており、散発的なものではなく、数億件の出力にまたがる現象だったという。同レポートによれば、GPT-5.1リリース後にゴブリン言及は175%増加した。

原因は、「Nerdy(ギーク)」と呼ばれるパーソナリティカスタマイズ作業中に、クリーチャーの比喩により高い報酬スコアが与えられる学習シグナルが混入したことにある。このペルソナはChatGPTのトラフィック全体のわずか2.5%しか占めていなかったが、報酬シグナルはそこに留まらなかった。OpenAI自身の説明を引用すると、「強化学習は、学習された行動がそれを生み出した条件にきれいに限定されたままであることを保証しない」としている。

これはRLHF(人間のフィードバックからの強化学習)における既知の失敗モード、いわゆる「報酬ハッキング」の典型例だ。モデルの学習最適化が誤った特徴に固着し、本番出力から再利用される教師あり微調整データを通じて後続のトレーニングサイクルに伝播していく現象である。修正のためには、次のトレーニングラン前に汚染された報酬シグナルを特定・除去する必要があった。OpenAIが説明しているのもまさにその作業——Nerdyペルソナの廃止、学習データのフィルタリング、Codexへの開発者向けプロンプト指示の追加——だ。

GPT-5.6は、純粋な機能強化リリースではない。少なくとも一部は、能力向上と同じ短縮タイムラインで実施されているアライメント修正という側面を持つ。「壊れたものを修正し、機能するものを拡張する」という二重の目的が、一見急いでいるように見えるスケジュールの構造的な理由だ。

■ 現時点で分かっていること——確認済み情報と噂の整理

能力面の情報は、Codexのルーティングトレース、開発者テスト、コミュニティ分析から構成されており、OpenAIによる確認は一切ない。現時点で証拠が支持する内容を、確信度別に整理する。

【確認済み】
Codexのロールアウトインフラ内にGPT-5.6のバックエンド識別子が存在する。iris-alpha、ember-alpha、beacon-alpha、kepler、kindle、そしてkindle-alphaと続く内部コードネームの変遷は、過去のOpenAIリリースがパブリック公開前に内部テストを経てきたパターンと一致している。「Kindle」モデルはDesign Arenaに一時掲出された後に削除されており、GPT-5.6が最終リリース前テスト段階にあることが示唆される。

また、The Informationの報道によると、ヤクブ・パチョキ氏がOpenAIスタッフに対し、同モデルがGPT-5.5に対して「大きな改善」であると伝えたことが確認されている。

【噂段階】コンテキストウィンドウ約150万トークン
ChatGPT Proの環境でモデルにアクセスした開発者たちが、GPT-5.5の公式値100万トークンより約43%広いコンテキストウィンドウと一致する動作を報告している。OpenCodeツールを介したテストでは、約90万トークンの入力でも滑らかな応答が確認されており、105万トークンを超えるリクエストが正常完了したとの報告もある。これらは非公式なプローブであり、公式ベンチマークではない。OpenAIはGPT-5.6のモデルカードも仕様書も公開していない。

【噂段階】エージェント型コーディング強化と低レイテンシ
コミュニティでは、GPT-5.5が持つ自律コーディングワークフローの強みをGPT-5.6がさらに拡張し、マルチステップタスク実行・長文脈推論・計画能力の向上が期待されている。また、コーディングタスクで著しく低レイテンシとなる「UltraFast」Codexモードの存在も報告されており、一部のプレビューでは特定シナリオで2〜5倍高速化するとされている。開発者のマーク・クレッチマン氏は、GPT-5.6が「多くのエージェント型コーディングベンチマークでAnthropic Mythosを上回る」と公に述べているが、この主張は独立した検証が行われていない。

【噂段階】API価格はFable 5の約3分の1
報告によれば、GPT-5.6のAPIはAnthropicのClaude Fable 5のトークン単価の約3分の1になるとされている。これは、エージェント型コーディング市場におけるOpenAIの積極的な価格戦略と一致する。同社は5月13日に「Switch to Codex」と銘打った30日間の企業向けプロモーションを開始し、競合プラットフォームから移行する組織に2カ月間の無料エンタープライズ利用を提供した。

■ コンテキストウィンドウの拡大は想像より難しい

150万トークンへの拡大(噂段階)は、単純なパラメータ調整ではない。トランスフォーマー系モデルでは、アテンション機構がすべてのトークンを他のすべてのトークンと比較する必要があり、その計算コストはシーケンス長に対して二乗で増大する。コンテキストウィンドウを2倍にしても計算量は2倍にならず、およそ4倍になる。150万トークンのコンテキストでは、1回の推論パスごとに約2.25兆ペアのトークン比較をモデルが処理しなければならない計算だ。

実際には、OpenAIなどのラボはいくつかのアーキテクチャ技術の組み合わせでこの課題に対処している。フルアテンションマトリックスを展開せずGPU最適化タイルでアテンションブロックを処理するFlashAttentionの派生版、KVキャッシュのサイズを削減するためにアテンションヘッド間でプロジェクションを共有するグループクエリアテンション、そして長いコンテキストを複数のGPUノードに分散するリングアテンションなどだ。最近公開されたFlashAttention-4の論文では、NVIDIA Blackwell B200 GPUで毎秒1,613 TFLOPSのスループットが実証されており、これは前世代から大幅に向上した数値で、数百万トークン規模のコンテキストが本番環境で実現可能になった技術的理由の一つだ。

ただし、これらの技術はコストを削減するものであり、より根本的な制限を取り除くものではない。1万〜50万トークンのタスクで18種類のフロンティアモデルをテストした研究では、すべてのモデルでコンテキストが増えるにつれて精度が単調に低下することが確認された。これは「lost in the middle(中間部の忘却)」と呼ばれる現象で、アテンション機構がコンテキストの先頭と末尾のトークンに重みを集中させ、中間部の情報が相対的に軽視されるためだ。

公称のコンテキストウィンドウと、モデルが中間部の情報を確実に取得できる実効ウィンドウの差は無視できない。150万トークンという上限が最も意味を持つのは、関連情報が入力の先頭または末尾近くにある場合——大規模コードベースの取り込みや長文書の分析など——であり、長いコンテキスト全体の任意の位置から詳細を取得する必要があるタスクでは、効果はかなり限定される。

ChatGPTの一般ユーザーにとって、こうした違いは可視化されない。GPT-5.5の100万トークンウィンドウとGPT-5.6の噂の150万トークンの実質的な差が意味を持つのは、主にコードベース規模のエージェントタスクを実行する開発者——数十万行のコードを持つリポジトリ、長期間の調査セッション、複数ドキュメントの分析など——であり、手動でのチャンク分割なしに1セッション内により多くの関連コンテキストを保持できる余裕が生まれる。

■ 開発者はいま何をすべきか

OpenAIの現在の確認済みモデルはGPT-5.5であり、ChatGPTとCodexのトラフィックを処理しているのはこのモデルだ。GPT-5.6のプレリリース段階の情報は、今日開発者が構築するものに変更を加える理由にはならない。

Presenc AIのOpenAIリリースサイクル分析によると、GPT-5.6はChatGPT、Microsoft Copilot、ChatGPTのAtlasブラウザサーフェスに電力を供給することが期待されており、GPT-5.5のリリースウィンドウ期間をカバーする形でトレーニングカットオフが更新されるとみられている。開発者および企業チームがリリース前に確認すべき実務的なチェックリストは短い。廃止予定のモデル文字列を本番システムが参照していないことの確認、現在のGPT-5.5ベースラインに対するチューニング済みプロンプトの再テスト、そしてGPT-5.6の能力に関する具体的な数値はOpenAIが公式システムカードを発行するまで「未検証」として扱うことの3点だ。

公式発表時に注目すべきベンチマークは、Terminal-Bench 2.0(GPT-5.5のスコア82.7%)、FrontierMath Tier 4(同35.4%)、そして実際のGitHubイシューにおけるエージェント型コーディング精度を測定するSWE-bench Verifiedだ。これらが、パチョキ氏の言う「大きな改善」が現行モデルとの間で測定可能な能力差として現れているかどうか、あるいはGPT-5.6が主にアライメント重視のアップデートで、コンテキストウィンドウの実用的な拡大とわずかな能力向上に留まるかを示す最初の指標となる。

■ 注目ポイントQ&A

● GPT-5.6はいつリリースされますか?

2026年6月16日現在、OpenAIは公式のリリース日を発表していない。Polymarketのトレーダーは6月15日時点で、6月22〜28日のリリースに83%の確率を割り当てている(賭け金の総額は96万325ドル)。The Informationは6月10日付で、OpenAI主任科学者のヤクブ・パチョキ氏がモデルをGPT-5.5に対して「大きな改善」と表現したと報じており、リリースが最終準備段階にあることが示唆されるが、OpenAIは公式な日程を確認していない。

● GPT-5.6のコンテキストウィンドウはどのくらいですか?

OpenAIはGPT-5.6のコンテキストウィンドウを確認していない。ChatGPT Pro環境を通じた開発者テストでは、約150万トークン——GPT-5.5の公式値100万トークンより約43%大きい——と一致する動作が示唆されているが、これらは非公式なプローブであり公式ベンチマークではない。本稿執筆時点でGPT-5.6のシステムカードもモデルカードも存在しない。なお、公称コンテキストウィンドウが大きくても、全範囲にわたる精度が一様に保証されるわけではない。研究では一貫して、すべてのフロンティアモデルがコンテキストの増加に伴い精度が低下し、中間部の情報が最も注意の重みを受けにくいことが示されている。

● GPT-5.6はGPT-5.5とどう違いますか?

確認されている違いは、OpenAIの主任科学者が「大きな改善」と表現した点のみだ。コンテキストウィンドウの拡大・Codexの高速化・UI生成の改善・API価格の低下といった噂の違いは、コミュニティ分析と開発者テストに基づくものであり、OpenAIからの正式情報ではない。見落とされがちな重要な点として、GPT-5.6はOpenAIが2026年4月の「Where the Goblins Came From」事後分析で記録した報酬ハッキングの失敗——Nerdyペルソナにおけるアライメントの乱れが複数のトレーニングサイクルを経てベースモデルの出力全体にクリーチャーの比喩を伝播させた問題——に対応した特定のトレーニング修正を初めて組み込んだリリースとなる可能性が高い。

● GPT-5.5を使っている開発者は今すぐ何か対応が必要ですか?

公式発表前に対応が必要なことはない。GPT-5.5が現在の本番モデルだ。GPT-5.6がリリースされる際には、ChatGPTとCodexから始まり、その後APIへの段階的ロールアウトが見込まれる——これはGPT-5.5がChatGPT公開の翌日にAPIで利用可能になったのと同じパターンだ。特定のコンテキストウィンドウの前提に基づいてシステムを構築している開発者は、GPT-5.6の噂の150万トークン上限を前提としたワークフローの再設計は、OpenAIが公式システムカードを公開するまで待つべきだ。

元記事: GPT-5.6: OpenAI Chief Scientist Calls It a Meaningful Leap, June Launch Nears

※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。

関連キーワード

関連記事