OpenAI、独自AIチップ「Jalapeño」開発とCerebras採用で進む脱Nvidia――「GPT-5.6」は米政府要請で公開延期へ

2026年6月28日 16:08

OpenAIは、Nvidia製以外のハードウェアを活用したAI推論の高速化と低コスト化を急速に進めている。同社はBroadcomと共同開発した初の独自AI推論チップ「Jalapeño」を公開したほか、Cerebras Systemsの巨大チップを用いた超高速推論の実証を進めている。一方で、最新の最先端モデル「GPT-5.6 Sol」の一般公開については、米政府機関からの要請により延期され、プレビュー期間中は個別審査による限定提供にとどまる見通しだ。

■超高速推論を実現する巨大チップ「WSE-3」

2026年2月12日、OpenAIは「GPT-5.3-Codex-Spark」をリリースし、Cerebras Systemsの第3世代「Wafer Scale Engine（WSE-3）」にデプロイした。WSE-3はディナープレートほどの大きさ（46,225平方ミリメートル、300mmウェーハ全体を使用）で、4兆個のトランジスタ、90万個のAI最適化コア、44GBのオンチップSRAMを搭載し、TSMCの5nmプロセスで製造されている。

AIのコード生成や大規模言語モデル（LLM）の推論におけるボトルネックは、演算性能ではなくデータの移動である。GPUクラスターがトークンを生成するたびに、オフチップメモリからモデルの重みを読み込み、高速インターコネクトを介してデータを転送し、演算を実行する必要がある。このメモリと演算性能のギャップによるボトルネックは「メモリウォール」と呼ばれる。WSE-3は毎秒21ペタバイトのオンチップメモリ帯域幅（Nvidia H100の約7000倍）を持ち、データをコアの近くに保持することでこの問題を解決する。

OpenAIの内部測定によれば、Codex-Sparkでの推論速度は毎秒1,000トークンを超えたという。ただし、ある独立系開発者は実際のコーディングセッションではより緩やかな向上にとどまったと報告しており、実験室での数値が常に実環境に直結するわけではない。それでも、30行の関数が1秒未満で出力されるなど、開発者にとって遅延の減少は明らかである。

Codex-SparkはChatGPT Proサブスクライバー向けに、Codexアプリ、CLI、VS Code拡張機能を通じて研究プレビューとして提供されている。コンテキストウィンドウは128,000トークンで、テキスト専用である。

■巨大モデルにおけるアーキテクチャ上の制約

WSE-3 of 44GBのオンチップSRAMは中小型モデルを完全に格納するには十分だが、GPT-5.6などの超巨大なフロンティアモデルはこの容量を大幅に超える。

そのため、Cerebrasはモデルの重みを外部ストレージ（1ペタバイト以上に拡張可能な「MemoryX」）に置き、ウェーハ上にレイヤーごとにロードする「ウェイトストリーミング」方式を採用している。このアプローチもGPUクラスターに比べてチップ間通信の遅延を抑えられるが、オンチップ動作とは異なり外部データへの依存が生じる。リーク情報で指摘されている、Cerebras上でのGPT-5.6デプロイ時の毎秒750トークンという予測値は、このウェイトストリーミングモードの性能と一致している。

WSE-3でのCodex-Sparkの稼働は、オンチップに収まるモデルにおいてウェーハスケール推論が有効であることを示した。しかし、より巨大なフロンティアモデルにおいて、ウェイトストリーミングを用いたウェーハスケール推論が、同等規模のGPUクラスターよりも高速、安価、あるいは信頼性が高いかどうかは、今後の検証課題である。

■OpenAI初の独自AIチップ「Jalapeño」

GPT-5.6の発表に先立つ2026年6月24日、OpenAIとBroadcomは共同開発した初のカスタムAIアクセラレータ「Jalapeño（ハラペーニョ）」を発表した。18ヶ月の開発期間を経てTSMCで製造され、学習ではなくLLMの推論ワークロードに特化して設計されている。同日、OpenAIのサンフランシスコ本社にエンジニアリングサンプルが到着し、すでにテスト環境でCodex-Sparkの稼働を開始していることが確認された。

Broadcomのホック・タンCEOはBloombergに対し、初期テストにおいて現行世代のNvidia製GPUと比較してトークンあたりの推論コストを約50%削減できたと語った。OpenAI側は具体的な数値を明言せず、「現行の最先端技術よりも電力効率が大幅に優れている」と表現するにとどめている。

OpenAIのグレッグ・ブロックマン社長はCNBCに対し、同チップがわずか9ヶ月で設計されたことを明かし、開発サイクル短縮のためにOpenAIの既存モデルを活用して設計を加速させたと述べた。

Cerebrasとの提携も継続される。Cerebrasは低遅延が求められるワークロード向けにウェーハスケールの帯域幅による推論速度を提供し、Jalapeñoは大量のChatGPTの対話処理におけるコスト効率の向上を目指す。OpenAIはさらにAMDやAmazon Web Services（AWS）とも計算資源の契約を結んでおり、Nvidia、Cerebras、AWS Trainium、AMD Instinct、そして自社チップを組み合わせたマルチベンダーポートフォリオを構築している。

■トレーニング分野で揺るぎないNvidiaの地位

このマルチベンダー戦略において、Nvidiaの役割を正確に理解する必要がある。CerebrasもJalapeñoも、OpenAIにおけるNvidiaの核心的役割である「フロンティアモデルのトレーニング（学習）」とは競合しない。学習タスクには、高帯域幅で接続された数万基のGPUによる大規模な並列計算が必要であり、WSE-3やJalapeñoはそのような用途には設計されていない。

OpenAIはNvidiaの次世代プラットフォーム「Vera Rubin」に対して1000億ドル（約16兆2000億円、1ドル=162円換算）の導入コミットメントを維持しており、最初のデプロイは2026年後半に予定されている。サム・アルトマンCEOが「長期にわたり巨大な顧客であり続けたい」と述べたのは、学習分野における構造的な依存関係を示すものである。

一方、CerebrasやJalapeñoがターゲットとするのは、生性能よりも遅延やコストが重視される「推論」の領域である。QumulusAIのシニアプロダクトマネージャー、マーク・ジャクソン氏は、Cerebrasのウェーハスケールアーキテクチャは低遅延と高スループットが求められる特定の推論環境に適している一方、成熟したソフトウェアエコシステムと学習サポートを持つGPUが依然として多くの組織にとって実質的な標準であると指摘している。

■米政府の介入と「GPT-5.6 Sol」の公開延期

OpenAIが「これまでで最も強力なモデル」と位置づける「GPT-5.6 Sol」（中位のTerra、低コストのLunaも存在）の一般公開は、2026年6月26日に米政府の介入に直面した。米国家サイバー長官オフィス（ONCD）と科学技術政策局（OSTP）はOpenAIに対し、初期アクセスを政府に報告済みの限定されたパートナーのみに制限する「段階的リリース」を求めた。

Reutersが引用したThe Informationの報道によると、サム・アルトマンCEOは従業員に対し、プレビュー期間中は政府が顧客ごとにアクセスを承認することになると説明したという。OpenAIはブログ投稿で、この措置について「今後数週間でより広範な提供を実現するための最も確実な道であり、政府と協力してサイバー分野の大統領令フレームワークや、将来のモデルリリースのための再現可能なプロセスを構築していく」と説明している。

この措置は、2026年6月にAnthropicが直面した「Mythos 5」および「Fable 5」モデルへの海外アクセスの制限措置に比べれば緩やかである。しかしOpenAIは、この規模の政府監視が恒久的な基準になるべきではないと警告し、開発者やサイバーセキュリティ専門家、海外パートナーが必要な時に最先端AIツールにアクセスできなくなるリスクを指摘している。

■CerebrasのIPOと財務の不確実性

OpenAIのウェーハスケール推論を支えるCerebras自体は、財務面で揺れている。同社は2026年5月14日に新規株式公開（IPO）を完了し、1株あたり185ドルで55億5000万ドル（約8991億円、1ドル=162円換算）を調達した。これは2019年のUber以来、米国で最大規模のテックIPOとなった。初日の終値は311.07ドルまで急騰した。

しかし、6月23日に発表された2026年第1四半期決算で1株あたり0.22ドルの赤字を報告したため、株価は40ドル以上急落した。これを受けて、Block & LevitonやPomerantzなどの複数の法律事務所が、同社や役員による連邦証券法違反の疑いについて調査を開始している。

この財務的ボラティリティはWSE-3の技術的価値を損なうものではないが、長期的なインフラ投資を検討する企業顧客にとっては懸念材料となる。IPO時点で、Cerebrasの売上の86%は、モハメド・ビン・ザイード人工知能大学を含むUAE関連の2つの事業体に依存していた。

OpenAIとの200億ドル（約3兆2400億円、1ドル=162円換算）規模のクラウドサービス契約（Cerebras株のワラントを含む）は、同社にとって最も重要な欧米の商業関係である。Morningstarのシニア株式アナリスト、ブライアン・コールロ氏は、Cerebras投資家にとっての最大の懸念は「AI推論における激しい競争、特に市場リーダーであるNvidiaやそのGroq部門との競争である」と指摘している。

■注目ポイントQ&A

●なぜOpenAIはCodex-SparkにNvidia製GPUではなくCerebrasのハードウェアを使用しているのですか？

WSE-3は、AIコーディングの推論遅延を削減するために特別に設計されたアーキテクチャを採用しているためです。GPUクラスターとは異なり、WSE-3は44GBのオンチップSRAMと演算コアを単一のウェーハスケールプロセッサ上に統合しており、モデルの重みをチップ間で移動させる必要がありません。モデルがオンチップメモリに収まるサイズであれば、トークンの生成速度が大幅に向上します。なお、学習用途には依然としてNvidia製GPUが使用されています。

●Codex-Sparkのウェーハスケールデプロイと、Cerebras上でのGPT-5.6のデプロイ予測にはどのような違いがありますか？

Codex-Sparkはモデルの重みが44GBのオンチップSRAMに収まるため、最も高速な「オンチップモード」で動作します。一方、GPT-5.6はより巨大なモデルであるためオンチップ容量を超えてしまい、モデルの重みを外部の「MemoryX」システムからレイヤーごとに読み込む「ウェイトストリーミングモード」を使用する必要があります。このモードでもGPUクラスターに比べて遅延は抑えられますが、外部データへの依存が発生するため、オンチップモードほどの超高速性は得られません。

●米政府がGPT-5.6の公開を延期させた理由は何ですか？

米国家サイバー長官オフィス（ONCD）と科学技術政策局（OSTP）は、モデルのサイバーセキュリティ能力や悪用のリスクを懸念し、安全対策が確立されるまでの段階的なリリースを求めました。これにより、初期アクセスは政府に報告された一部のパートナーに限定され、プレビュー期間中は個別審査による承認制となっています。OpenAIはホワイトハウスと協力し、今後のモデルリリースに向けたフレームワークの構築を進めています。

●OpenAIの「Jalapeño」チップとは何ですか？Cerebrasの代替となるものですか？

Jalapeño（ハラペーニョ）は、OpenAIがBroadcomと18ヶ月かけて共同開発し、TSMCが製造した初のカスタムAI推論チップです。Broadcomのホック・タンCEOによると、初期テストで現行のNvidia製GPUに比べてトークンあたりの推論コストを約50%削減できる見通しです。Cerebrasとの提携も継続され、Cerebrasは低遅延重視のワークロード向けに速度を提供し、Jalapeñoは大量のChatGPT処理におけるコスト効率向上を担うという形で、異なる役割を果たします。

元記事: OpenAI Cerebras Bet Spawns Jalapeño Chip as GPT-5.6 Faces Government Gate