OpenAI、初の独自AI推論チップ「Jalapeño」を発表――Broadcom・TSMCと共同開発、コスト50%削減を標榜

2026年6月26日 01:10

印刷

記事提供元:Tech Times

OpenAIとBroadcomは、大規模言語モデル(LLM)の推論処理に特化した同社初のカスタムAIチップ「Jalapeño(ハラペーニョ)」を発表した。TSMCが製造を担当したこの新型チップは、初期のラボテストにおいて現行GPU比で約50%の推論コスト削減を達成したと報じられている。ChatGPTのAPIを利用する開発者や一般ユーザーの利用コストに直接影響する可能性があるが、実際のデータセンターへの本格導入は2027年以降になる見通しだ。

■OpenAI初のカスタムAIチップ「Jalapeño」の誕生

OpenAIとBroadcomは、OpenAIとして初となる独自開発のAIアクセラレーター「Jalapeño(ハラペーニョ)」を発表した。これは、ChatGPTでの対話やCodexによるコード生成リクエストなどを支える「LLM(大規模言語モデル)の推論処理」を実行するために専用設計されたカスタムチップである。

TSMCが製造した同チップのエンジニアリングサンプルは、Broadcomの社長兼CEOであるホック・タン氏と半導体ソリューション部門社長のチャーリー・カワス氏の手によって、サンフランシスコのOpenAI本社にいるサム・アルトマンCEOおよびグレッグ・ブロックマン社長へと届けられた。

OpenAIのAPIを利用してシステムを構築する開発者や、利用量に応じてChatGPTのアクセスコストが変動するユーザーにとって、確度の高いコスト削減を謳う専用推論チップの登場は、AIサービスの運用コスト、ひいては利用料金を直接左右する極めて重要なマイルストーンとなる。

■50%のコスト削減を掲げる初期テスト結果と慎重な姿勢

初期のラボテストにおいて、Jalapeñoは極めて高いパフォーマンスを示しているという。Broadcomのホック・タンCEOがロイターに語ったところによると、その性能はNvidiaの最新アーキテクチャ「Blackwell」やGoogleの「TPU(Tensor Processing Unit)」に匹敵する。さらにタン氏はブルームバーグに対し、現行世代のGPUと比較して、1トークンあたりの推論コストを約50%削減できる見込みであると個別に明かした。

一方で、OpenAIの公式発表における表現はより慎重だ。同社はJalapeñoのワットあたり性能について「現行の最先端技術を大幅に上回る」と表現しつつも、最終的な数値は現在も測定中であり、詳細な技術レポートは数カ月以内に公開予定であると言及するにとどめている。半導体製造元であるBroadcomのCEOが示す具体的な削減率と、OpenAI自身による慎重なヘッジ(不確実性の留保)を伴う主張とのギャップは、今後の開発動向を見極める上で重要なポイントとなる。

■なぜ「推論」には専用のシリコンが必要なのか

Jalapeñoが単に「高速なGPU」と何が異なり、なぜ重要なのかを理解するには、AIの「推論」におけるボトルネックを知る必要がある。AIモデルの「学習(トレーニング)」は、数十億のパラメータにわたって力任せに並列計算を行う、膨大な計算資源を必要とする一回限りのプロセスである。これに対し「推論」は、1日に何十億回も実行され、1リクエストあたり200ミリ秒未満での応答が求められる。そして、その処理を支配するのは計算量ではなく「メモリ帯域(データの移動速度)」である。

ChatGPTが回答を生成するたびに、モデルは高帯域幅メモリ(HBM)から膨大な重み行列を読み込み、数十層のトランスフォーマーレイヤーを通過させ、さらに会話の文脈を保持するための「KV(Key-Value)キャッシュ」を維持しなければならない。汎用GPUでは、メモリと演算コアの間でデータが移動する速度がボトルネックとなるため、チップが持つ膨大な並列演算能力の多くがアイドル状態(不稼働状態)になってしまう。独立したハードウェア分析によると、一般的なGPUの推論ワークロードにおける実質的な稼働率は60〜70%にとどまり、推論では使われない機能のために多くの電力が無駄に消費されているという。

Jalapeñoはこの課題を解決するために専用設計された。OpenAIでハードウェアプログラムを率いるリチャード・ホー氏は、「最先端のAIモデルにおいて最も重要となるカーネル、メモリ移動、ネットワーキング、そしてサービング(提供)パターンを中心にアーキテクチャを最適化した」と説明する。設計上の目標は、理論上のピークに限りなく近い稼働率を達成することであり、これが実運用で実現すれば、50%のコスト削減という主張も現実味を帯びてくる。

■Jalapeñoの設計と開発パートナーシップ

Jalapeñoは、汎用アーキテクチャを流用したものではなく、特定の用途のためにゼロから設計されたASIC(特定用途向け集積回路)である。NvidiaのGPUは、大規模な基礎モデルの学習からグラフィックス描画、科学シミュレーションに至るまで、あらゆる顧客のタスクに対応しなければならない。しかし、Jalapeñoのシリコンは、トランスフォーマーベースのLLM推論が発生させる特有のパターン(大量のメモリ読み出し、推論に適した低精度演算、レイヤーごとの予測可能なアテンション計算、数千人の同時接続ユーザーを処理するネットワーク挙動)だけに完全にチューニングされている。

この開発において、Broadcomは半導体の実装技術と、大規模な推論クラスター内のチップ間通信を処理する「Tomahawk」などの高性能ネットワーキング技術を提供した。また、Celesticaがボード、ラック、およびシステム全体の統合を担当している。OpenAIは、チップのアーキテクチャとアルゴリズム設計を担った。これは、同社が自社モデルの実際の挙動や運用パターンについて蓄積してきた知見をハードウェアレベルで反映したものである。

この「フルスタック」の知見こそが、効率性の源泉であるとされている。OpenAIはモデルとチップの双方を自社で設計しているため、自社モデルが大規模運用時に発生させる正確なメモリアクセスパターンやカーネル形状に合わせてハードウェアを最適化できる。これは、多様なワークロードを持つ何千もの顧客を抱えるNvidiaには不可能なアプローチである。

■設計からテープアウトまでわずか9カ月の異例のスピード

発表の中で最も注目すべき主張の一つが、その開発期間の短さである。OpenAIとBroadcomによると、初期設計から製造用設計データの完成(テープアウト)までに要した期間はわずか9カ月だった。両社はこれを「高性能な先端半導体分野において、史上最速のASIC開発サイクルであると確信している」と表現している。

この驚異的なスピードを可能にした要因の一部は、OpenAI自体のAIモデルだった。OpenAIのグレッグ・ブロックマン社長はCNBCに対し、自社モデルがチップ設計プロセスをどれほど加速させたかについて「非常に驚くべきことだった」と語っている。これは、今日のChatGPTを動かしているモデルが、将来のモデルを動かすためのチップ設計を支援するという、同社が今後さらに拡大しようとしているフィードバックループの存在を示唆している。OpenAIによると、現在ラボ内では、コーディングモデル「GPT-5.3-Codex-Spark」などを含む環境で、目標とする動作周波数と電力での動作テストが行われているという。また、OpenAIがロイターに認めたところによると、製造はTSMCが担当している。

■「50%のコスト削減」が意味する現実と今後のタイムライン

「現行GPU比で1トークンあたり50%のコスト削減」という見出しの数値は、Broadcomのホック・タンCEOがブルームバーグに語った初期テスト結果に基づいている。これに対し、OpenAIの公式声明は「大幅な電力効率の向上」と言及するにとどまり、具体的な数値は伏せられている。

この主張にはいくつかの留意点がある。第一に、これらの数値はOpenAI自身が選定したワークロードに基づく自己申告データであり、比較対象となった基準や第三者による検証結果は開示されていない。テックメディアのThe Decoderは、Jalapeñoが具体的にどのチップと、どのようなタスクや条件下で比較されたのかが不明確であると指摘している。第二に、カスタム推論チップにおいては、ラボでのテスト性能と実際のデータセンターでの運用性能が乖離することが歴史的に多い。何百万人もの同時接続ユーザーを処理する実際の運用環境は、検証用のベンチマークほど単純ではないからだ。第三に、このチップはまだ大規模に配備されていない。配備は2026年末に小規模なプロトタイプシステムから開始され、2027年から2028年にかけて段階的に拡大される予定である。

とはいえ、これらの懸念が「50%削減」の主張を完全に否定するわけではない。専用設計された推論ASICが、特定のワークロードにおいて汎用GPUを凌駕する構造的な理由は前述の通り明確である。しかし、現時点では「50%削減」を確定した実績ではなく、初期データに裏付けられた「目標値」として捉えるのが現実的だろう。仮に実際の運用でその半分の効率向上しか達成できなかったとしても、最先端AIの運用コスト構造を大きく変えるインパクトを持つことに変わりはない。

■配備ロードマップとMicrosoftの役割

Jalapeñoは一般販売される予定はなく、外部の顧客が購入することはできない。BroadcomのタンCEOがCNBCに語ったところによると、2026年末に「小規模なプロトタイプ開発」を行い、2027年から2028年にかけて本格的な生産拡大を進める計画である。OpenAIとBroadcomは、Microsoftやその他のパートナーと共同で構築するデータセンターにおいて、OpenAI設計のアクセラレーターをギガワット規模で配備することを約束しており、2029年までに累計10ギガワットに達する計画を掲げている。また、The Decoderの報道によると、Broadcomは最初の生産フェーズを確保する条件として、Microsoftに対し初期生産分の約40%を購入保証するよう求めたとされているが、両社ともこの数値を公式には認めていない。

OpenAIとBroadcomの提携は2025年10月に初めて公表された。今回の発表により、チップの名称が「Jalapeño」であることが初めて公にされ、エンジニアリングサンプルの納品完了と、初期のアーキテクチャ詳細および性能目標が明らかになった。

■Nvidiaの支配体制への影響

Jalapeñoの登場が、AIインフラにおけるNvidiaの支配的な地位をすぐに脅かすわけではない。NvidiaのGPUは依然として最先端モデルの学習において圧倒的なデファクトスタンダードであり、400万人以上の登録開発者を抱え、15年にわたりツールやライブラリ、コンパイラ最適化を積み重ねてきた「CUDA」ソフトウェアエコシステムは、AIソフトウェアスタックのあらゆる層に深く根を張っている。中規模の企業が、APIの利用料金が高いという理由だけでカスタムASICの設計に踏み切ることは不可能だ。カスタム半導体の開発には18〜24カ月の設計サイクル、巨額のエンジニアリング投資、ハードウェアに固定化するに値する安定したワークロード、そしてOpenAIほどの規模があって初めて確保できる製造ファウンドリとの信頼関係が必要となる。

しかし、より具体的な脅威は構造的な変化にある。Nvidiaの強力な価格決定力は、これまでハイパースケーラー規模の本格的な推論ワークロードにおいて、信頼できる代替選択肢が存在しなかったことに起因している。Google、Amazon、Microsoft、Meta、そして今回のOpenAIがそれぞれ独自の推論シリコンプログラムを稼働させることで、「Nvidiaの高額なマージンを支払うのがデフォルトである」という前提が崩れつつある。これは単一のチップがすべての指標でNvidiaの最高製品を上回るからではなく、最大手顧客が価格交渉の「レバレッジ(交渉力)」を手にするためである。BroadcomのタンCEOがロイターに語ったように、JalapeñoがNvidiaのBlackwellやGoogleのTPUと同等の性能を実運用で発揮できれば、OpenAIは最もコストに敏感なワークロードにおいて、初めて実用的な代替手段を手に入れることになる。

OpenAIとBroadcomの表現によれば、Jalapeñoは複数世代にわたるプラットフォームの最初のチップにすぎない。ベンチマークの詳細は未公表であり、実際のデータセンターへの配備は18カ月先である。しかし、本日明確になった変化は、OpenAIがもはや「半導体を購入するだけの会社」ではなく、「半導体を設計する会社」になったという事実である。

■注目ポイントQ&A

●OpenAIの「Jalapeño」チップとは何ですか?NvidiaのGPUと何が違いますか?

Jalapeño(ハラペーニョ)は、OpenAIが設計し、BroadcomおよびTSMCと共同開発した、大規模言語モデル(LLM)の推論処理に特化したカスタムASIC(特定用途向け集積回路)です。あらゆるAIタスクに対応するために不要な演算領域を抱えるNvidiaの汎用GPUとは異なり、Jalapeñoはトランスフォーマーモデル特有のメモリアクセスやネットワーク処理に特化して設計されています。この特化により、無駄な電力消費を抑え、1トークンあたりの推論コストを約50%削減することを目指しています。

●Jalapeñoチップはいつから利用可能になりますか?他社への販売は行われますか?

Jalapeñoは外部の顧客向けに一般販売される予定はありません。OpenAIの計画では、2026年末に小規模なプロトタイプ展開を開始し、2027年から2028年にかけて、Microsoftなどのパートナーと共同構築するデータセンターへ本格的に導入・拡大していく予定です。

●Jalapeñoの登場により、OpenAIはNvidia製GPUの使用をやめるのですか?

いいえ、その予定はありません。OpenAIは依然としてNvidiaの最大級の顧客であり、特に膨大な計算能力を必要とするAIモデルの「学習(トレーニング)」においては、今後もNvidiaの強力なGPUとCUDAエコシステムが不可欠です。Jalapeñoは「推論専用」のチップであり、ChatGPTなどの高ボリュームな応答処理において、コストを抑えるための代替選択肢として位置づけられています。

●「推論コスト50%削減」という主張はどの程度信頼できますか?

この「50%削減」という数値は、共同開発パートナーであるBroadcomのホック・タンCEOが初期のラボテスト結果として言及したものです。OpenAI自身の公式発表では具体的な数値は伏せられ、「大幅な電力効率の向上」と表現されています。このテストはOpenAIが選定した特定のワークロードに基づくものであり、比較基準や第三者による検証結果は開示されていません。実際のデータセンター運用環境での効果については、数カ月以内に公開予定の技術レポートや、2026年末以降の実際の配備を待つ必要があります。

元記事: OpenAI’s First Custom AI Chip Targets 50% Cheaper Inference: Jalapeño Unveiled

※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。

関連キーワード

関連記事