LLMの「1本化された処理」は無駄が多い? コーネル大が2〜3%の効率向上を実現する「デュアルストリーム」設計を提唱

2026年7月4日 23:44

大規模言語モデル(LLM)は単語を出力するたびに、「世界状態の維持」と「次のトークンの予測」という2つの処理を同時に行っている。コーネル大学の研究チームは、これまで不可避とされてきたこの2つの処理の混在が設計上の欠陥であると指摘し、これらをアーキテクチャレベルで分離する「デュアルストリーム」設計を提案した。このアプローチにより、モデルの計算効率が測定可能なレベルで向上するとともに、AIの内部動作を理解する「解釈可能性」の向上にもつながる可能性があるという。

■1つのストリームに2つのタスクを詰め込むことによる勾配の衝突

標準的なトランスフォーマーは、情報を単一の「残差ストリーム(residual stream)」に通して処理する。このストリームはモデルのワーキングメモリとして機能し、各アテンション層やフィードフォワード層がここから情報を読み書きして次のステージへと引き渡す。そして最終層に達したとき、文脈や世界状態の情報を蓄積してきたこの同じストリームが、そのまま語彙に対する出力確率分布(次の単語の予測)の直接的な前駆体となる。

コーネル大学の言語・インタラクション・学習研究所(Language, Interaction, and Learning Lab)に所属する4人の研究者(Giovanni Monea氏、Nathan Godey氏、Kianté Brantley氏、Yoav Artzi氏)が発表した論文によると、これら2つの役割は根本的に異なる、しばしば衝突する勾配(グラディエント)の要求を持つという。

世界状態の表現には、多くのトークンにわたる関係性や事実を捉える、安定した構成的な更新が必要とされる。一方で、次トークンの予測には、次の出力に微調整された迅速で局所的なシグナルが求められる。これら両方を同じ計算チャネルに強制的に通すと、どちらもクリーンに最適化できなくなる。予測の圧力から生じる勾配が、一貫した世界状態表現の構築に必要な勾配を引っ張り、その逆もまた然りという状況が発生するためだ。

提案されたアーキテクチャは、世界状態の表現専用の第2のストリームを導入することでこの問題を解決する。予測ヘッドは、状態ストリームと競合するのではなく、分離された状態ストリームから情報を読み取る。研究チームは、潜在的な交絡因子を排除し、デュアルストリーム設計が生み出す勾配の構造的違いを特徴付けるために広範なアブレーション(要素切除)実験を行った。これは、過去のいくつかのアーキテクチャ提案では見られなかった、極めて規律ある手法である。

■状態と予測の分離がAIの「解釈可能性」にもたらす意味

効率の向上はこの論文の最も直接的で定量化可能な貢献だが、より深い意義は、ニューラルネットワークをリバースエンジニアリングして内部計算を理解する分野である「メカニスティックな解釈可能性(mechanistic interpretability)」に対する示唆にあるかもしれない。

トランスフォーマーの回路フレームワークを確立した2021年のElhageらの論文以来、解釈可能性の研究者たちは、単一の残差ストリームがすべての意味のある計算が蓄積される共有通信チャネルであるという基礎的な前提に基づいて研究を行ってきた。回路分析は、特定のアテンションヘッドやフィードフォワード層がどのようにそのストリームを読み書きし、推論パターン、事実の想起、コンテキスト内適応といった認識可能な動作を実装しているかを追跡する。

これまでの研究プログラムは、世界モデルの構築と予測の計算を構造的に区別することなく進められてきた。なぜなら、従来のアーキテクチャがそれを区別していなかったからだ。しかし、「状態・予測分離仮説(State-Prediction Separation Hypothesis)」は、まさにこの区別を設計原理として導入する。

世界状態の表現がアーキテクチャ的に出力ヘッドから隔離されているモデルは、原理的に、内部構造を調査しやすく、制御(ステアリング)しやすいモデルとなる。例えば、モデルの出力が支離滅裂な場合でも、内部の事実表現が一貫しているかどうかといった安全性に関連する問いは、これら2つを独立して調査できるようになれば、より扱いやすくなる。

これは、近年のアーキテクチャ研究のより広い流れとも結びついている。2025年11月、Microsoft Researchのチームは「Next-Latent Prediction(次潜在表現予測)」を導入する論文を発表した。これは、単一ストリームのアーキテクチャは維持しつつ、トークンレベルの教師あり学習だけに頼るのではなく、将来の予測に十分な履歴の圧縮表現をトランスフォーマーに学習させる補助的な訓練目的を重ねるものだった。これに対し、コーネル大学のアプローチは異なる経路をたどる。訓練時にストリームを構造的に分離し、最初からそれぞれが独立して最適化できるようにしている。

■このアーキテクチャは最先端のスケールでも維持されるか

事前訓練の実験は複数のスケールにわたって行われ、アブレーション作業も徹底している。しかし、未解決の課題として残されているのは、現代の商用システムが動作する数兆パラメータ規模の「フロンティアモデル」のスケールにおいて、この2〜3%の効率向上が維持されるかどうかだ。小規模で有望な結果を示したアーキテクチャの提案が、最大規模の訓練ランでその優位性を再現できないケースは過去にもあり、著者らはまだその領域でのテストを行っていない。

なお、本記事の公開時点で、デュアルストリームアーキテクチャのコードは公開されていない。コードが利用可能になり、より大きなスケールで実証的な再現が行われれば、状態・予測分離仮説が一般的なアーキテクチャ原理として成立するのか、あるいは研究されたスケール範囲に特有のものなのかが最も明確に検証されることになるだろう。

解釈可能性、安全性、またはアーキテクチャに取り組む研究者にとって、この論文はフレームワークの転換を提示している。解釈可能性を、構造的な制約なしに訓練されたモデルに対して適用する事後的な分析タスクとして扱うのではなく、訓練が始まる前にアーキテクチャを形作る「設計時のインプット」として提案しているのだ。

■注目ポイントQ&A

●状態・予測分離仮説とは何ですか?

コーネル大学の研究チームが提案した仮説で、トランスフォーマーの「世界状態表現機能」と「次トークン予測機能」を、1つではなく2つの並列計算ストリームを用いて明示的に分離することで、より効率的な言語モデルの訓練が可能になるというものです。論文では、複数の事前訓練スケールにわたり、下流タスクで平均2〜3%の向上が報告されています。

●デュアルストリーム・トランスフォーマーは、標準的なトランスフォーマーとどう違うのですか?

標準的なトランスフォーマーは単一の残差ストリームを使用し、世界状態の情報を蓄積すると同時に、モデルの予測ヘッドへの入力としても機能させます。これに対し、デュアルストリーム設計はこれら2つの機能を独立した勾配フローを持つ別々のチャネルにルーティングするため、世界状態の計算とトークン予測が互いに干渉することなく最適化されます。

●メカニスティックな解釈可能性は、なぜLLMの安全性において重要なのですか?

メカニスティックな解釈可能性とは、ニューラルネットワークの内部で何が起きているかをリバースエンジニアリングし、回路、特徴、推論経路をマッピングしようとする研究分野です。内部計算が理解できれば、モデルの監査、修正、制御が可能になります。デュアルストリームアーキテクチャは、モデルが「知っていること」と「予測すること」を構造的に区別することで、この種の分析をより容易にする可能性があります。

●このアーキテクチャは既存のLLMに適用できますか?

この論文では、既存のシングルストリームモデルのレトロフィット(後付け)やファインチューニングについては言及されていません。デュアルストリームの分離は、事前訓練時のアーキテクチャ上の選択です。既存の訓練済みモデルを、設計段階で考慮されていなかった分離状態に近似するように適応させられるかどうかは、今後の研究課題です。

元記事: LLMs Waste Compute Juggling Two Jobs: Cornell Dual-Stream Design Gains 2 to 3 Percent

関連記事

最新記事