投機的デコーディングの限界を突破、新手法「DFlash」がBlackwell GPUで15倍のスループットを達成
2026年6月29日 18:57
LLMの推論速度を向上させる「投機的デコーディング」のボトルネックを解消する新手法「DFlash」が発表された。カリフォルニア大学サンディエゴ校の研究チームが開発し、NVIDIAのBlackwell GPU環境において、従来の自己回帰デコーディング比で15倍以上の同時ユーザー負荷を処理できることが実証された。LLMの推論インフラを運用するエンジニアにとって、コード変更なしで劇的な高速化とコスト削減をもたらす画期的な技術となる可能性がある。
■投機的デコーディングの限界を打ち破る「DFlash」
大規模言語モデル(LLM)には、ハードウェアの限界にとどまらない速度の問題が存在する。現在利用可能な最速のGPUであっても、標準的な自己回帰ループ(1つのトークンを生成し、待ち、次のトークンを生成するプロセス)では、チップの大部分がアイドル状態のまま放置されてしまう。この問題を解決するために期待されていたのが「投機的デコーディング(Speculative decoding)」である。これは、軽量な「ドラフトモデル」が先行してトークン列を予測し、巨大な「ターゲットモデル」がそれらを並列に検証することで、出力の品質(分布)を損なうことなく高速化を図る手法だ。しかし、実用上の効果は限定的だった。ドラフトモデル自体が依然として1トークンずつ自己回帰的に生成を行うため、EAGLE-3のような最先端の手法を用いても、現実世界の高速化は2〜3倍程度にとどまっていた。
カリフォルニア大学サンディエゴ校(UCSD)の「z-lab」に所属する研究者、Jian Chen氏、Yesheng Liang氏、Zhijian Liu氏らは、2026年6月24日に「DFlash」をリリースした。その前日にはNVIDIAのエンジニアリングチームによっても性能が独立して確認されており、ドラフトモデル側のボトルネックに対する構造的な解決策がついに提示されたとみられている。DFlashは、自己回帰的なドラフトループを軽量な「ブロック拡散モデル(block diffusion model)」に置き換え、1回のフォワードパス(順伝播)でトークンブロック全体を並列に提案する。ターゲットモデルは、従来の投機的デコーディングと同様にそのブロックを並列に検証するため、最終的な出力分布はターゲットモデルが単独で生成したものと完全に一致し、ロスレス(無損失)な高速化が保証される。
■拡散モデルによるドラフト生成がもたらす変革
従来の投機的デコーディングシステムが2〜3倍の高速化で頭打ちになっていた理由は、偶発的なものではなくアーキテクチャ上の制約にある。自己回帰的なドラフトモデルは、トークンを左から右へと順番に生成するため、提案するトークン数に比例して遅延(レイテンシ)が線形に増加する。このため、EAGLE-3などのシステムでは、ドラフトモデルのネットワークを極めて浅く(EAGLE-3ではわずか1レイヤーのTransformer層)せざるを得なかった。ネットワークを深くすると遅延が増大し、検証による高速化の恩恵を相殺してしまうからである。
一方、ブロック拡散ドラフターは異なるアプローチをとる。提案するトークンブロック全体を共同のデノイジング(ノイズ除去)問題として扱い、マスクされたプレースホルダーから開始して、1回のフォワードパスで一貫したシーケンスへと収束させる。このため、ブロックに含まれるトークン数に関わらず、遅延コストはほぼ一定に保たれる。この特性により、DFlashは5レイヤー(Qwen3-Coder向けバリアントでは8レイヤー)という深いドラフトネットワークを採用することが可能になった。モデルを深くすることで、ターゲットモデルに承認されるトークン列が長くなり、結果としてターゲットモデルの呼び出し回数が減少するため、生成トークンあたりの遅延を大幅に削減できる。
過去にも拡散モデルを投機的ドラフトに適用する試みはあったが、それらは70億パラメータ規模の巨大なドラフトモデルを必要としたため、ドラフト生成のコストが高すぎて検証による節約分を相殺してしまい、3〜4倍の高速化にとどまっていた。DFlashは、ドラフトモデルをコンパクトに保ちつつ、ターゲットモデルがすでに計算した情報を高度に活用することで、この問題を回避している。
■KVインジェクション:ターゲットモデルの「未来予測」を活用する
DFlashのアーキテクチャの核心は、巨大な自己回帰モデルがすでに保持している情報に関する洞察にある。ターゲットモデルの各レイヤーにおける隠れ状態(hidden states)には、現在の位置だけでなく、次に続く複数のトークンに関する情報がエンコードされている。これは、Transformerネットワークにおける予測符号化に関する先行研究でも示されている現象であり、ターゲットモデルは、ドラフトモデルがゼロから予測し直す必要のある「未来の予測」の大部分を、すでに計算し終えていることを意味する。
DFlashは、ターゲットモデルの複数のレイヤーから隠れ状態を抽出し、それらを1つのコンパクトな特徴ベクトルに融合した上で、ドラフトネットワークのすべてのレイヤーにおけるKey(キー)およびValue(バリュー)のプロジェクションに注入する。この「KVインジェクション(KV Injection)」は、極めて重要な設計上の選択である。EAGLE-3などの従来システムでは、ターゲットモデルの特徴を入力埋め込み(embeddings)の段階でのみ注入していたため、層が深くなるにつれて信号が希薄化し、ドラフトモデルが深くなるほど誘導効果が弱まっていた。DFlashは、すべてのドラフトレイヤーのKVキャッシュにターゲットモデルの知識を直接配線することで、ドラフトモデルの全層にわたって信号を強力に維持することに成功した。
この結果、ターゲットモデルに実際に承認されるトークン数(承認長)は、ドラフトモデルの深さに応じて、従来手法では不可能だったレベルでスケールするようになった。16トークンのブロックを生成する5レイヤーのDFlashドラフターは、8トークンのブロックを生成するEAGLE-3を上回る性能を、より低い遅延で実現している。
■2つの異なる性能指標:シングル遅延とバッチスループット
DFlash의ベンチマークでは、2つの主要な性能数値が示されているが、これらは異なる測定基準に基づいている。導入を検討するインフラチームは、この違いを理解する必要がある。
1つ目は、UCSD独自の評価による「4.86倍」という平均値である。これは、Qwen3-8Bを用いたシングルストリーム(単一ユーザー)のロスレス高速化(貪欲法デコーディング)を、数学、コーディング、オープンエンドのチャットなど7つのタスクで測定したものである。この数値は、個々のユーザーが体感する遅延の削減効果を反映している。特に、長くて予測可能なトークンシーケンスが多い構造化された推論タスクで効果が高く、MATH-500では最大6.08倍、AIME-25では5.62倍、GSM8Kでは5.15倍を記録した一方、会話型の出力(MT-Bench)では2.75倍と、効果はより緩やかであった。
2つ目は、NVIDIAが報告した数値である。これは、DGX B300システム(8基のBlackwell GPUを搭載)上で、TensorRT-LLMを用いてgpt-oss-120bを実行し、固定の応答性目標におけるバッチスループットを測定したものだ。ユーザーあたり毎秒500〜600トークンという、インタラクティブな体験を定義する速度基準において、DFlashは標準的な自己回帰デコーディングの15倍以上の同時ユーザー負荷を処理できた。これは、同じ動作条件におけるEAGLE-3の約1.5倍のスループットに相当する。また、ユーザー数を固定した測定では、gpt-oss-120bにおいてDFlashが平均2.3倍(EAGLE-3は1.7倍)、Llama 3.1 8B Instructにおいて2.8倍(EAGLE-3は2.2倍)の高速化を達成した。これらの数値は矛盾するものではなく、前者が単一ストリームの遅延削減を、後者が本番環境のサービングクラスターにおけるスループット拡張を測定していることに起因する。
■即時導入可能なエコシステムと適用領域
DFlashは、Qwen、LLaMA、Gemma、Kimi K2.6、gpt-ossの各モデルファミリーをカバーする20のモデルチェックポイントをHugging Faceで公開しており、BlackwellおよびHopperハードウェア向けに最適化されたレシピを提供している。また、本番環境のLLMサービングで広く普及しているSGLang、vLLM、TensorRT-LLMへのネイティブ統合も完了している。
導入にあたってアプリケーションレベルのコード変更は不要である。インフラの運用担当者は、サービング設定ファイル内のEAGLE-3のチェックポイント参照をDFlashのチェックポイント参照に書き換えてサーバーを再起動するだけでよい。vLLMでは、設定ファイルの1行を書き換えるだけで移行が完了する。Hugging FaceのTransformersバックエンドでも、spec_generate呼び出しを介してQwen3およびLLaMA-3.1モデルをサポートしている。論文はarXiv(2602.06036)で公開されており、コードはGitHubで入手可能である。
なお、投機的デコーディングシステムの一般的な特性として、同時実行数(バッチサイズ)が極めて高くなると高速化の効果は圧縮される。ターゲットモデルがすでに計算飽和(コンピュートバウンド)状態にある高バッチサイズ環境では、検証ステップが支配的になり、ドラフトモデルによる追加の貢献度は低下する。そのため、コーディングエージェント、推論パイプライン、リアルタイムチャットなど、遅延に敏感なインタラクティブなワークロードを運用するインフラチームが最大の恩恵を受けることになる。
■注目ポイントQ&A
●DFlashは従来のEAGLE-3と何が違うのですか?
EAGLE-3はドラフトモデルを自己回帰的(1トークンずつ)に実行しますが、DFlashはブロック拡散モデルを採用し、1回の並列フォワードパスでブロック全体を生成します。また、ターゲットモデルの隠れ状態をドラフトモデルの全レイヤーのKVプロジェクションに注入することで、より深いドラフトモデルを効率的に動作させ、承認されるトークン数を増やしています。
●15倍のスループット向上とは、具体的にどのような意味ですか?
これは単一ユーザーの遅延が15倍になるという意味ではなく、複数ユーザーを同時に処理するバッチスループットの測定値です。NVIDIAのBlackwell GPU(DGX B300)環境において、ユーザーあたり毎秒500〜600トークンという高い応答性を維持しながら、標準的な自己回帰デコーディングの15倍以上の同時ユーザー負荷を処理できることを示しています。単一ユーザーの遅延削減効果は、平均4.86倍(最大6.08倍)です。
●DFlashはどのようなモデルやフレームワークに対応していますか?
Qwen3、LLaMA-3.1、Gemma 4 31B、Kimi K2.6、gpt-ossなどのモデルファミリーに対応する20のチェックポイントがHugging Faceで公開されています。また、SGLang、vLLM、TensorRT-LLMといった主要な推論サービングフレームワークにネイティブ対応しており、設定ファイルの変更だけでコードを書き換えずに導入可能です。
元記事: Speculative Decoding Bottleneck Broken: DFlash Hits 15x on Blackwell GPUs
関連記事
最新記事
- Google DeepMindからトップ研究者6名がMetaやOpenAIらへ移籍、背景に「商用コーディング重視」への戦略転換か
- 「宇宙AIデータセンター」は実現するか? ソフトバンク孫氏がSpaceX構想のコストと遅延を疑問視
- 【未確認】カルパシー氏の作とされる「CLAUDE.md」10原則が流出か、AIコーディングの自律ループを制御する新ルール
- 米商務省、Anthropicの「Claude Mythos 5」を重要インフラ防衛向けに限定復旧、一般向けの「Fable 5」は停止継続
- Slack向け「Claude Tag」が登場、8月3日までに移行が必要に――常駐型AIがもたらす変革と管理者の課題