Microsoftらの新技術「Mirage」、GPUメモリを55分の1に削減しAI動画生成の「空間のズレ」を解決と主張

2026年6月16日 22:43

ロボット工学や自律運転などのシミュレーション環境として注目される「ビデオ世界モデル」において、カメラの移動によって空間の整合性が失われる「ドリフト」問題が大きな課題となっている。Microsoft Researchなどの共同研究チームが発表した新システム「Mirage」（査読前）は、従来の画素スペースではなく潜在スペースで空間幾何（ジオメトリ）を管理することで、この問題を解消するという。

この技術はGPUメモリの消費量を最大55分の1に削減し、動画生成速度を最大10.57倍に高速化すると主張されているが、商用製品への統合や動的環境への適応にはまだ未確定な要素が残されている。

■ビデオ世界モデルが抱える「空間の不整合」とメモリの課題

ビデオ世界モデル（1枚の初期画像から、ナビゲーション可能で空間的な一貫性を持つ動画を生成するAIシステム）には、根本的なメモリ問題が存在する。この問題により、現在構築が進められているロボット訓練用パイプラインにおいて、同モデルの信頼性が損なわれているという。例えば、仮想カメラが角から視線を逸らし、再び元の場所に戻った際、そこにあるはずの光景が微妙に、あるいは劇的に変化してしまう。壁がずれ、家具が歪み、テクスチャが変わってしまうといった現象が発生するのだ。

このような不整合は、単なる見た目の欠陥にとどまらない。ビデオ世界モデルのデータを用いて訓練を行うロボットにとって、これは誤った空間関係を学習することを意味し、実際の物理的な展開（デプロイ）において失敗を引き起こす原因となる。Microsoft Researchなどのチームが開発した新しいオープンソースシステム「Mirage」（先週プレプリント論文が公開され、日曜日に主要なAI専門メディアで報じられた）は、この問題にアーキテクチャのレベルで対処するものだ。そのパフォーマンスを示す数値は、エンボディドAI（身体性AI）向けのシミュレーションパイプラインを構築する関係者から大きな注目を集めるに足る、驚くべきものとなっている。

Microsoft Research、浙江大学、アデレード大学、モナッシュ大学の研究者らによるプレプリント論文「arXiv 2606.09828」に掲載された結果によると、Mirageは既存の空間整合性アプローチと比較して、最大10.57倍高速なエンド・ツー・エンドの動画生成と、55分の1のメモリフットプリント（GPUメモリ消費量）の削減を実現したという。また、生成された動画内の空間的整合性を評価するための主要な標準ベンチマークである「WorldScore」において、最先端（SOTA）のスコアを達成したと報告されている。

■ポイントクラウド方式が直面する課題：レンダリングとエンコードの罠

ビデオ世界モデルにおいて空間整合性を維持するための主流なアプローチは、RGB画素（ピクセル）スペースで構築された明示的なポイントクラウド（点群）に依存している。カメラが移動した後にモデルが部屋の様子を記憶しておく必要がある場合、カラーの点を用いて3次元マップを構築し、フレームごとにそのマップを参照してオブジェクトの位置を固定する。

しかし、このアプローチには互いに影響し合う2つの構造的な問題がある。第一に、計算コストが非常に高い点だ。モデルが新しいフレームの空間情報を必要とするたびに、ポイントクラウドをフル解像度のカラー画像へとレンダリングし直し、さらにその画像をVAE（変分オートエンコーダー）を介して再エンコードしてモデルの内部表現に変換し直さなければならない。この「レンダリングと再エンコード」の往復処理は、フレームごとに膨大な計算資源を消費する。

第二に、この往復処理は本質的に情報の損失（ロス）を伴う。VAEは視覚情報を圧縮する。モデルの内部的な潜在表現（モデルがシーンについて実際に推論を行うための豊かな特徴空間）には、レンダリングされた画素画像が保持できる以上の情報が含まれている。画素スペースを経由して元に戻すということは、モデルがすでに知っていた情報の劣化版（圧縮されたもの）を受け取ることを意味する。潜在表現に存在していたジオメトリやテクスチャは破棄され、呼び出されるのではなく、再推論によって補われることになる。

このボトルネックを抱える既存のシステムには、「Spatia」「VMem」「Gen3C」などがある。Mirageはこれらのシステムすべてを比較対象（ベンチマーク）としており、WorldScoreによる評価でそれらを上回る性能を示したという。

■潜在スペース内でシーンを保持する「Mirage」の仕組み

Mirageは、シーンのジオメトリを画素スペースのポイントクラウドではなく、モデルの拡散潜在スペース（ディフュージョン・ラテントスペース）に直接保存することで、レンダリングと再エンコードのボトルネックを回避している。

その仕組みは以下の通りである。Mirageが入力フレームを処理する際、まずそのフレームを拡散モデルがすでに使用している圧縮された内部表現である「VAE潜在テンソル」へとエンコードする。続いて、共同で訓練された単眼深度推定器が、各潜在トークンのピクセルごとの深度（デプス）推定値を提供する。これらの深度値を用いて、各潜在トークンは「デプスガイド付き逆投影（depth-guided back-projection）」と呼ばれるプロセスを通じて3次元空間に引き上げられる。トークンは完全な潜在表現を保持したまま、モデルが持つ世界の座標系における位置を割り当てられる。

このプロセスの結果、世界座標空間の座標と対になった潜在トークンの3次元ストアである「永続的潜在キャッシュ」が構築される。Mirageが新しいカメラアングルを合成する必要がある場合、この潜在キャッシュを対象カメラの座標グリッドに直接投影する。この投影により、中間の画素レンダリングやVAEの再エンコードを一切必要とせず、ディフュージョン骨格（バックボーン）が直接利用できるターゲット視点の潜在テンソルが出力される。クエリ処理はすべて、モデル本来の特徴空間内で行われる。

また、Mirageはフレーム単位ではなく、セグメント（まとまり）単位で動画を構築する。各チャンク（塊）において潜在キャッシュからデータを読み込み、ノイズ除去（デノイジング）プロセス中にその取得したメモリを使用して新しいフレームを生成し、更新された静的なシーンコンテンツをキャッシュに書き戻す。書き込みが行われる前に、フィルターによって動くオブジェクトや空のコンテンツが取り除かれるため、長期メモリには安定した背景のジオメトリのみが蓄積される。木々の揺れる枝や通りすがりの歩行者が、シーンマップに永続的に焼き付けられることはない。

このアーキテクチャの統合は、Alibaba（アリババ）のオープンソース動画生成モデル「Wan2.2」（Mixture-of-Experts拡散アーキテクチャを採用）をLoRAアダプターで微調整（ファインチューニング）することによって実現された。これにより、他の研究チームも大規模な動画生成モデルを一から再訓練することなく、このアプローチを探求できるとしている。

■ロボティクス・シミュレーション研究所にとっての数値の意味

Mirageと画素スペースを使用する競合技術との効率性の差は、わずかなものではない。WorldScoreにおいて、Mirageは「Spatia」を上回る性能を示しつつ、1フレームあたりの計算コストを最大10.57分の1に抑え、グラフィックスメモリ（VRAM）の消費量を最大55分の1に削減した。このメモリに関する利点は、長時間の動画生成においてさらに大きな効果を発揮する。画素スペースを用いたメモリシステムでは、生成されるフレーム数に比例してVRAM要件が増大するのに対し、Mirageでは潜在キャッシュがフル画像サイズではなくモデルの圧縮された内部解像度で保存されるため、最初のセグメント以降の1フレームあたりのコストはほぼ横ばい（フラット）に保たれる。

このスケーラビリティが重要となるのには、具体的な実務上の理由がある。ビデオ世界モデルは、エージェントが物理的に妥当な空間をナビゲートし、相互作用することを学ぶための、ロボット工学やエンボディドAIシステム向けの訓練環境として急速に採用が進んでいる。エージェントが部屋を探索し、そこを離れ、再び戻ってくるような訓練セッションは、数千フレームに及ぶ可能性がある。これはまさに、画素スペースを用いたメモリシステムのコストが漸増し、空間の不整合が最も顕著に蓄積していく領域である。Mirageのコストが一定に保たれるメモリプロファイルは、これまでVRAMのオーバーヘッドコストを負担できなかった研究所にとっても、より長時間で高負荷なシミュレーションを実行することを予算的に可能にすることを意味する。

ロボティクス・シミュレーション分野を追跡しているBessemer Venture Partnersは、2026年3月の分析において、動画中心の世界モデルは長期的な展望において「空間的・時間的な不整合に悩まされている」と指摘し、これを汎用ロボティクスにおける核心的な未解決課題として挙げていた。今回の論文は、その課題に直接対処するものと言える。

■AIビデオ世界モデルはロボットを訓練できるのか？

ロボットの訓練環境としてビデオ世界モデルを使用することの理論的な妥当性は、十分に確立されている。現実世界に訓練環境を構築したり、物理ベースのシミュレーターを実行したりするコストのわずか数分の一で、多様で物理的に妥当なシーンを生成でき、さらに物理世界では再現が困難で高コストな「ロングテール（稀にしか発生しない）」の特異なシナリオにエージェントを遭遇させることができるからである。しかし、実用上の課題となっていたのは、モデル自身の不整合を補正するような訓練データではなく、正しい空間認識の習慣を教え込めるよう、長いカメラ軌道にわたって十分に空間的に一貫した動画を生成することであった。

Mirageは、この不整合の背後にある特定のメカニズム、すなわちシーンデータが画素スペースを通過するたびに発生する情報の損失と計算オーバーヘッドに対処している。ただし、その潜在スペースによるアプローチが、多数の相互作用するオブジェクト、動的な環境、多様な照明を含むシーンといった、完全なロボティクス訓練パイプラインの複雑さにまでスケールするかどうかは未解決の課題であり、本論文でも完全には解決されていない。著者らは既知の制限事項の1つを明記している。動くオブジェクトはチャンク間でジオメトリを確実に追跡できないため、セグメントの境界ごとに永続メモリからフィルタリングされてしまうことだ。多くの動く要素が存在する複雑なシーンでは、永続キャッシュの恩恵を受けられるシーンコンテンツが減少し、画素スペースを用いたアプローチに対する優位性は低下するとみられる。

研究チームは、動的コンテンツの保存を、解決すべき次の主要な課題として挙げている。

■ビデオ世界モデル開発競争における「Mirage」の立ち位置

ビデオ世界モデルは、AIにおいて最も活発に研究開発競争が繰り繰り広げられている分野の1つだ。Google DeepMindの「Genie 3」は、リアルタイムで数分間にわたり空間整合性を維持する、インタラクティブな3次元環境を生成する。また、Runwayの「GWM-1」は永続的な空間構造に対して異なるアーキテクチャ的アプローチを採用しており、NVIDIAの「Cosmos」ファミリーは自動運転車両の訓練向けに物理シミュレーションの忠実度を重視している。それぞれが、ビデオ世界モデルにおけるアーキテクチャ上のボトルネックがどこにあるかについて、異なる仮説を立てている。

Mirageの貢献は、特にアーキテクチャに関するものだ。メモリ表現を画素スペースに保持するのではなく、モデル自身の潜在スペースに移行させ、この移行が標準的なベンチマークにおいて、より優れた効率性と、競合と同等以上の空間整合性の両方をもたらすことを示した。なお、本研究はプレプリント論文であり、商業製品ではない。Microsoft製品への統合は発表されておらず、結果もまだ査読を受けていない。MicrosoftのGitHubリポジトリでのオープンソース公開は、より広範な研究コミュニティに対し、この結果の再現やストレステスト、拡張を促すものである。

ロボティクス、自動運転シミュレーション、あるいはインタラクティブなコンテンツ生成向けのビデオ世界モデルに取り組む研究チームにとって、この論文は画素スペースを用いたポイントクラウドメモリに対する具体的なアーキテクチャ的代替案を示している。チームが実施したベンチマークにおいて、VRAM消費量を55分の1に抑え、1フレームあたりの計算コストを10倍以上削減した手法である。

■注目ポイントQ&A

●ビデオ世界モデルとは何ですか？

1枚の初期画像と指定されたカメラ経路（パス）を入力とし、空間的整合性を維持したままで、連続的かつナビゲーション可能な動画シーケンスを生成するAIシステムのことです。空間的整合性とは、仮想カメラがシーン内を移動しても、オブジェクトが正しい位置に留まり続けることを意味します。これらのモデルは、シミュレーション環境の構築、ロボット工学エージェントの訓練、インタラクティブなコンテンツ作成などに利用されます。単一の固定された動画クリップを出力する一般的な動画生成モデルとは異なり、時間の経過とともに複数のアングルから探索できる永続的な空間をシミュレートすることを目指しています。

●MirageはAI動画において空間整合性をどのように維持しているのですか？

画素スペースのポイントクラウドではなく、モデル自身がすでを使用している圧縮された内部表現である「拡散潜在トークン（ディフュージョン・ラテント・トークン）」から構築された、永続的な3次元キャッシュにシーン情報を保存します。モデルが新しいカメラ視点を合成する必要がある場合、この潜在キャッシュを対象のアングルに直接投影して生成器に渡します。これにより、3次元マップをフル解像度のカラー画像にレンダリングし、それを再エンコードするという、計算コストが高く情報の損失を伴うステップを回避しています。なお、キャッシュには静的なジオメトリのみが保存され、長期メモリに不整合な情報が蓄積されるのを防ぐため、動くオブジェクトはセグメントの境界ごとにフィルタリングで除去されます。

●AI動画生成モデルをロボットの訓練に使用できますか？

ビデオ世界モデルは、物理的な訓練環境の構築や従来の物理シミュレーターよりもはるかに安価に、多様で物理的に妥当なシーンを生成できるため、ロボットやエンボディドAI（身体性AI）システムの訓練環境としての利用が拡大しています。ただし、生成されたシーンが長いカメラ軌道にわたって空間的に一貫していることが前提となります。カメラが巡回する間に部屋の構造（ジオメトリ）を忘れてしまうような世界モデルからナビゲーションを学習すると、ロボットが誤った空間認識の習慣を身につけてしまうためです。Mirageのアーキテクチャはこの要件に直接対処しており、画素スペースを用いた従来手法と比較してメモリフットプリントを55分の1に削減したことで、ハードウェアコストを下げ、これまでVRAMのオーバーヘッドを支払えなかった研究室でもより長いシミュレーションを実行できるようにする可能性があります。

●Mirageの潜在空間メモリ手法にはどのような限界がありますか？

動くオブジェクトを永続的な潜在キャッシュに確実に保存することができません。システムはセグメントの境界ごとに、キャッシュに書き込む前に動的なコンテンツ（人、車両、木の葉など）をフィルタリングして取り除くため、長期メモリに蓄積されるのは安定した背景の幾何構造のみとなります。そのため、動く要素が多い混雑したシーンでは、長期保存に適したコンテンツが少なくなるため、永続メモリによる優位性が低下します。論文では、動的コンテンツの記憶を今後の研究における主要な未解決課題として挙げています。また、本研究結果はまだ査読を受けていないプレプリント論文の段階のものです。

元記事: Microsoft Mirage Fixes AI Video World Model Drift With 55x Less GPU Memory