NVIDIAら、実機ロボットの研究開発を完全自動化するフレームワーク「ENPIRE」発表―AIが検証からコード修正まで実行

2026年6月18日 23:52

NVIDIAのGEAR Lab、カーネギーメロン大学（CMU）、およびカリフォルニア大学バークレー校（UCバークレー）の共同研究チームは、実機ロボットを用いた研究開発プロセス全体をAIコーディングエージェントに自律実行させるクローズドループ・フレームワーク「ENPIRE」を発表した。

物理的な環境のリセット、実機での試験、結果の検証、そして制御ポリシーのコード修正にいたるサイクルを、人間を介さずにループ実行する「物理オートリサーチ（physical autoresearch）」を初めて実現したとされる。本フレームワークのコードベースは将来的にオープンソースとして公開される計画だが、現時点で具体的なリリース日は確定していない。

NVIDIA（エヌビディア）の共同創業者兼CEOであるジェンセン・フアン氏が、フランス・パリで開催中の「VivaTech 2026」にて「物理AI（physical AI）」を主要テーマに講演を行う中、同社の研究ラボがそのビジョンを実機ハードウェアで具体化する研究成果を発表した。

NVIDIAの「GEAR Lab」、カーネギーメロン大学（CMU）、およびカリフォルニア大学バークレー校（UCバークレー）の共同研究チームは、ロボット研究のライフサイクル全体をAIコーディングエージェントに委ねるクローズドループ・フレームワーク「ENPIRE」を公開した。

このシステムは、物理的なシーンのリセット、実機での試験走行、結果の検証、そして制御ポリシーのコード修正にいたるプロセスを、人間を介さずに自律的にループ実行するものである。

研究チームによれば、ENPIREは最先端のコーディングエージェントが「物理オートリサーチ（physical autoresearch）」を行う初のシステムである。シミュレーション上ではなく、実機のロボットで科学的な検証ループ全体を実行する。

ENPIREを搭載したエージェントチームは、マザーボードへのグラフィックスカード（GPU）の挿入や、カッターツールを用いた結束バンドの緊締といった、物理的な接触を伴う難易度の高いタスクにおいて、8回の試行内で少なくとも1回成功する確率を示す「pass@8」で99%の成功率を達成したと報告されている。

■ENPIREが解決を目指す「実機検証のボトルネック」

ロボティクス研究は長年、ソフトウェア開発には存在しない物理的な制約によって足止めされてきた。それは、ロボットの試行が失敗するたびに、物理的な環境を人間が片付けなければならないという問題である。

従来は、人間の技術者が現場をリセットし、前回の試行が成功したかどうかを評価した上で、アルゴリズムに制御を戻す必要があった。このため、どれほどアルゴリズムの実行速度が速くても、検証ループは人間の作業速度（人員の揃ったラボでも1日に数十回程度）に制限されていた。

ENPIREの主な主張は、この物理的制約に対処可能になったという点である。このフレームワークは、AIコーディングエージェントに4つの連動するモジュールを提供することで、イテレーション（反復）サイクルから人間を完全に排除することを目指している。

「Environment（環境）」モジュールは、物理的環境の自動リセットと結果の自己検証を担う。ロボット自体がタスクをランダムな初期状態に戻し、リセット成功を確認してから次の試行を開始する。例えばGPU挿入タスクでは、落下したカードを回収し、挿入前のポーズに戻して基盤から抜く作業をすべて自律的に行う。

「Policy Improvement（ポリシー改善）」モジュールでは、報酬、映像、実行ログ、失敗分析を利用して、エージェントがポリシーコードを生成・修正・テストする。エージェントはオンラインで学術論文を読み、行動クローニングや強化学習（オフライン/オンライン）などから最適な手法を選択・提案する。

「Rollout（試行実行）」モジュールは、割り当てられた予算内で実機ロボットでのハードウェア試験を実行し、状態、アクション、動画、結果などの全データをエージェントのレビュー用に記録する。

「Evolution（進化）」モジュールは、エージェントが複数のロボット間で実験ブランチを比較し、成功したトレーニングレシピを共有・採用しつつ、失敗したアプローチを排除する。この連携はGitを通じて行われ、あるロボットでのブレイクスルーが中央制御なしでフリート全体に伝播する仕組みとなっている。

研究チームは、これらのモジュールを組み合わせることで、現実世界でのロボット学習を「エージェントが管理可能な、制御された最適化手順」に変換できると説明している。

■シミュレーションの限界に挑む意義

ロボティクス分野では、現実世界での高速な反復が困難であることから、過去10年間にわたり高度なシミュレータの開発が進められてきた。しかし、シミュレータと現実の摩擦やセンサーのノイズなどのギャップを埋める「sim-to-real転移」には、多大なコストがかかっていた。

ENPIREはシミュレーションの精度向上ではなく、現実世界でのイテレーション速度をシミュレーション並みに高速化することでこの問題の解決を図る。GEAR Labを共同で率いるNVIDIAのAI担当ディレクター兼ディスティングイッシュド・サイエンティストのリンシー・“ジム”・ファン氏は、今回の発表について「物理世界における自動自己研究（AutoResearch）を初めて可能にするものだ」と表現している。

一方で、論文の結果は物理世界の難しさも浮き彫りにしている。ロボットがT字型ブロックを目標位置まで滑らせる「Push-Tタスク」では、シミュレーション上では3つのコーディングエージェントすべてが成功したものの、実機での検証に移行するとそのうち2つのエージェントが失敗した。

研究チームは、この失敗の原因をシミュレータで完全には再現できない摩擦や物体の動き、センサーのノイズといった予測不可能な動的要素に求めている。ENPIREはこれらのギャップを実機で実証的に発見し解決するツールを提供するが、物理法則そのものを克服するわけではない。

■「自己検証」を支えるビジョンAI技術

ENPIREの自己検証システムにおいて、人間による監視を排除する技術的基盤は極めて具体的である。

例えば、結束バンドを締めるタスクでは、自動評価パイプラインが検出器を用いて結束バンドのヘッドとストラップの部分にバウンディングボックス（境界枠）を描き、ビジョン基盤モデル「SAM-3」を実行して領域をマスク処理する。

2台のカメラが異なる角度からタスクを監視し、ストラップがヘッドを通過しているかをそれぞれ独立して判定する。これらの判定は、反応時間が150ミリ秒未満の単一のバイナリ報酬として統合される。

また、ピン挿入タスクでは、視覚的アライメント、グリッパーの高さ、推定荷重を組み合わせた検証ツールをエージェントが構築した。これらの評価ツールは、セットアップ段階で一度構築されれば、以降の試行で修正なしに再利用される。人間側の作業は、開始時に成功と失敗の数分間のサンプル動画を提供するのみである。

■3つのAIエージェントによる実機比較テスト

研究チームは、最終的なポリシーの成否だけでなく、経過時間に対する研究の進捗を測定する新しいベンチマーク「AutoEnvBench」を導入した。テストでは、GPT-5.5を搭載した「Codex」、Opus 4.7を搭載した「Claude Code」、Kimi K2.6を搭載した「Kimi Code」の3つの最先端エージェントが評価された。

結果として、Push-TタスクにおいてはCodex（GPT-5.5搭載）が多くのケースで最も優れた性能を示した。エージェント全体で見ると、最も効果的だった改善はエージェント自身が提案した「行動クローニングによる正則化の導入」であり、これにより平均成功率が10.8ポイント向上した。

さらに、タスク間でのスキルの転移も確認された。エージェントがピン挿入タスクで得た経験がGPU挿入タスクの学習に引き継がれ、より難易度の高いタスクでのポリシー構築に要する時間が短縮されたという。

論文に掲載された「アイデアツリー」の可視化図は、各エージェントの仮説を共通の時間軸上の分岐としてマッピングしており、成功率を向上させたアイデアが緑色のリングで示されている。これはベンチマークというよりも、研究開発チームのバージョン管理履歴のような性質を持っている。

■フリート拡張による開発加速とその代償

ENPIREによるロボットフリート（複数台）の拡張効果は、導入を検討する研究室にとって実用的なトレードオフをもたらす。エージェントの数を1から8に増やすことで、Push-Tタスクの解決時間は約5時間から2時間へと2.5倍に短縮された。

ピン挿入タスクでも同様の拡張により研究時間が90分超から約40分へと短縮され、人間が介在する従来手法よりも早く成功ポリシーに収束した。

しかし、研究チームが導入した効率指標である「平均ロボット利用率（MRU）」と「平均トークン消費効率（MTU）」は、その代償を示している。フリートの規模が大きくなるにつれ、エージェント1つあたりのロボット利用率は低下する。エージェントがログの読み込み、他ブランチの要約、コード記述に費やす時間が増えるためである。

また、協調動作そのものが計算資源を消費するため、全体のトークン消費量はフリートサイズの倍率よりも急速に増加する。大規模なフリートは早期に成功ポリシーに到達するものの、必要となるトークン予算も増大する。

この結果は、ENPIREの拡張効果は実用的であるもののコストがかかることを示唆している。GPUリソースやトークン予算が豊富な研究者は迅速な収束の恩恵を受けられるが、計算資源に制約がある場合は、シングルエージェント構成の方が1ポリシーあたりのコスト効率が高くなる。

■現時点での限界と今後の展望

論文では、現段階におけるENPIREの適用範囲の限界についても率直に述べられている。ENPIREによる自動自己研究を開始するには、各タスクを事前に「自己リセット可能」にする必要があり、新たなタスクごとにリセット動作を人間が設計しなければならない。

例えばGPU挿入の場合、ロボットが自律的にカードを拾い、挿入前のポーズに戻し、基盤から抜くというリセット動作をあらかじめ構築する必要がある。このセットアップ作業は一度行えば自動化されるものの、容易ではなく、任意のタスクに対して汎用化されているわけではない。

また、Push-Tタスクにおける実機での失敗モードは、計算資源の投入だけでは解決できない課題、すなわちポリシーの学習分布から外れた「物理的なばらつき」が依然として難問であることを示している。

業界の報道やプロジェクトページによると、ENPIREの全コードベースはオープンソースとして公開される予定だが、本発表の時点では具体的な公開日は確認されていない。

国際ロボット連盟（IFR）は2026年の業界調査で、ロボット工学におけるAI駆動の自律性は、安全性テストと検証を「より複雑にするが、同時に、より必要不可欠なものにする」と指摘している。

■注目ポイントQ&A

●「物理オートリサーチ」とは何ですか？なぜロボティクス分野においてENPIREが重要なのですか？

「物理オートリサーチ（physical autoresearch）」とは、AIシステムが人間の介入なしに、実機ハードウェア上で仮説検証、試行、結果評価、コード修正といった一連の実験科学サイクルを自律的に行うというコンセプトです。従来の自動研究システムはデジタル上のシミュレーション内に限定されていましたが、ENPIREは実機ロボットにおいてこのループを完結させた初のフレームワークであると報告されています。実機を用いたロボット研究開発における最大のボトルネックであった「人間によるリセットと評価のステップ」を排除し、実験速度の上限を引き上げた点に大きな意義があります。

●ENPIREは、ロボット学習における「sim-to-real（シミュレーションから現実世界への）ギャップ」を解消するのですか？

完全に解消するわけではなく、論文でもその点が明記されています。例えば「Push-Tタスク」では、シミュレーション上で成功した3つの最先端コーディングエージェントのうち2つが、実機での検証ループに移行した際に失敗しています。ENPIREはシミュレータと現実世界の物理的ギャップそのものを消し去るわけではありません。しかし、現実世界をシミュレーションと同等に高速に反復できるようにすることで、エージェントが実機上で失敗モードを発見し、人間の手によるリセットを待つことなく高速な試行サイクルを通じてポリシーを自律改善できる環境を提供します。

●ENPIREの「AutoEnvBench」テストで、最も優れたパフォーマンスを示したコーディングエージェントはどれですか？

テストでは、「Codex（GPT-5.5搭載）」、「Claude Code（Opus 4.7搭載）」、「Kimi Code（Kimi K2.6搭載）」の3つのエージェントが評価されました。ベンチマークの「Push-Tタスク」においては、多くのケースでCodex（GPT-5.5搭載）が最も優れた性能を示したとされています。ただし、パフォーマンスはタスクの種類や、ループがシミュレーションか実機かによって異なるため、論文ではすべての条件における総合的な勝者は宣言されていません。

●ENPIREはいつオープンソースとして利用可能になりますか？

NVIDIA Researchのプロジェクトページによると、オープンソースとしてのリリースが計画されています。ただし、本発表（2026年6月17日）の時点では、具体的な公開日程はアナウンスされていません。

元記事: NVIDIA ENPIRE Closes the Loop: AI Agents Now Run Robotics Research on Real Hardware