Claudeがロボットプログラミングで人間を最大38倍圧倒、Anthropicが示す「物理エージェントAI」の可能性

2026年6月29日 18:17

米Anthropicは、同社のAIモデル「Claude Opus 4.7」を用いた実験において、ロボットのプログラミングタスクを人間の最大38倍の速度で完了したと発表した。この成果はロボット専用の訓練ではなく、LLMの一般的な能力向上(スケーリング)の副産物として得られたという。一方で、リアルタイムの物理的制御(クローズドループ制御)には依然として技術的な課題が残されており、今後のLLMアーキテクチャの進化が注目される。

■人間を圧倒するスピード:実験「Project Fetch Phase Two」の衝撃

AIモデルが、物理世界のロボットプログラミングタスクにおいて、人間のチームを最大で約38倍上回る速度を記録した。米Anthropicによると、この劇的な進歩はロボット工学に特化したトレーニングによるものではなく、他のあらゆる領域で大規模言語モデル(LLM)の向上を牽引してきた「一般的な能力のスケーリング(規模拡張)」の副産物として達成されたという。

この結果は、Anthropicのフロンティア・レッドチームが2025年8月に初めて実施した実験の第2弾「Project Fetch Phase Two」から得られたものだ。最初のテスト(Phase One)では、専門知識を持たないAnthropicの従業員で構成された2つのグループが、市販の4足歩行ロボット(通称「ロボドッグ」)のセンサー接続やコンピュータビジョンタスクのプログラミングで競い合った。一方のチームは「Claude Opus 4.1」の支援を受け、もう一方はインターネットと自力のみで取り組んだ結果、AI支援チームの方が早くタスクを完了した。しかし、当時のOpus 4.1単体にタスクを完全に自律実行させようとしたところ、最初のステップである「ロボットへの接続」の段階で失敗していた。

それから10ヶ月後、最新の「Claude Opus 4.7」はロボットへの接続に成功しただけでなく、かつて人間の両チームが完了したすべてのタスクをわずか9分35秒で完了させた。これに対し、2025年8月時点でClaudeの支援を受けた人間チームは181分、AI支援なしのチームは361分を要していた。この結果、Opus 4.7はAI支援ありの人間の約19倍、支援なしのグループの約38倍高速ということになる。これは、自律型LLMエージェントと、訓練された人間チームが現実世界の物理的タスクを行う速度を、最も正確に定量化した比較データとなる。

■驚異的な効率性を支える「エージェントループ」と「適応的思考」

Opus 4.7が取り組んだ4つのタスクは、2025年8月の実験で人間の両チームが完了したタスクと同じものだ。具体的には、ロボドッグのビデオカメラセンサーへの接続、Lidar(光検出・測定)センサーへの接続、ロボットの移動経路を監視するプログラムの作成、そしてコンピュータビジョンを用いたビーチボールの検出である。実験中、人間の研究者の役割は、ノートPCをロボットに接続し、初期プロンプトを入力し、コマンドを承認し、モデルに次のタスクへ進むよう合図を送ることに限定されていた。

この圧倒的なパフォーマンスを支えるアーキテクチャ上の仕組みは明確だ。自律型コーディングツール「Claude Code」は、Anthropicが「エージェントループ(agentic loop)」と呼ぶ、コンテキスト収集、アクション実行、結果検証を繰り返す3フェーズのサイクルで動作する。ツールが備わっているからこそ、このループは自律的(エージェント的)に機能する。ツールがなければテキストで応答することしかできないが、ツールがあればセンサー出力を読み取り、コードを記述・実行し、センサー接続が成功したかどうかを監視し、それに応じて次のコマンドを修正することができる。今回の実験では、Opus 4.7は「適応的思考(adaptive thinking)」を最大エフォートで実行した。これは、個々のツール呼び出しの「前」だけでなく「間」にもモデルが思考できる推論モードである。この思考と推論のインターリーブ(交互配置)により、モデルは中間結果を確認し、次のアクションを調整し、人間の介入を待つことなくマルチステップの物理タスクを高い信頼性で実行できる。

コードの効率性を示す数値も、処理スピードと同様に雄弁だ。すべてのタスクにおいて、Opus 4.7が生成したコードはわずか1,045行だったのに対し、2025年8月にClaudeの支援を受けた人間チームが書いたコードは10,309行に達していた。人間チームのコード量が多いのは、あるセンサーAPIを試して失敗し、別のAPIを試すといった、試行錯誤を繰り返した結果である。一方、Opus 4.7はほとんどのケースで最初の試行で最も直接的な統合経路を特定し、タスクに必要なコードだけを記述した。生成されたコードの多くは、即座に動作したという。

モデルは各タスクで3回の試行を行ったが、実行時間は非常に一貫しており、これが偶然ではなく高い信頼性によるものであることを示している。ビーチボール検出の試行のうち1回は、モデルが当初、古い物体検出アルゴリズムを選択したため大幅に時間がかかったが、モデル自身が問題を認識し、人間の介入なしに回避策を講じて正しい解決策に到達した。

■LLMが直面する「クローズドループ制御」の壁

一方で、モデルが唯一解決できなかったタスクは、この実験において最も示唆に富む発見となった。それは、ロボドッグを物理的に誘導してビーチボールを開始位置に押し戻すという「フェッチ(回収)」タスクである。このタスクを遂行するには、リアルタイムの「クローズドループ制御(フィードバック制御)」が必要となる。つまり、ボールが押された後にどこへ移動したかというセンサーデータを継続的に読み取り、前回のコマンドがどのような結果をもたらしたかを計算し、状況が変化するよりも早く修正コマンドを出し続ける必要がある。

これは、Opus 4.7が成功したタスクとは構造的に異なるカテゴリーの問題だ。センサー接続のプログラミング、経路監視コードの記述、コンピュータビジョンの実装などはすべて「オープドループタスク」である。モデルは指示を書き、それを実行し、結果を観察すればよい。これに対し、クローズドループ制御では、システムが環境と継続的に通信し、センサーからのフィードバックを受け取ってほぼリアルタイムで行動する必要があるが、現在のLLMの推論アーキテクチャでは、その速度とレイテンシをサポートできない。

人間の参加者は、手持ちのコントローラーで少し練習するだけで、このタスクを自然にこなすことができた。ボールのズレを感知し、前回の操作による誤差を解釈し、修正を加えることができたのだ。Opus 4.7はロボットをボールの背後の正しい位置に配置することはできたものの、このタスクが求める迅速かつ適応的な微調整を実行することはできなかった。

ただしAnthropicは、初期実験のボランティアよりもロボット工学の経験が豊富な研究者が、自律的なボール回収プログラムの記述に成功したことを指摘している。これは、クローズドループの問題が構造的に解決不可能なのではなく、現在の世代のモデルが一般的なスケーリングだけで達成できる範囲を超えているにすぎないことを示している。

■ロボット専用エンジニアリングではなく「一般的なスケーリング」の成果

今回の実験に関する報告書において、最も重要でありながら見過ごされやすい主張の一つがある。それは、2025年8月の「センサー接続すらできなかった段階」から、2026年6月の「4つのタスクを10分未満で完了する段階」への進化は、Claudeのロボット工学能力を向上させるための意図的な取り組みによるものではない、とAnthropicが明言している点だ。同社の研究者は、「これらの向上は、LLM開発の歴史における他の多くの進歩と同様に、より一般的なスケーリングから創発したものだ」と記している。

この主張は、ある具体的な予測を内包している。AIモデルがソフトウェアのコーディングタスクを自律的に処理できるようになった当初、モデルはテキストエディタ、bashターミナル、ファイルリーダーなど、人間の開発者がすでに使用している既存のソフトウェアツールの使い方を学習することでそれを実現した。今回の報告書が展開する仮説は、これと同様の移行が物理的なツールでも始まりつつあるというものだ。すなわち、市販のロボットハードウェアは、ロボット工学に特化したエンジニアリングではなく、一般的な能力向上を通じてLLMが使用法を学習できる「ツールの新たなカテゴリー」になりつつあるという考え方である。

Anthropicはこれを「物理的エージェントAI(physical agentic AI)」の始まりと呼んでいる。もし一般的なスケーリングによって、ロボットに接続すらできなかったOpus 4.1が、1年足らずで人間のチームより19倍高速にタスクをこなすOpus 4.7へと進化したのであれば、「クローズドループの物理制御がいつ達成可能になるか」という問いは、誰が専用のロボットモデルを構築するかではなく、一般的なスケーリングがいつ必要な能力を生み出すかという問いに帰着することになる。

Anthropicが以前サイバーセキュリティ分野で記録した「モデルがまず人間を拡張し、次に人間がモデルを一時的に導き、最終的にモデルが自律的に動作する」という3段階の進展パターンが、ロボット工学の物理レイヤーでも形成されつつあるようだ。

■「物理エージェントAI」がもたらす産業界へのインパクト

2026年1月にダボスで開催された世界経済フォーラム(WEF)の年次総会において、専門家らは「ロボット工学の基盤時代は終わり、導入(デプロイ)の時代が始まった」という具体的な合意に達した。マサチューセッツ工科大学(MIT)のコンピュータ科学・人工知能研究所(CSAIL)所長であるダニエラ・ラス氏は同セッションにおいて、現在、ロボットのフリート全体が人間の介入なしに24時間体制でコンテナを移動させていることを認めた。ただし、これらのシステムは専用のロボットソフトウェアに依存しており、エージェント型コーディングツールを使用する汎用LLMに依存しているわけではない。

今回の「Project Fetch Phase Two」がその構図に付け加えるのは、変化のスピードに関するデータだ。この実験のデザインは、市販のロボドッグ、専門知識のない研究者、一般的なノートPC、標準的なClaude Codeインターフェースを使用し、ロボット専用のエンジニアリングは行わないという、意図的に制約されたものだった。その結果得られたのは、ロボット導入の最初にして最も要求の厳しいフェーズ(デバイスの接続、センシング、監視、ビジョン対応)において、AI支援を受けた人間チームすらも凌駕するモデルだった。

2026年6月26日に公開された「Anthropic Economic Index」レポートでは、これが複数の領域で同時に見られるAI能力成熟の広範なパターンの一部として位置づけられている。このロボット工学に関する知見と並んで、Claudeが現在、Anthropic自体のコードベースにマージされるコードの80%以上を記述しており、同社のエンジニアが2024年の8倍のコードを毎日マージしているというデータも示されている。Anthropicの枠組みによれば、物理AIへの移行は、同じ基礎的なダイナミクスが物理レイヤーで展開されているもう一つの事例にすぎないのだ。

■注目ポイントQ&A

●Claudeはロボットプログラミングにおいて、人間と比べてどのくらい高速ですか?

Anthropicの実験「Project Fetch Phase Two」において、Claude Opus 4.7は4つのロボットプログラミングタスクを9分35秒で完了しました。これは、AI支援を受けた人間チーム(181分)の約19倍、AI支援なしの人間チーム(361分)の約38倍の速度に相当します。

●現時点で、Claudeがロボット制御において実行できないタスクは何ですか?

リアルタイムの「クローズドループ制御(フィードバック制御)」を必要とするタスクは実行できません。例えば、動くボールを追いかけて押し戻すような、センサーデータを瞬時に読み取って即座に動作を修正するリアルタイムのやり取りは、現在のLLMの推論速度やレイテンシでは対応が困難です。

●ロボット工学における「オープドループ」と「クローズドループ」の違いは何ですか?

オープドループタスクは、プログラムを書いて実行し、その結果を観察する一連の静的なプロセスであり、現在のLLMが得意とする領域です。一方、クローズドループタスクは、環境からのフィードバックをリアルタイムに受け取り、状況の変化よりも早く継続的に動作を修正するプロセスを指します。

●今回の進化は、ロボット専用のAIモデル開発によるものですか?

いいえ、Anthropicによると、今回の進化はロボット工学に特化した訓練によるものではなく、LLMの一般的な能力向上(スケーリング)の副産物として自然に発現したものです。汎用的なAI能力の向上が、物理的なハードウェアの制御にも応用できることを示しています。

元記事: Claude AI Beats Human Robotics Teams 20x: Anthropic Marks Physical AI Turn

関連記事

最新記事