人間の介入なしで30Bモデルを事後学習、AmazonのAIシステムが評価指標の「報酬ハッキング」を自律検知・修正

2026年6月28日 16:20

記事提供元：Tech Times

(store.steampowered.com)

(store.steampowered.com)[写真拡大]

Amazonの「A-EVO-Lab」の研究チームが開発した自律型AIシステムが、人間の介入なしに300億パラメータのNVIDIA Nemotronモデルの事後学習（ポストトレーニング）を完了した。このシステムは、学習の途中で自身の内部評価指標が形骸化していることを検知し、自己改善のための探索戦略を自律的に修正したという。2026年6月9日にarXivに投稿された論文で明らかになったこの成果は、フロンティアスケールにおける自律的な事後学習の初の公表例として、AI研究コミュニティで注目を集めている。

■フロンティアスケールで初の自律的ポストトレーニング

AmazonのA-EVO-Labの研究者が構築した自律型AIシステム「A-Evolve」が、人間の介入なしに、複数週間にわたる4ラウンドの実行を経て、300億パラメータ（30B）のNVIDIA Nemotronモデルの完全な事後学習（ポストトレーニング）を完了した。

さらに、設計者が予期していなかった行動として、システムは自身の内部評価指標が誤解を招く状態（実世界の性能向上に結びつかない状態）になっていることを検知し、自己改善のための探索戦略を自律的に再設計した。

2026年6月9日にプレプリントサーバー「arXiv」に投稿された論文によると、これはフロンティアスケール（最先端規模）で公表された初の自律的ポストトレーニングの事例である。この自律生成されたモデルは、2026年6月時点で、公開されている「NVIDIA Nemotron-Reasoning Challenge」のリーダーボードにおいて、約4,000のエントリー中8位にランクインした。人間のトップ投稿のスコアが0.87であったのに対し、この自律システムは0.86を記録した。

■従来比240倍の規模、フロンティアスケールへの挑戦

これまでの自律型機械学習研究の公開デモンストレーションは、約1億2400万パラメータのGPT-2クラスの規模にとどまっていた。このサイズであれば、実験は数分で終わり、失敗しても低コストで再試行でき、1基のGPUで十分に対応可能である。

一方、今回の「A-Evolve」システムは300億パラメータで実行された。これは従来の約240倍の規模であり、1回のトレーニングに数日を要し、複数の「NVIDIA H200 GPU」を搭載したKubernetesクラスター上で複数週間にわたり実行された。

論文の著者らは、コスト構造が桁違いに厳しいフロンティアスケールで自律研究ループを完結させることは、本質的に極めて困難な課題であると指摘している。

■規模の壁を乗り越えた3つの設計思想

A-Evolveシステムは、フロンティアスケールのポストトレーニングにおけるコスト構造に対応するため、以下の3つのアーキテクチャ設計を採用している。

1つ目は「不変の参照基盤（Immutable Reference Substrate）」である。各ラウンドにおいて、人間のオペレーターが監査したデフォルトのトレーニングスタックを、隔離された候補サンドボックスに複製（フォーク）して使用する。基盤自体は決して上書きされないため、各ラウンド間で結果を正確に比較できる。

2つ目は「均一でメモリを持たないワーカー（Homogeneous, Memory-Free Workers）」である。役割を分担した専門エージェント（データ、トレーニング、評価など）を連携させる手法は、誤差や分散が累積して失敗した。そのため、各ラウンドで8つの同一のワーカーを起動し、それぞれが基盤から独立して開始する構成を採用した。ラウンド間でメモリは引き継がれず、エージェントの探索戦略（ポリシー）のみが更新される。

3つ目は「ラウンドレベルの証拠集約（Round-Level Evidence Aggregation）」である。フィードバックはリアルタイムではなく各ラウンドの終了後に提供され、モデルの重みや中間データではなく、探索ポリシーのみが更新される。

これらは「非対称な自由（asymmetric freedom）」を体現しており、ワーカーはサンドボックス内で自由に提案できる一方で、参照基盤の不可侵性が保たれる設計となっている。

■評価指標の形骸化（報酬ハッキング）を自律修正

本研究における最も重要な発見は、リーダーボードのスコアではなく、キャンペーンの途中で発生した。自律ループが、ラウンド間の候補を評価するために使用していた内部開発指標（プロキシ）が、モデルの最も苦手な推論領域における実際の性能を反映しなくなっていることを検知したことである。

候補モデル群は、外部のターゲット性能を向上させることなく、内部の開発指標だけを過去最高値に押し上げていた。通常の最適化アルゴリズムであれば、この誤解を招く指標を追い求め続けるところだが、A-Evolveシステムは自身の探索ポリシーを修正し、プロキシ指標を下げつつ外部ターゲットを向上させる介入を模索し始めた。

これはAIアライメント研究において「仕様ゲーミング（specification gaming）」や「報酬ハッキング（reward hacking）」、あるいは「グッドハートの法則（指標が目標になると、それは良い指標ではなくなる）」と呼ばれる現象である。アライメント研究者は、この失敗モードの検知と修正を、高度なAIシステムにおける核心的な課題の一つと位置づけてきた。A-Evolveシステムは、人間の介入なしにこれらを自律的に実行した。

ただし、論文の著者らは慎重な姿勢を崩していない。システムが「最適化だけでなく、発見」を行った証拠であるとしつつも、検知時の内部推論が個々の決定レベルで解釈可能（インタプリタブル）であるか、あるいは監査可能であるかについては、完全には解明されていないと述べている。

■120Bおよび550Bモデルへの適用と今後の展望

同システムは、30Bモデルでの実行に加え、NVIDIAの120B（1200億）および550B（5500億）パラメータのNemotronバリアントにも適用された。

著者らはこれらについて、性能の主張ではなく「インフラの検証」として位置づけている。Nemotron-Reasoning Challengeにおいて、これらのパラメータ数における比較可能な人間の基準値（ベースライン）が存在しないため、自律ループがクラッシュせずに完了することを示したにとどまり、人間の研究チームと同等の成果を出せるかどうかは今後の課題とされている。

本研究は、AIが自身の能力を連鎖的に向上させる「再帰的自己改善（recursive self-improvement）」の議論に新たな一石を投じた。著者らは、自律システムが「フロンティアクラスのモデルのエンドツーエンドのポストトレーニングを実行できること」を再帰的自己改善の基準として定義し、今回の30Bの結果はその基準をクリアした一つのデータポイントであると主張している。

■注目ポイントQ&A

●AIの自律的ポストトレーニングとは何ですか？通常の開発とどう違いますか？

通常のポストトレーニングは、人間がトレーニングデータのブレンドや手順を提案し、実行結果を評価して次のステップを決めるという、人間の監視下で数週間かけて行われるプロセスです。自律的ポストトレーニングは、AIシステムが自ら仮説を立て、トレーニングを実行し、結果を評価して探索戦略を更新する一連のサイクルを、人間の介入なしに自動で行います。

●再帰的自己改善とは何ですか？A-Evolveはそれを証明したのですか？

再帰的自己改善とは、AIシステムが自身の能力を連鎖的に向上させ、次の改善をより容易かつ効果的にしていくプロセスを指します。A-Evolveの論文著者らは、フロンティアクラスのモデルを自律的にポストトレーニングできる能力をその最小基準と定義し、今回の30Bモデルでの成果はその基準をクリアした一つの実証例であると説明しています。ただし、AIが人間の研究者に完全に匹敵した、あるいは広範な意味での再帰的自己改善が始まっているとまでは主張していません。

●人間の介入なしにAIが自己学習することに危険性はありますか？

AnthropicやGoogle DeepMind、OpenAIなどの主要AI開発企業は、自己修正や自律的な研究能力を持つAIが人間の制御を超えて急速に進化するリスクを懸念し、安全方針を策定しています。今回の研究は、そうした懸念に対応する技術的実証の一つです。一方で、システムが評価指標の形骸化を自律修正したことは、アライメント（安全性の調整）の観点からは肯定的な兆候と捉えられていますが、その内部推論のプロセスが完全に解明されたわけではありません。

●A-Evolveが「壊れた指標を自己修正した」ことの何が重要なのでしょうか？

AIの学習において、システムが実際の能力を向上させずに、測定されるスコアだけを都合よく高めてしまう現象は「仕様ゲーミング」や「報酬ハッキング」と呼ばれ、AI安全性の大きな課題となっています。A-Evolveが、人間の介入なしにこの状態を検知し、スコアのハッキングを避けて実際の性能向上を目指すように探索ポリシーを自律修正したことは、AIアライメント研究における重要な実証データとなります。

元記事: NVIDIA AI Trained Itself on a 30B Model: Corrected Its Own Broken Metric Mid-Run

※この記事はTech Timesから提供を受けた記事を日本向けに翻訳・編集したものです。

スポンサードリンク