OpenAIがゲノム解析の新ベンチマーク「GeneBench-Pro」を公開、最先端AIでも正解率は3割未満

2026年7月3日 23:12

OpenAIは、計算生物学者が日常的に行う複雑な判断を伴う分析作業を評価する新しい研究レベルのベンチマーク「GeneBench-Pro」を公開した。同社の最も高性能なモデルである「GPT-5.6 Sol」であっても、最大計算量を用いた場合の正解率は3割未満にとどまったと報告されている。この結果は、現在のAIの能力と、自律的な科学分析の実行との間に依然として大きな隔たりがあることを示している。

■「GeneBench-Pro」がテストするものと従来のベンチマークとの違い

従来の生物学向けAIベンチマークの多くは、遺伝子制御ネットワークの役割の説明やタンパク質構造の特定など、知識の想起や単一ステップの推論をテストするものだった。これに対し、GeneBench-Proはより厳しい基準を設けている。

このベンチマークに含まれる129の課題では、AIエージェントに対して、意図的にノイズを含めた現実的なデータセット、簡潔な実験文脈、および下流の科学的または臨床的決定に結びつくターゲット推定値が与えられる。エージェントは人間の科学者と同様に、データを探索し、サンプルの誤ラベルや祖先情報の入れ替わり、古代DNAバイアス、測定誤差といった品質管理上の問題を特定しなければならない。さらに、適切な分析手法を決定し、初期結果が誤りを示唆した場合にはプロセスを反復し、最終的に構造化された形式で数値の回答を出力することが求められる。

ベンチマークは、統計遺伝学、集団ゲノミクス、定量的遺伝学、制御オミクス、機能ゲノミクス、プロテオミクス、臨床薬物ゲノミクス、がん体細胞ゲノミクス、微生物ゲノミクス、法医遺伝学の10領域（21のサブ領域）に及ぶ。課題を1つ正しく完了するだけでも、計算生物学の実務で必要とされる一連 of 高度な作業を連携させる必要がある。

■合成データと確定的採点による設計メカニズム

GeneBench-Proが従来の長期的な科学ベンチマークと異なるのは、正誤判定の方法である。従来の生物学ベンチマークの多くは過去の実データをもとに構築されていたが、これには構造的な問題があった。ノイズを含む過去のデータセットでは複数の妥当な分析手法が存在し得るため、モデルが正当な経路を選択したとしても、ベンチマーク作成者が別の経路を想定していたという理由だけで不合格になることがあった。

GeneBench-Proはこの問題を解決するため、完全に既知の因果構造からすべての課題を合成的に生成している。OpenAIがデータ生成プロセス全体を管理しているため、検証済みのグラウンドトゥルース（正解）に対して確定的な採点を行うことができる。また、課題の難易度調整や、もっともらしく見えるが誤った分析経路が失敗することを確認するアブレーション研究、情報漏洩や意図しない近道の監査も可能だ。OpenAIは129の課題のうち82問を、大学院生、ポスドク、業界の科学者、教授などの外部専門家に送り、現実性や意図した答えがデータから特定可能であることを確認した。

各エージェントには、Python、科学計算ライブラリ、およびPLINK 2.0を含む主要なゲノミクスパッケージといった、標準的なバイオインフォマティクスツールを備えた隔離されたワークスペースが提供される。領域特有のプロプライエタリな（独占的な）ツールは不要とされている。

■GPT-5.6 Solの正解率は32%未満：データが示す実態

今回の結果は、科学的ワークフロー向けにAIツールを構築または導入しようとしている人々にとって、現状を診断する指標となる。OpenAIの最も強力な汎用モデルである「GPT-5.6 Sol」は、最高推論レベルで28.7%の合格率を記録し、「Proモード」を有効にした場合でも31.5%にとどまった。やや難易度の低い前身の「GeneBench」では、GPT-5.5 Proが33.2%を記録していた。他社モデルでは、Anthropicの「Claude Opus 4.8」がGeneBench-Proで16.0%を記録し、OpenAI以外のモデルで最高となった。Googleの「Gemini 3.1 Pro」のスコアは3.1%だった。

ベンチマークの開発開始時からの進歩は顕著である。OpenAIが最初のGeneBenchの構築を始めた際、当時の最先端モデルであった「GPT-5」のスコアは5%未満だった。31.5%への向上は大幅な進歩を示しているが、依然として約70%の課題は今日の最も有能なモデルでも信頼できるレベルには達していない。

また、この種のタスクにおける「テスト時計算量（test-time compute）」の重要性も浮き彫りになった。最低推論レベルでは、GPT-5.6 Solの合格率は1桁台にとどまる。しかし最高レベルでは、GPT-5.2の約3分の2のトークン消費量でありながら、約6倍の課題を解決しており、AIの科学的能力における計算量スケーリングの余地が大きく残されていることを示唆している。

■「気づきから行動へのギャップ」という共通の失敗パターン

外部の査読者は、モデルが一貫して示す具体的な失敗パターンを特定している。ゲノム解析企業Gencoveのデータサイエンスディレクターであるレックス・フラゲル（Lex Flagel）氏は、モデルが分析プロセスの第2段階、すなわちデータの不整合（祖先情報の入れ替わりなど）への対処で特に対処を誤っているようだと指摘する。「エージェントの多くはデータの不整合への対処に失敗していた。彼らはデータの問題に対して十分に慎重ではない。これは現在のモデルの弱点を示しているのかもしれない。生物学的データの多くには不規則性が伴うからだ」と同氏は述べている。

論文ではこれを「気づきから行動へのギャップ（noticing-to-acting gap）」と表現している。モデルは、アーティファクトや交絡変数、品質管理の失敗といった局所的な診断シグナルを頻繁に特定（気づき）しているものの、その観察結果を正しい下流の分析決定に反映（行動）できていない。探索的分析によって自ら問題を明らかにした後でも、誤った推定量を選択したり、当初は妥当に見えたが誤っている分析経路に固執し続けたりするという。

論文内のケーススタディはこのギャップを具体的に示している。時間依存性の治療と交絡因子のフィードバックを含む、薬物ゲノミクスの生存時間分析（time-to-event）の課題において、GPT-5.5は従来のCox比例ハザードモデルを使用したものの、治療と交絡因子のフィードバックに対処しなかった。これは重大な誤りである。一方、GPT-5.6 Solは、より適切な周辺構造Coxモデル（安定化逆確率重み付き）を使用し、フラグが立てられた既存のユーザーを除外し、曝露を90日間の有効性ラグを伴う時間依存性として処理した。この2つの結果の違いは、どのテストが存在するかを知っているかどうかではなく、データ構造がより複雑な手法を必要としていることを認識できたかどうかにあった。

UCLAの人間遺伝学助教授であるアレクサンダー・ストラドウィック・ヤング（Alexander Strudwick Young）氏も、この難易度の高さを裏付けている。同氏によれば、これらの課題は大学院生にとっても、経験豊富な指導教官からの継続的なフィードバックなしに完了するのは困難であり、単に既存の手法を当てはめるだけでなく、思慮深い分析と潜在的な落とし穴への警戒が必要とされるレベルだという。

■自社モデルを使用したベンチマーク構築への懸念

結果を解釈するにあたり、読者が考慮すべきGeneBench-Proの構造的特徴がある。OpenAIは開発段階において、課題の評価と強化に自社の最先端GPTモデルを使用した。論文でもこの点に明示的に言及しており、他社モデルと比較してGeneBench-ProがGPTモデルに有利なバイアスを持っている可能性を懸念していたことを認めている。OpenAIの自己評価によれば、競合モデルは「リリース時点の対応するGPTモデルの性能とせいぜい同等であり、大幅に下回る傾向があった」とされており、自己評価バイアスが存在したとしても、最終結果においてGPTに不当な優位性を与えてはいないと主張している。

ただし、独立した検証も計画されている。OpenAIは50問のサブセットを第三者評価機関のArtificial Analysisに提供し、外部ベンチマークを実施する予定だ。その結果が公表されるまでは、リーダーボードはベンチマークと主要モデルの双方を構築した同一組織による内部評価を反映したものとなる。

2026年6月に『Nature Medicine』誌に掲載された査読付き分析（OpenAIのHealthBench評価を検証したもの）では、業界が作成したベンチマークは、その作成者が開発したシステムを系統的に優遇する可能性があると指摘され、独立して構築された評価ツールの必要性が訴えられている。Artificial Analysisが結果を公表するまでは、この批判は今回のケースにも同様に当てはまる。

■部分的な自動化がもたらす経済的メリット

合格率が3割未満であるにもかかわらず、OpenAIは科学的ワークフローに今すぐAIを導入することの経済的合理性を強く主張している。査読者らの見積もりによると、GeneBench-Proの典型的な課題を人間の専門家が完了するには約20〜40時間かかる。時給を控えめに200ドル（約3万2,200円、1ドル=161円換算）と仮定すると、1つの課題に対する人件費は数千ドル（約数十万円、1ドル=161円換算）に達する。これに対し、現在のAIエージェントの推論コストは1課題あたりわずか数ドル（約数百円、1ドル=161円換算）にすぎない。

この経済的格差は非常に大きいため、部分的な自動化（AIが確実に解決できる部分を処理し、残りを人間の専門家にエスカレーションする）であっても、ハイスループットな研究パイプラインにおいて大きな価値を生み出す可能性がある。UCLAの人間遺伝学博士課程に在籍するジェニファー・グランドマン（Jennifer Grundman）氏は、この価値提案を明確に表現している。同氏によると、GeneBench-Proの課題で優れたパフォーマンスを示すモデルは、研究者が正しいワークフローを決定し、データを探索するのを支援できるため、研究のペース、徹底性、および再現性を大幅に向上させる可能性があるという。

■ベンチマークの「飽和」が創薬にもたらす意味

OpenAIは、現在のペースで改善が進めば、2026年末までにGeneBench-Proが「飽和」（最良のモデルがほぼ完璧な性能に達すること）に達する可能性があるとしている。このスケジュールは野心的だが、最初のGeneBenchが構築されて以来、最高合格率が5%未満から31.5%へと上昇したペースを考えれば一貫性がある。

もしモデルがこのベンチマークで飽和状態に近づけば、創薬、ゲノミクス、臨床研究への影響は極めて大きい。医薬品の標的優先順位付けにおいて、人間の遺伝学的証拠はすでに中心的な役割を果たしており、遺伝学的裏付けのあるメカニズムは、承認された治療法につながる可能性が大幅に高くなる。現在、バイオバンク規模のデータセットによって、分子データ、表現型データ、健康記録データがかつてない広さで結びついている。制限要因は、データの生成から、それを実用的な洞察に変換することへと移行している。GeneBench-Proが測定するような複数ステップの分析を高い信頼性で実行できるAIシステムは、生物学的観察から治療候補の特定までの期間を、人間だけのチームでは追いつけない方法で短縮する可能性がある。

OpenAIは、Hugging Face上でGeneBench-Proを代表する10の課題を完全にオープンソース化し、それらを閲覧できるインタラクティブなインターフェースを提供している。完全な技術論文はOpenAIのウェブサイトで公開されている。

■注目ポイントQ&A

●GeneBench-Proとは何ですか？従来の生物学向けAIベンチマークと何が違いますか？

GeneBench-Proは、OpenAIが2026年6月30日にリリースした129の課題からなる研究レベル of ベンチマークです。知識の想起や単一ステップの推論ではなく、実際の計算生物学者が行うような、複数ステップにわたる分析的判断力をテストします。技術的な特徴として、完全に既知の因果構造から合成データを生成している点が挙げられます。これにより、従来の長期的なベンチマークの弱点であった「採点者の主観や好みに左右される評価」を排除し、検証済みの正解（グラウンドトゥルース）に対する確定的な採点を可能にしています。課題は統計遺伝学、がんゲノミクス、薬物ゲノミクス、法医遺伝学を含む10の領域をカバーしています。

●最先端のAIモデルが、計算生物学の研究タスクの大部分で失敗するのはなぜですか？

研究では「気づきから行動へのギャップ（noticing-to-acting gap）」と呼ばれる具体的な失敗モードが指摘されています。モデルは、データの不整合や品質管理の失敗、交絡因子といった局所的な診断シグナルを特定（気づく）することはできますが、その観察結果を下流の正しい分析決定に反映（行動）させることができません。そのため、誤った推定量を選択したり、当初は妥当に見えたが誤っている分析経路に固執し続けたりします。これは知識の想起能力とは異なり、どの手法が存在するかを知っていても、データが実際にどの手法を必要としているかを正しく判断できないという課題です。

●現在のような低い正解率でも、AIはゲノミクスや創薬の分野で価値を提供できますか？

OpenAIの経済分析によれば、限定的ながらも価値を提供できるとされています。人間の専門家が1つの課題を完了するには約20〜40時間かかり、時給を約200ドル（約3万2,200円、1ドル=161円換算）とすると、数千ドル（約数十万円、1ドル=161円換算）のコストがかかります。これに対し、AIの推論コストは1課題あたりわずか数ドル（約数百円、1ドル=161円換算）です。AIが確実に処理できるタスクを部分的に自動化し、残りを人間の専門家が引き継ぐ形にすることで、ハイスループットな研究パイプラインにおいて測定可能な価値を生み出すことができます。重要なのは、AIの判断が信頼できる領域と、人間の監視が必須である領域を正確に把握することです。

●OpenAIがベンチマーク作成者であり、かつリードするモデルの開発者でもあるという点を、研究者はどう解釈すべきですか？

独立した検証結果が出るまでは、適切な警戒感を持って解釈すべきです。OpenAIは開発段階で自社の最先端モデルを使用してベンチマークを強化しており、同社自身もこの利益相反の可能性を明示的に認めています。第三者評価機関であるArtificial Analysisによる50問のサブセットを用いた独立評価が計画されていますが、本記事の執筆時点ではまだ公開されていません。それまでは、公開されているリーダーボードは、ベンチマークとトップモデルの双方を開発した同一組織による内部評価を反映したものにすぎません。

元記事: OpenAI Genomics Benchmark: AI Judgment Gap Exposed in Research-Grade Tasks