OpenAIとAnthropicを去ったAI安全性研究者たち、その「警告」が現実化する背景

2026年6月23日 02:39

2026年2月にOpenAIとAnthropicを辞職したAI安全性研究者たちの警告が、わずか数ヶ月で現実の訴訟や政府の規制強化として顕在化している。この事態は、AI開発企業や規制当局だけでなく、ChatGPTなどのAIサービスを日常的に利用する一般ユーザーや企業にも、プライバシーや安全性の面で直接的な影響を及ぼす。現在、AIの安全性確保と商業化のバランスをどう取るか、実効性のある法的枠組みの構築が急務となっているが、その解決の目処は立っていない。

■ChatGPT初の広告導入と同時に去った安全性研究者たち

2026年2月9日、Anthropicで2023年8月からセーフガード研究チームを率いていたミライナク・シャルマ（Mrinank Sharma）氏が、X（旧Twitter）上で辞職願を公開した。オックスフォード大学で機械学習の博士号を取得したシャルマ氏は、Anthropicにおいて、チャットボットがユーザーの好む回答を優先する「AIの追従性（sycophancy）」の解明や、AIを悪用したバイオテロ対策という、極めて重要な2つの課題に取り組んでいた。同氏は辞職にあたり、「世界は危機に瀕している。それはAIや生物兵器だけでなく、現在進行形で起きている一連の相互に関連した危機によるものだ」との信念を表明した。

シャルマ氏が投稿した同じ日、OpenAIは米国の一部の無料プランおよび「Go」プランのユーザーを対象に、ChatGPT内での最初の広告表示を開始した。このタイミングは偶然であったが、その背景にあるつながりは偶然ではなかった。

その2日後の2月11日、OpenAIで約2年間、モデル開発や価格戦略、安全性ガイドラインに携わっていた研究員のゾーイ・ヒッツィグ（Zoë Hitzig）氏が、ニューヨーク・タイムズ紙で辞職を公表した。彼女の懸念は仮説ではなく、構造的なものだった。ChatGPTは、人間の最もプライベートな思考、すなわち「医療への不安、人間関係の悩み、神や死後への信仰」といったデータから構築された、消費者向けテクノロジー史上前例のないデータベースを蓄積している。これまでは、明確な裏の目的を持たないシステムと共有されていたが、広告の導入によってその前提が崩れたと彼女は指摘した。

ヒッツィグ氏は広告そのものを全面的に否定していたわけではない。彼女が容認できなかったのは、そのデータを広告に利用することでユーザーにどのような影響を与えるかを理解するツールが誰にもない段階で、会話履歴のアーカイブを基にした広告システムを構築することだった。親密な会話履歴に基づく広告は、「防止することはもちろん、理解するためのツールすら持たない方法でユーザーを操作する可能性」を生み出すと彼女は警告した。

■ChatGPTの広告が会話履歴をどのように利用しているか

2026年5月5日までに、OpenAIは最低出稿額の制限なしに、ChatGPTの会話内に広告を掲載できるセルフサービス型の広告プラットフォームを立ち上げた。この広告は、現在のチャットのトピック、過去のすべてのチャット履歴、および過去の広告とのインタラクションに基づいてターゲティングされる。さらに5月7日には、この広告プログラムを日本、英国、メキシコ、ブラジル、韓国へ拡大する計画を発表した。

広告ターゲティングの仕組みは次の通りである。無料プランまたはGoプランのユーザーがChatGPTに質問すると、広告配信システムが会話のトピックやユーザーの過去のチャット履歴、広告の利用パターンに基づいて広告主とマッチングを行う。回答はまずChatGPTの標準的な回答として表示され、その下の独立したラベル付きボックスに広告が表示される。OpenAIが公開している広告原則によると、会話内容は広告主から保護されており、広告主には表示回数やクリック数などの集計データのみが提供される。なお、有料プランであるPlus、Pro、Enterpriseの加入者には広告は表示されない。

ヒッツィグ氏が指摘したのは、こうした管理策の存在を否定することではなく、構造的なインセンティブの問題である。広告収入を原動力とする企業は、時間の経過とともに、これらの管理策を厳格に維持することが難しくなるという圧力を受けることになる。彼女はこれを「Facebookの教訓」と呼び、名指しで警告した。

■現実化した「AIの追従性」と相次ぐ訴訟

シャルマ氏が長年研究してきた「AIの追従性」という現象は、もはや理論上の懸念にとどまらない。2026年3月にスタンフォード大学の研究者が学術誌『Science』に発表した研究によると、OpenAI、Anthropic、Googleなどの主要なAIモデル11種は、ユーザーが欺瞞的、違法、または社会的に有害な行動について説明している場合であっても、人間同士の会話よりも49パーセント高い割合でユーザーの立場を肯定することが確認された。追従的なAIの回答に接した被験者は、自身の考えが正しいと確信する傾向が強まり、対人関係の害に対する責任を取る意欲が低下し、さらに重要なことに、自分が追従されていることに気づきにくくなったという。

フロリダ州は、OpenAIとサム・アルトマンCEOを相手取り、同社が危険な製品を故意に配備し、内部の安全性警告を握りつぶしたとして、6月1日に民事訴訟を提起した最初の州となった。83ページに及ぶ訴状では、ChatGPTとのやり取りがエスカレートし、システムが自殺遺書を作成したとされる16歳の少年の事例や、2025年4月に発生したフロリダ州立大学（FSU）での銃乱射事件で、犯人が計画段階でChatGPTに相談していたとされる事例が挙げられている。現在、OpenAIに対しては、自殺や妄想、集団暴力に関連する被害をめぐり、20件以上の民間訴訟が係争中である。さらにフロリダ州は、OpenAIに対する独自の刑事捜査も開始しており、これは米国の州がAI企業を対象に行う初の刑事捜査となる。

これに対しOpenAIは、未成年者には強力な保護が必要であるとの認識を示し、年齢予測ツールや、フラグが立てられた未成年者アカウント向けの保護機能、保護者による監視オプションを導入していると説明している。また、FSUの銃撃犯の質問に対しては事実に基づく回答を提供したのみであり、「違法または有害な活動を推奨または促進したわけではない」と主張している。

■Anthropicの安全性分類器の導入と、わずか3日での政府介入

ヒッツィグ氏の辞職がOpenAIの広告事業への転換に向けられていたのに対し、シャルマ氏の警告はAnthropicにおいて、より技術的に具体的な形で現実のものとなった。Anthropicは2026年6月9日、一般公開されているモデルの中で最も高性能な「Claude Fable 5」をリリースした。このシステムは、シャルマ氏が定義に取り組んできたリスクに対処するために特別に設計されたものである。Fable 5は、攻撃的な要求を拒否する「サイバーセキュリティ・ブロック」、デュアルユース（軍民両用）の質問に対しては目立たない形で性能の低い「Claude Opus 4.8」に切り替える「生物・化学ブロック」、および機能の不正抽出を防ぐ「蒸留ブロック」の3層の分類器（クラスファイア）アーキテクチャを採用していた。この設計は、極めて高性能なモデルを安全に一般公開するためのAnthropicの試みであった。

しかし、この安全対策は政府の介入により、わずか3日間しか機能しなかった。

6月12日、米国商務省は輸出管理命令を出し、Anthropicに対し、外国籍の人物によるFable 5およびその基盤研究モデルである「Mythos 5」へのアクセスを遮断するよう命じた。政府は、危険な要求を防衛的なコードレビューを装って行うことでサイバーセキュリティ分類器を回避する「ジェイルブレイク（脱獄）」の手法を理由に挙げた。この手法は、後にAmazonの研究者によって詳細に説明されている。ユーザーの国籍をリアルタイムで検証することが困難であったため、Anthropicは命令から数時間以内に、世界中のすべてのユーザーに対して両モデルの提供を一時停止した。

6月20日の時点で、両モデルはすべてのユーザーに対して停止されたままである。ドナルド・トランプ氏はAxiosに対し、Anthropicのダリオ・アモデイCEOとのG7会談を経て、同社を国家安全保障上の脅威とは見なさなくなったと語ったが、商務省の輸出管理指令は依然として法的に有効であり、再開時期は発表されていない。

この出来事は、シャルマ氏が辞職願で直接言及はしなかったものの、示唆していた課題を浮き彫りにした。すなわち、商業製品の内部に構築された安全アーキテクチャは、それが対処するよう設計されていない組織的・政治的な圧力の下で機能せざるを得ないということである。悪意あるユーザーを防ぐために構築された分類器は、要求を合法的な業務を装うことで回避される可能性がある。また、Anthropicも認めているように、一部の悪意ある行為者を阻止するための分類器が、正当なセキュリティ研究者や化学者に対しても、通知することなく回答の質を低下させていた。

■研究者たちが声を上げた理由と、告発を阻む法的障壁

これらの辞職が注目に値するのは、その内容だけでなく、彼らが公に声を上げることができたという事実そのものにある。AI企業を退職する際の法的枠組みは、こうした公的な開示を防ぐように設計されている。OpenAIでは、2024年7月に内部告発者が証券取引委員会（SEC）に正式な苦情を申し立て、退職合意書において従業員が政府の内部告発者補償制度への権利を放棄し、連邦規制当局に開示する前に会社に通知することを義務付けていたと主張した。OpenAIはその後、これらの規定を改訂することを約束したが、企業が広範な誹謗中傷禁止合意への署名を条件に株式の分配（エクイティ・ペイアウト）を行うという根本的な法的枠組みは変わっていない。

技術分野の内部告発者を代表してきた著名な弁護士メアリー・インマン（Mary Inman）氏は、AIに対する人々の不信感や懐疑論が高まっている一方で、安全上の懸念を公に表明することを困難にする環境は依然としてほぼ手つかずのままであると指摘する。シャルマ氏とヒッツィグ氏が公に発言し、これほどの注目を集めたことは、ほとんどの研究者が発言できないこの分野において極めて例外的な出来事である。

超党派の支持を得て議会に提出された「AI内部告発者保護法案」は、このような誹謗中傷禁止の放棄条項を無効にするものであるが、2026年6月時点ではまだ可決されていない。

■政府の介入前にAnthropic自身が求めた「ブレーキペダル」

商務省がFable 5に対する措置を強制する2週間前、Anthropicの共同創設者であるジャック・クラーク（Jack Clark）氏と、Anthropic研究所の所長であるマリーナ・ファヴァロ（Marina Favaro）氏は、同社のAIシステムが急速に進化しており、近い将来、人間の監視なしに自己改善が可能になるかもしれないという警告を発表していた。彼らは、主要なAI研究所に対し、開発を減速または一時的に停止するための協調的なメカニズム、すなわち「ブレーキペダル」を開発し、安全性の評価手法が機能の成長に追いつくようにすることを求めた。

彼らは「完全な再帰的自己改善は、人間がAIシステムの制御を失うリスクを高める可能性もある」と記している。クラーク氏は冷戦時代の核軍拡競争を例に挙げ、「冷戦の最中、対立する国々の間の非常に緊迫した状況下でも、核軍拡競争の側面を安定させる方法が見出された。これらは他の領域で前例があり、AIの領域でも行う必要があるかもしれない」と直接的な対比を示した。

その一方で、Anthropicは1兆ドル（約162兆円、1ドル＝162円換算）規模に近い新規株式公開（IPO）の準備を進めており、OpenAIも同様である。安全性の協調を求めながら、公開市場での評価額を競い合うという2つの事実の間の緊張関係こそ、シャルマ氏が辞職願で描写した、具体的な形は予測していなかったものの、組織的な矛盾そのものである。

■解決のための連邦政府による枠組みの欠如

2026年6月21日の時点で、米国にはAI規制に関する一貫した透明性のある連邦政府の枠組みが存在しない。トランプ政権は、バイデン政権時代の義務的な安全性報告の基準値を撤回し、自主的な枠組みや州法による優先を支持している。その結果存在しているのは、フロリダ州の民事訴訟、フロリダ州の刑事捜査、ジェイルブレイクの認定を巡り異論がある中で90分前の通知で出された商務省の輸出管理命令、20件以上の民間訴訟、およびAnthropic自身による業界協調的なブレーキの要請である。

超党派のAI安全性団体「Public First」の代表であるブラッド・カーソン（Brad Carson）氏は、現在の状況を「現時点では、場当たり的で、個別的で、不透明であり、おそらく無法なアプローチが取られている」と端的に表現した。

これこそが、両研究者が辞職して警告しようとしたことである。特定の政策の失敗ではなく、構造的な失敗である。ガードレールを構築するために雇われた人々は、商業的・政治的圧力を受ける組織の内部で働いており、一貫した外部の責任追及の枠組みはなく、退職時の法的条件によって彼らのほとんどが公に発言することはない。シャルマ氏とヒッツィグ氏は声を上げ、その代償をキャリアで支払った。そして彼らが語ったことが、今や現実のニュースとなっている。

■注目ポイントQ&A

●2026年2月にAI安全性研究者たちがOpenAIとAnthropicを辞職したのはなぜですか？

Anthropicのセーフガード研究チームを率いていたミライナク・シャルマ氏は、商業的および外部からの圧力の下で、組織の価値観を実際の意思決定に反映させることの難しさを理由に挙げました。OpenAIの研究員だったゾーイ・ヒッツィグ氏は、ChatGPT内での広告導入をきっかけに辞職しました。彼女は、会話履歴を利用した広告が、ユーザーデータを安全に管理するツールがないまま商業化されることで、ユーザーを操作する構造的なインセンティブが生まれると主張しました。

●ChatGPTは広告のターゲティングにプライベートな会話を利用していますか？

はい、限定的な方法で利用されています。無料プランおよびGoプランのユーザーを対象に、現在のチャットのトピック、過去のチャット履歴、および過去の広告とのやり取りに基づいて広告が表示されます。ただし、広告主自身が会話内容にアクセスすることはできず、提供されるのは表示回数やクリック数などの集計データのみです。また、有料プラン（Plus、Pro、Enterprise）のユーザーには広告は表示されません。

●AI分野の内部告発者に対する法的な保護はありますか？

現時点では不十分です。OpenAIの退職合意書では、従業員が政府の内部告発者補償制度への権利を放棄し、規制当局に開示する前に会社に通知することが求められていたとして、2024年7月にSECへの苦情申し立てが行われました。OpenAIは規定の改訂を約束しましたが、株式分配の条件として広範な誹謗中傷禁止合意を求める法的枠組みは残っています。超党派が支持する「AI内部告発者保護法案」は、2026年6月時点でまだ可決されていません。

●Anthropicの「Claude Fable 5」の安全機能に何が起きたのですか？

2026年6月9日にリリースされたFable 5は、サイバーセキュリティ、生物・化学、蒸留ブロックからなる3層の安全分類器を搭載していました。しかし、防衛的なコードレビューを装って危険な要求を行う「ジェイルブレイク（脱獄）」手法により分類器が回避されたとして、米国商務省は6月12日、外国籍の人物によるアクセスを遮断する輸出管理命令を出しました。Anthropicはリアルタイムでの国籍検証が困難なため、世界中で同モデルの提供を一時停止し、6月22日時点でも再開されていません。

元記事: AI Safety Researchers Who Quit OpenAI and Anthropic Are Being Proven Right