Google、「Gemini 3.5 Flash」に画面操作機能をネイティブ統合 検索やマップとの同時連携が可能に

2026年6月26日 17:58

Googleは、AIエージェントが画面を認識して操作する「computer use(コンピュータ操作)」機能を、軽量・高速モデル「Gemini 3.5 Flash」にネイティブツールとして統合したと発表した。これにより、開発者は単一のモデル内で、Web検索やGoogleマップの利用と画面操作をシームレスに組み合わせたエージェントを構築できるようになる。本機能はGemini APIおよびGemini Enterprise Agent Platformを通じて提供される。

■画面操作機能が「Gemini 3.5 Flash」にネイティブ統合

Googleは現地時間2026年6月24日、AIエージェントが画面を見てクリックや入力などの操作を行う「computer use」機能を、Gemini 3.5 Flashの組み込みツールとして提供開始したと発表した。開発者はGemini APIやGemini Enterprise Agent Platformを通じて利用できる。

従来、この機能は2025年10月に公開されたスタンドアロンの「Gemini 2.5 computer use」モデルでのみ利用可能だった。今回の統合により、開発者が関数呼び出し(function calling)やGoogle検索(Search grounding)、Googleマップの連携に利用しているのと同じモデル内で、画面操作機能が直接利用可能になる。これにより、単一のGemini 3.5 Flashエージェントが、複数のモデル間でリクエストをルーティングすることなく、画面を認識し、検索で情報を調べ、マップと対話することが可能になった。

Google DeepMindのプロダクトマネージャーであるマテオ・キロス(Mateo Quiros)氏の発表によると、この統合は実用的なエンタープライズ向け自動化エージェントの構築に向けた次なるステップと位置づけられている。主な用途として、継続的なソフトウェアテストや、複数ステップにわたるナレッジワーク、GUI操作を伴うワークフローなどが想定されている。

■開発の簡素化と「思考プロセス」の可視化

これまで、画面操作と他のGemini機能を組み合わせるには、画面操作用と言語処理用の複数モデルを組み合わせる複雑なシステムを構築するか、検索やマップが使えないスタンドアロンモデルの制限を受け入れるしかなかった。ネイティブ統合により、開発者はWeb検索や関数呼び出しと同様に、単一のツールパラメータとして画面操作を呼び出せるようになる。Gemini 3.5 Flashはブラウザ、モバイル、デスクトップ環境をサポートする。

画面操作は「観察・思考・行動(observe-think-act)」のサイクルで動作する。アプリケーションが画面のスクリーンショットをAPIに送信し、モデルがピクセルデータを解析してボタンやテキストフィールドを識別、次の最適なアクション(特定の座標へのクリック、キー入力、スクロールなど)を構造化コマンドとして出力する。アプリケーションがそのコマンドを実行し、新しいスクリーンショットを撮影して再度モデルに送るというサイクルを繰り返す。

Gemini 3.5 Flashでは、各アクションのレスポンスに「意図(intent)」フィールドが追加された。これにより、モデルがなぜその操作を選択したのか(例:「目的地を入力するために検索ボックスをクリックする」など)が自然言語で示され、デバッグが容易になる。また、画面サイズに応じた座標の自動スケーリング機能も備わっている。

■競合モデルとのコスト・性能比較

単一モデルへの統合は、開発の複雑さを大幅に軽減する。Googleが挙げた初期のエンタープライズ顧客には、Browserbase、Browser Use、UiPathなどが含まれる。

コスト面において、Gemini 3.5 Flashは入力100万トークンあたり1.50ドル(約243円、1ドル=162円換算)、出力100万トークンあたり9ドル(約1,458円)に設定されている。これは、同等の画面操作性能を持つとされる競合の「GPT-5.5」(入力5ドル(約810円)、出力30ドル(約4,860円))の約3分の1の価格であり、大規模なエージェント運用において大きなコストメリットとなる。

コンピュータ操作の標準ベンチマーク「OSWorld-Verified」において、Gemini 3.5 Flashのスコアは78.4点であり、現在リストされている16モデル中5位に位置する。競合のGPT-5.5は78.7点で4位となっている。前世代のGemini 3(65.1点)からは13.3ポイント向上した。

ただし、現在の首位は「Claude Fable 5」の85.0%(2026年6月12日に米政府の輸出規制指令により提供一時停止)で、実質的な最高性能は「Claude Opus 4.8」の83.4%である。また、OSWorld-Verifiedのスコアはすべてベンダーによる自己申告であり、第三者による独立した検証は行われていない点に留意する必要がある。

■プロンプトインジェクション対策と技術的限界

画面操作エージェントは、閲覧したWebページ等に埋め込まれた悪意ある指示によって乗っ取られる「プロンプトインジェクション」のリスクに直面する。OWASP(オープンWebアプリケーションセキュリティプロジェクト)は、これをLLMアプリケーションにおける最大のセキュリティリスクに分類している。

Googleはこれに対し、3つのレイヤーで対策を講じている。モデルレベルでは、訓練時に対抗訓練(adversarial training)を実施。エンタープライズレベルでは、機密性の高いアクション実行前のユーザー確認や、インジェクション検出時のタスク自動終了機能(enable_prompt_injection_detection: true)を提供。デプロイレベルでは、隔離されたサンドボックス環境での実行や、人間の介入(human-in-the-loop)を推奨している。

英国国家サイバーセキュリティセンター(NCSC)が2023年に指摘したように、プロンプトインジェクションに対する確実な緩和策は存在しないため、このような多層防御(defense-in-depth)のアプローチが現実的とされる。

また、技術的な限界として「UIドリフト」が挙げられる。画面のレイアウトが動的に変化すると、モデルが予測したピクセル座標が無効になり、処理が失敗する。Googleの公式ドキュメントでも、重要な意思決定や機密データの処理、エラー修正が不可能な状況での使用は推奨されていない。

■注目ポイントQ&A

●Geminiのコンピュータ操作機能はどのように動作しますか?

画面のスクリーンショットとタスクの目標をGemini APIに送信し、モデルが画像内のUI要素を分析して、クリックやキー入力などの具体的なコマンドを返します。アプリケーションがそのコマンドを実行し、新しいスクリーンショットを撮影して再度モデルに送るというサイクルを繰り返します。Gemini 3.5 Flashでは、操作の理由を説明する「意図」フィールドも追加されています。

●エンタープライズ環境での導入において、セキュリティは確保されていますか?

Googleは、モデルレベルの対抗訓練、機密アクション前のユーザー確認、インジェクション検出時の自動終了機能、サンドボックス環境の推奨など、多層防御のアプローチを採用しています。しかし、Webコンテンツに埋め込まれた悪意ある指示によるプロンプトインジェクションは業界全体で未解決の問題であり、Googleも重要な意思決定や機密データの処理に人間による監視なしで使用することは推奨していません。

●Gemini 3.5 FlashとGPT-5.5の性能やコストの違いは何ですか?

ベンチマーク「OSWorld-Verified」において、Gemini 3.5 Flashのスコアは78.4点、GPT-5.5は78.7点と、性能差はわずか0.3ポイントです。一方、価格面ではGemini 3.5 Flashが入力100万トークンあたり1.50ドル(約243円)、出力9ドル(約1,458円)であるのに対し、GPT-5.5は入力5ドル(約810円)、出力30ドル(約4,860円)となっており、Gemini 3.5 Flashが約3分の1のコストで利用できます。

●従来のモデルと比較して、何ができるようになりましたか?

従来のGemini 2.5の画面操作モデルはスタンドアロンであり、画面操作中にGoogle検索やマップ、カスタム関数呼び出しを同時に利用できませんでした。Gemini 3.5 Flashへのネイティブ統合により、これらすべての機能を単一のモデルコンテキスト内で組み合わせて実行できるようになり、開発の複雑さが大幅に軽減されました。

元記事: Gemini Computer Use Baked Into Gemini 3.5 Flash: Screen Control Now Pairs With Search and Maps

関連記事

最新記事