GoogleのGemini 3.5「ライブ翻訳」、声の個性を保ちながら70言語以上をリアルタイム翻訳——全端末への展開はこれから

2026年6月12日 23:21

※この記事はTech Timesから提供を受けた「Google Gemini Live Translate Keeps Your Voice While Speaking Another Language」を日本向けに翻訳・編集したものです。

Googleは6月9日、Gemini 3.5を活用したリアルタイム音声翻訳機能「Live Translate（ライブ翻訳）」を発表した。70言語以上を対象に、話者の抑揚・テンポ・声質を保持した形で翻訳音声を生成することを目指す機能だ。2026 FIFAワールドカップが6月11日に開幕し、多言語環境が一気に広がるタイミングでの発表となるが、Google翻訳でのグローバルロールアウト、Google Meetへのエンタープライズプレビュー提供、Pixelデバイスへの統合は今後数か月にわたる段階的な展開が予定されており、すべての利用者がすぐに使えるわけではない。

■Gemini 3.5ライブ翻訳とは何か

従来の音声翻訳は、発話を一度テキストに変換し、そのテキストを翻訳したうえで汎用の音声合成（TTS）エンジンで読み上げる方式が一般的だった。この方式では言葉の意味を伝えることはできても、話者固有の間の取り方・強調・リズム・感情といった要素が失われやすい。

Googleが6月9日に発表したGemini 3.5 Live Translateは、音声から音声に直接変換する「スピーチ・トゥ・スピーチ」方式を採用し、これらの特性を保持することを目指している。発表時の情報によれば、システムは音声をリアルタイムで継続的に翻訳しながら、話者の抑揚・テンポ・ピッチを維持しようとする。

Google自身も、この機能には限界があることを認めている。Gemini 3.5 Audioのモデルカードには「声の再現が常に一貫しているわけではない」と明記されており、ユーザーは「声質を保持した翻訳」を期待できるものの、話者の声を毎回正確に再現することが保証されるわけではない。

■なぜリアルタイム翻訳はむずかしいのか

リアルタイム翻訳には本質的な遅延（レイテンシー）問題がある。単語ごとに即座に翻訳しようとすると誤訳が増えやすく、一方で文全体を待ってから翻訳すると会話の流れが途切れてしまう。

Gemini 3.5はストリーミング音声を継続的に処理しながら、文章の意味把握に必要な文脈を保持し、最小限の遅延で翻訳音声を生成するとされる。「即時出力」と「文意の正確な把握」のバランスを取るアプローチだ。

また、Googleはこのシステムが騒音環境への対応力も改善されたと説明している。空港・レストラン・駅・スタジアム・繁華街といった、クリアな音声が期待できない環境でこそ発揮される能力だという。

■翻訳音声にはAI生成を示す「SynthID」透かしを付与

声質を保持した翻訳は消費者にとって便利である一方、安全上の懸念も生む。生成された翻訳音声が本物の声に近いほど、「話者が実際に発言した音声」と誤認されるリスクが高まるためだ。

Googleはこの問題に対処するため、すべてのライブ翻訳出力に「SynthID（シンスID）」の透かしを埋め込むとしている。SynthIDはGoogleが開発したAI生成コンテンツの識別システムで、人間の耳には聞こえない透かしを音声データに埋め込み、対応する検出ツールで後からAI生成であることを確認できるようにする技術だ。

ただし、SynthIDが翻訳音声の文脈外での再利用を防ぐわけではなく、また聴衆が検出ツールを持っているとも限らない。あくまで「技術的な由来証明」であり、あらゆる悪用を防ぐ仕組みではない。

Googleが声の個性を他言語に移植する技術を提供する以上、「生成された音声なのか、話者が直接発話したものなのか」を明示する開示とユーザーの同意が重要になる、と報道は指摘する。

■FIFAワールドカップが実証試験場に

2026 FIFAワールドカップは6月11日に開幕し、48チームが参加してカナダ・メキシコ・アメリカの3か国で試合が行われる。多言語環境が一気に生まれる大規模イベントであり、ライブ翻訳機能の即時的なユースケースとなりうる場だ。

交通案内・ホテルチェックイン・食事の注文・緊急情報の受け取り・サポーター同士の会話など、音声翻訳が実用的な場面は多い。テキスト翻訳と異なり、端末を相手に渡す動作なしに会話を継続できる点が大きな利点だ。

一方で、このタイミングは機能の現状の制限も浮き彫りにする。Google翻訳でのグローバルロールアウト、Google Meetへのエンタープライズプレビュー提供、Pixelデバイスへの統合は今後数か月かけて段階的に進む予定であり、発表の時点ですべてのワールドカップ旅行者がすぐに使えるわけではない。実際の展開範囲・対応デバイス・ネットワーク環境・混雑した環境での精度といった要素が、ライブ翻訳が実用的なツールになるかどうかを左右する。

■3つの環境にまたがる展開：翻訳のあり方が変わりつつある

Googleはライブ翻訳を三つの環境に順次展開する計画だ。Google翻訳は旅行や日常会話向けに広く一般ユーザーへ提供、Pixelデバイスへの統合は通話や対面会話でのアクセシビリティ向上を見込み、Google Meetへのエンタープライズプレビューは業務・教育・サポート・国際イベントへの活用を想定している。

技術的な変化として注目すべきは、翻訳が「ライブな会話インターフェース」へと進化しつつある点だ。従来は「言葉が正確かどうか」だけが問われていた。声質を保持した翻訳では、さらに「生成された声の届け方が話者の感情や意図を忠実に反映しているか」という問いも生まれる。

Gemini 3.5ライブ翻訳は、言語をまたいだ会話をより自然に感じさせる可能性を持っている。その長期的な価値は、Googleが話者の個性を保持しながら、どの音声が直接発話されたものでどれがAI生成なのかについての混乱を招かずに提供できるかにかかっているだろう。

■注目ポイントQ&A

●Google Gemini 3.5ライブ翻訳とはどのような機能か？

Gemini 3.5 Live Translateは、70言語以上をリアルタイムで音声翻訳するGoogleのシステムです。話者の抑揚・テンポ・ピッチ・声質の特性を翻訳音声に保持することを目指しています。

●ライブ翻訳は話者の声を完全に再現するのか？

Googleはシステムが声質を保持すると説明していますが、モデルカードには「声の再現が常に一貫しているわけではない」と明記されています。「声質を保持した翻訳」は期待できますが、毎回完全に同一の声が再現されることは保証されていません。

●なぜライブ翻訳にSynthIDが使われるのか？

SynthIDは翻訳された音声にAI生成であることを示す知覚できない透かしを埋め込み、対応ツールで後から確認できるようにするものです。技術的な由来証明を提供しますが、あらゆる悪用を防ぐ仕組みではありません。

●Gemini 3.5ライブ翻訳はいつから使えるのか？

Google翻訳でのグローバルロールアウトが進んでおり、Google Meetにはエンタープライズプレビューが提供されています。Pixelデバイスへの統合は今後数か月以内に計画されています。製品・デバイス・言語・地域によって提供時期が異なる可能性があります。