Googleは米国時間2026年6月9日、リアルタイム音声対訳に向けた最新音声モデル「Gemini 3.5 Live Translate」のリリースを発表した。
Googleの翻訳サービスは20年前に機械学習の実験として始まり、現在では毎月数十億ユーザーのために1兆語以上を翻訳するまでに成長している。
リアルタイム翻訳の仕組みと特徴
Gemini 3.5 Live Translateは70以上の言語を自動検出し、話者のイントネーション、テンポ、ピッチを維持したスムーズな翻訳音声を生成する。
従来のターンバイターン方式とは異なり、音声を継続的に生成しながら品質向上のためのコンテキスト待機と素早い翻訳のバランスを取る設計だ。
話者からわずか数秒の遅延で、不自然な一時停止のない滑らかな音声を実現。また、ノイズへの高い耐性により、周囲が騒がしい環境でも安定して動作する。
Gemini Live APIの活用で、Agora、CJ ENM、LiveKit、Pipecat、Vision Agentsなど複数のデベロッパープラットフォームは、開発者が音声翻訳アプリを容易に構築およびデプロイできるようにする。
多言語通話・会議・授業・配信などのライブ通訳への活用が想定されており、Grabでは乗車時のドライバーと乗客間のリアルタイム多言語コミュニケーション実現に向けてテストを進めている。同社のユーザーは毎月1,000万回以上の音声通話を行っている。
展開プラットフォームと新機能
提供形態は3つに分かれる。
開発者向け:Gemini Live APIおよびGoogle AI Studioを通じてパブリックプレビューで提供
エンタープライズ向け:Google Meetにおいて今月よりプライベートプレビューを開始し、対応言語を従来の5言語から70以上に拡大、1つの会議で2,000以上の言語の組み合わせが可能
すべてのユーザー向け:AndroidおよびiOSのGoogle翻訳アプリでも世界中に順次展開
Androidユーザー向けには新たに「リスニング モード」を提供し、ヘッドホン不要でスマートフォンのイヤピースから翻訳音声を直接聞くことができる。
SynthIDによる電子透かし
モデルが生成する全音声にはSynthIDによる電子透かしが埋め込まれる。

この感知できない電子透かしは音声出力に直接組み込まれており、AI生成コンテンツの検出可能性を維持し、誤情報防止に貢献する。

