【日本語デモ動画アリ】Googleがリアルタイム音声翻訳モデルを発表 遂に言語の壁がなくなりそう「Gemini 3.5 Live Translate」

【日本語デモ動画アリ】Googleがリアルタイム音声翻訳モデルを発表 遂に言語の壁がなくなりそう「Gemini 3.5 Live Translate」
  • 【日本語デモ動画アリ】Googleがリアルタイム音声翻訳モデルを発表 遂に言語の壁がなくなりそう「Gemini 3.5 Live Translate」
  • Googleがリアルタイム音声翻訳モデル「Gemini 3.5 Live Translate」を発表 70以上の言語を自動検出
  • Googleがリアルタイム音声翻訳モデル「Gemini 3.5 Live Translate」を発表 70以上の言語を自動検出

Googleは米国時間2026年6月9日、リアルタイム音声対訳に向けた最新音声モデル「Gemini 3.5 Live Translate」のリリースを発表した。

Googleの翻訳サービスは20年前に機械学習の実験として始まり、現在では毎月数十億ユーザーのために1兆語以上を翻訳するまでに成長している。

リアルタイム翻訳の仕組みと特徴

Gemini 3.5 Live Translateは70以上の言語を自動検出し、話者のイントネーション、テンポ、ピッチを維持したスムーズな翻訳音声を生成する。

従来のターンバイターン方式とは異なり、音声を継続的に生成しながら品質向上のためのコンテキスト待機と素早い翻訳のバランスを取る設計だ。

話者からわずか数秒の遅延で、不自然な一時停止のない滑らかな音声を実現。また、ノイズへの高い耐性により、周囲が騒がしい環境でも安定して動作する。

下記の動画デモの中盤で、ほぼリアルタイムでの日本語翻訳(通訳)機能が紹介されている。

Gemini Live APIの活用で、Agora、CJ ENM、LiveKit、Pipecat、Vision Agentsなど複数のデベロッパープラットフォームは、開発者が音声翻訳アプリを容易に構築およびデプロイできるようにする。

多言語通話・会議・授業・配信などのライブ通訳への活用が想定されており、Grabでは乗車時のドライバーと乗客間のリアルタイム多言語コミュニケーション実現に向けてテストを進めている。同社のユーザーは毎月1,000万回以上の音声通話を行っている。

展開プラットフォームと新機能

提供形態は3つに分かれる。

  1. 開発者向け:Gemini Live APIおよびGoogle AI Studioを通じてパブリックプレビューで提供

  2. エンタープライズ向け:Google Meetにおいて今月よりプライベートプレビューを開始し、対応言語を従来の5言語から70以上に拡大、1つの会議で2,000以上の言語の組み合わせが可能

  3. すべてのユーザー向け:AndroidおよびiOSのGoogle翻訳アプリでも世界中に順次展開 

    Androidユーザー向けには新たに「リスニング モード」を提供し、ヘッドホン不要でスマートフォンのイヤピースから翻訳音声を直接聞くことができる。

SynthIDによる電子透かし

モデルが生成する全音声にはSynthIDによる電子透かしが埋め込まれる。

動画はこちら

この感知できない電子透かしは音声出力に直接組み込まれており、AI生成コンテンツの検出可能性を維持し、誤情報防止に貢献する。

《ロボスタ編集部》

関連タグ

ロボスタ編集部

ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

ニュースレター配信中!無料会員登録をしていただくと、定期的に配信されるニュースレターを受け取ることができます。また会員限定の記事を閲覧することも可能になります。

編集部おすすめの記事

特集