【日本語デモ動画アリ】Googleがリアルタイム音声翻訳モデルを発表　遂に言語の壁がなくなりそう「Gemini 3.5 Live Translate」

AI 音声認識

2026.6.12 Fri 15:30

Googleがリアルタイム音声翻訳モデル「Gemini 3.5 Live Translate」を発表 70以上の言語を自動検出

Googleは米国時間2026年6月9日、リアルタイム音声対訳に向けた最新音声モデル「Gemini 3.5 Live Translate」のリリースを発表した。

Googleの翻訳サービスは20年前に機械学習の実験として始まり、現在では毎月数十億ユーザーのために1兆語以上を翻訳するまでに成長している。

リアルタイム翻訳の仕組みと特徴

Gemini 3.5 Live Translateは70以上の言語を自動検出し、話者のイントネーション、テンポ、ピッチを維持したスムーズな翻訳音声を生成する。

従来のターンバイターン方式とは異なり、音声を継続的に生成しながら品質向上のためのコンテキスト待機と素早い翻訳のバランスを取る設計だ。

話者からわずか数秒の遅延で、不自然な一時停止のない滑らかな音声を実現。また、ノイズへの高い耐性により、周囲が騒がしい環境でも安定して動作する。

下記の動画デモの中盤で、ほぼリアルタイムでの日本語翻訳（通訳）機能が紹介されている。

Gemini Live APIの活用で、Agora、CJ ENM、LiveKit、Pipecat、Vision Agentsなど複数のデベロッパープラットフォームは、開発者が音声翻訳アプリを容易に構築およびデプロイできるようにする。

多言語通話・会議・授業・配信などのライブ通訳への活用が想定されており、Grabでは乗車時のドライバーと乗客間のリアルタイム多言語コミュニケーション実現に向けてテストを進めている。同社のユーザーは毎月1,000万回以上の音声通話を行っている。

展開プラットフォームと新機能

提供形態は3つに分かれる。

開発者向け:Gemini Live APIおよびGoogle AI Studioを通じてパブリックプレビューで提供
エンタープライズ向け:Google Meetにおいて今月よりプライベートプレビューを開始し、対応言語を従来の5言語から70以上に拡大、1つの会議で2,000以上の言語の組み合わせが可能
すべてのユーザー向け：AndroidおよびiOSのGoogle翻訳アプリでも世界中に順次展開　
Androidユーザー向けには新たに「リスニングモード」を提供し、ヘッドホン不要でスマートフォンのイヤピースから翻訳音声を直接聞くことができる。

SynthIDによる電子透かし

モデルが生成する全音声にはSynthIDによる電子透かしが埋め込まれる。

動画はこちら

この感知できない電子透かしは音声出力に直接組み込まれており、AI生成コンテンツの検出可能性を維持し、誤情報防止に貢献する。

オンラインセミナー「自律搬送ロボット「カチャカプロ」が売れる理由」を開催

Preferred Roboticsは、小型AMR「カチャカプロ」で、自律搬送ロボット（AMR）の国内市場において台数シェア1位を獲得しました（富士経済調べ）。
ロボスタでは、「カチャカ」シリーズで注目を集めるPreferred Roboticsの代表取締役CEO、礒部達氏をお迎えし、オンラインセミナー「自律搬送ロボット「カチャカプロ」が売れる理由～AMRシェア1位を支える設計思想と開発戦略」を開催します。
社会で実際に役立つロボットの開発、そして“使われる製品”を実現する設計思想や量産・普及の実像に迫ります。

オンラインセミナー「自律搬送ロボット「カチャカプロ」が売れる理由～AMRシェア1位を支える設計思想と開発戦略」Preferred Robotics

先着50名様を無料でご招待します。詳しくはこちら。

《ロボスタ編集部》

関連タグ

ロボスタ編集部

ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

ニュースレター配信中！無料会員登録をしていただくと、定期的に配信されるニュースレターを受け取ることができます。また会員限定の記事を閲覧することも可能になります。

編集部おすすめの記事

特集

Gemini

リアルタイム翻訳

翻訳

AI