AI音声アシスタントがテキストから音声に変換して「発話する」仕組みを「音声合成」と呼んでいるが、この領域の進化も目覚ましいものがある。
以前、「「人間の喋り声と見分けつかなくね?」 アップル「Siri」の音声合成品質が向上」でApple Siriの音声合成の改善について紹介したが、今回は、Google傘下のDeepMindが開発した音声合成技術について紹介する。
DeepMindのWaveNet
DeepMindブログにて、新しい音声合成システムのWaveNetが、最新版のGoogle Assistantに搭載されると発表された。

WaveNetとは、今までの技術にくらべてよりリアルで鮮明な音声を生成するため、新しい深層ニューラルネットワークを使った音声合成のシステム。開発当初はこの処理に時間がかかっており実用的ではなかったが、1年間かけてシステムを大幅に高速化・高品質化させたという。これにより実用できるようになり、英語・日本語のGoogle Assistantの音声に実装されたという発表につながったわけだ。

初期のプロトタイプに比べて1,000倍高速化された。結果、1秒のスピーチを作成するにわずか50ミリ秒しかからないという。
WaveNetのサンプル音声を聴いてみよう
英語、日本語それぞれWaveNetではないもの、WaveNetによるものを聴き比べてみればその差は誰もがわかるはずだ。
英語
WaveNetによる音声合成
日本語
WaveNetによる音声合成
僕はこう思った:
日本語版Google Homeを使うのが楽しみになりますね!