AI音声アシスタントがテキストから音声に変換して「発話する」仕組みを「音声合成」と呼んでいるが、この領域に新しい技術がまた一つ登場した。
今回は、Googleが自社ブログにて発表した、まるで人間のような自然な音声合成を実現する技術「Tacotron 2」を紹介する。
Tacotron 2とは?

もともとGoogleが使っていたTacotronやWaveNetなどの技術と取り入れつつ、新しいシステム「Tacotron 2」を完成させたという。
いままでのアプローチと異なる点は、複雑な言語機能や音響機能を入力として使用せず、スピーチ例とそれに対応するテキストだけを使ってニューラルネットワークを訓練することにある。
詳しいことは論文を参照いただくとして、ここでは以下音声サンプルでそのリアルさを体感してみてほしい。
音声合成サンプル
Tacotron 2を使って生成された、さまざまなバリエーションのサンプル音声集は以下で公開されている。
Audio samples from “Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions”
サンプルの中で興味深いのは、人間とTacotron 2が同じ文章を読み上げたサンプルだ。聴き比べて、どちらが人間で、どちらがTacotron 2かわかるだろうか?
“That girl did a video about Star Wars lipstick.”
| 1 | |
| 2 |
“She earned a doctorate in sociology at Columbia University.”
| 1 | |
| 2 |
“George Washington was the first President of the United States.”
| 1 | |
| 2 |
“I’m too busy for romance.”
| 1 | |
| 2 |
もはや普通に聴き比べても区別はつかないレベルにあるといってもいいのではないだろうか。
僕はこう思った:
これらの技術がいずれ日本語Google Assistantに搭載されるのが楽しみですね。



