Google Assistant、DeepMind開発「WaveNet」の音声合成を採用!

<p>シェア 0 ツイート 0 はてブ 0</p>

AI音声アシスタントがテキストから音声に変換して「発話する」仕組みを「音声合成」と呼んでいるが、この領域の進化も目覚ましいものがある。

以前、「「人間の喋り声と見分けつかなくね?」 アップル「Siri」の音声合成品質が向上」でApple Siriの音声合成の改善について紹介したが、今回は、Google傘下のDeepMindが開発した音声合成技術について紹介する。



DeepMindのWaveNet

DeepMindブログにて、新しい音声合成システムのWaveNetが、最新版のGoogle Assistantに搭載されると発表された。




WaveNetとは、今までの技術にくらべてよりリアルで鮮明な音声を生成するため、新しい深層ニューラルネットワークを使った音声合成のシステム。開発当初はこの処理に時間がかかっており実用的ではなかったが、1年間かけてシステムを大幅に高速化・高品質化させたという。これにより実用できるようになり、英語・日本語のGoogle Assistantの音声に実装されたという発表につながったわけだ。




初期のプロトタイプに比べて1,000倍高速化された。結果、1秒のスピーチを作成するにわずか50ミリ秒しかからないという。



WaveNetのサンプル音声を聴いてみよう

英語、日本語それぞれWaveNetではないもの、WaveNetによるものを聴き比べてみればその差は誰もがわかるはずだ。


英語
 WaveNetではない音声合成
  

 WaveNetによる音声合成
  


日本語
 WaveNetではない音声合成
  

 WaveNetによる音声合成
  


僕はこう思った:

日本語版Google Homeを使うのが楽しみになりますね!




《中橋 義博》

関連タグ

中橋 義博

中橋 義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。

ニュースレター配信中!無料会員登録をしていただくと、定期的に配信されるニュースレターを受け取ることができます。また会員限定の記事を閲覧することも可能になります。

特集