Appleが「Siri」の音声合成の品質向上についての論文を自社サイトで公開した。音声合成とは、喋りたい言葉を発話する能力のことである。もちろん喋らせるだけであれば、どんな音声合成ソフトでもいいかもしれない。しかし、それがより自然に聞こえるようにと考えると話は別だ。イントネーションやスピード、間など微妙な違いで、自然に聞こえたり、不自然に聞こえたりする。
ぜひ聴き比べて欲しい
8月6日、Apple Machine Learning Journalに「Deep Learning for Siri’s Voice: On-device Deep Mixture Density Networks for Hybrid Unit Selection Synthesis」という論文が掲載された。ここでは、いかにAI技術を活用してSiriの音声合成の質が向上したかについて、詳細にまとめられている。

・・・などなど原文は技術者向けの内容であり、非常に難しい話である。
中でも私たちが注目したいのは、その結果、どの程度音声合成の質が向上したかだ。
この論文の後半で、iOS 9、iOS 10、iOS 11での音声合成サンプルが用意されており、向上の様子を確認できる。
実際にサイトに訪れて、新しいSiriの声を聴き比べて欲しい。表現力の違いを体感できるくらい、質が向上していることがわかる。もはや人間の声との違いがわからないレベルだ。
HomePodの最新情報
蛇足ながら、Apple HomePodのセットアップの様子がリークされたので合わせて紹介しておく。
This is how the HomePod setup will look like on an iPhone. pic.twitter.com/SARqsYslL6
— Guilherme Rambo (@_inside) 2017年8月22日
国(言語)の選択、シリアル4桁番号入力、Apple ID表示、「使う部屋の設定」などを行うという。使う場所の設定を行うのは新鮮だ。ただのアンケートではないはずであり、使う場所によって提供する何かが変わってくるはずである。
この「HomePod」に搭載される「Siri」には最新の音声合成が使用されるはずであり、音声合成がより自然になったことはユーザーにとっては嬉しいニュースとなった。
僕はこう思った:
日本ではiPhoneユーザー、Apple Musicユーザーの比率が他国に比べて高いこともあり、HomePodとSiriの今後はとても気になりますね。ちょっとぐらい値段が高くても欲しくなってしまうApple製品の魅力がスマートスピーカーにもあるのか、楽しみです。日本語の音声合成の質も向上していくことでしょう。



