Amazo Alexaの発話システムがSSMLに対応!より自然な発話制御が可能に

Amazon公式のAlexa Blogにて、Alexa発話がSSMLに対応し、英国とドイツで利用可能になったことが発表された。




Alexa SSMLとは?

Alexaで使われているスピーチコン(Speechcons)と呼ぶ発話システムが、SSML(Speech Synthesis Markup Language)をサポートするようになった。SSMLは標準化された音声合成マークアップ言語であり、発話を制御する方法を記述するための方式だ。


SSMLに対応したことで、単調にテキストを読み上げさせるだけではなく、間を持たせたり、イントネーションを変更したりなど、Alexaスキル開発者が自由に発声を制御できるようになる。




SSMLの記述例

SSMLはWEBページの記述で使われるHTMLにもよく似ている。実際にスキル開発時、応答にSSMLを使った例を紹介したい。SSMLの記述として、<say-as>で始まるタグを使って制御する形だ。


<speak>
 Here is an example of a speechcon.
 <say-as interpret-as=”interjection”>ping!</say-as>
</speak>

感嘆の意味を込めた形でPing!と発声する例。


<speak>
 Here is an example of a speechcon.
 <break time=”1s”/>
 <say-as interpret-as=”interjection”>ping!</say-as>
 <break time=”1s”/>
 Now wasn’t that cool.
</speak>

こちらは、発声の途中にブレークタイムとして1秒の間をもたせる場合の記述例だ。



Photo: robot start inc.




今回Alexa SSML機能一覧

Speech Synthesis Markup Language (SSML) ReferenceにてSSMLリファレンスが公開されているので興味のある方はご覧いただきたい。




今回Alexa SSMLで追加された機能

今回のアップデートで、スキル開発者は5つの新しいAlexa SSML追加機能が使えるようになった。



Whispers

<amazon:effect name = “whispered”>と記述することでささやくような発話を行う。



Expletive beeps

<say-as interpretation as = “expletive”>と記述することで耳障りなビープ音を出力する。



Sub

<sub>タグで指定された単語または句を、別の単語または句として発音する。



Emphasis

<emphasis>タグを使うことで話す速度、音量が強調される。



Prosody

<prosody>タグで、発話のレート、ピッチ、ボリュームを制御できる。


これらの新機能によりAmazo Echo向けのAlexaスキルがより聞き取りやすく自然なものになることを期待したい。


僕はこう思った:

音声認識領域の進化だけでなく、音声合成領域でも進化が進んでいます。SSMLはシンプルな記述方法なので他社も採用して、これがスタンダードになればスキル開発者は機種ごとに発声で頭を悩ます必要がなくなり、楽になるのではないかと思います。




ABOUT THE AUTHOR / 

中橋 義博
中橋 義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。