Amazon公式のAlexa Blogにて、Alexa発話がSSMLに対応し、英国とドイツで利用可能になったことが発表された。
Alexa SSMLとは?
Alexaで使われているスピーチコン(Speechcons)と呼ぶ発話システムが、SSML(Speech Synthesis Markup Language)をサポートするようになった。SSMLは標準化された音声合成マークアップ言語であり、発話を制御する方法を記述するための方式だ。
SSMLに対応したことで、単調にテキストを読み上げさせるだけではなく、間を持たせたり、イントネーションを変更したりなど、Alexaスキル開発者が自由に発声を制御できるようになる。
SSMLの記述例
SSMLはWEBページの記述で使われるHTMLにもよく似ている。実際にスキル開発時、応答にSSMLを使った例を紹介したい。SSMLの記述として、
Here is an example of a speechcon.
感嘆の意味を込めた形でPing!と発声する例。
Here is an example of a speechcon.
Now wasn’t that cool.
こちらは、発声の途中にブレークタイムとして1秒の間をもたせる場合の記述例だ。

今回Alexa SSML機能一覧
Speech Synthesis Markup Language (SSML) ReferenceにてSSMLリファレンスが公開されているので興味のある方はご覧いただきたい。
今回Alexa SSMLで追加された機能
今回のアップデートで、スキル開発者は5つの新しいAlexa SSML追加機能が使えるようになった。
Whispers
Expletive beeps
Sub
タグで指定された単語または句を、別の単語または句として発音する。
Emphasis
Prosody
これらの新機能によりAmazo Echo向けのAlexaスキルがより聞き取りやすく自然なものになることを期待したい。
僕はこう思った:
音声認識領域の進化だけでなく、音声合成領域でも進化が進んでいます。SSMLはシンプルな記述方法なので他社も採用して、これがスタンダードになればスキル開発者は機種ごとに発声で頭を悩ます必要がなくなり、楽になるのではないかと思います。

