Amazonが「Alexaブログ」で31の開発向け新機能を紹介 自然で没入感のあるAlexaスキル開発等を推進

AmazonはAlexaブログで「31の新機能で、より自然で没入感のあるAlexaエクスペリエンスを実現」を公開した。Amazon Alexa スキルとその開発環境に関する最新情報が紹介されている(英語圏en_USローカルでのみ使用可能な情報も多数含む)。

今やAlexaデバイスは世界中で数億台を数え、スマートスピーカー、スマートテレビ、ヘッドフォン、PCなどから毎週何十億回もAlexaには対話のアクセスがあるという。また、Alexaスキルのダウンロードや利用も昨年の2倍を超え、Amazonは、Alexa Skills Kit(ASK)でも31の新機能を追加、それを発表した。
そのポイント(一部抜粋)は次の通り。


新機能ではユーザーがスキルとさらに自然に会話できる

開発者にとっては、実行時のオーディオトラック・ミキシング、ゲーム向けHTML5などのウェブ技術を駆使することで、音声に充実したサウンドや視覚効果、タッチ操作を組み合わせたマルチメディア体験が提供できるようになった。ユーザーが外出先で利用し、他の操作を終えた後にシームレスに再開できるようになった。ユーザーが音声とモバイルアプリを同時に使って、音声だけでいくつかのタスクを実行し、必要に応じてほかの操作手段も加えたアプリのフルエクスペリエンスに切り替えることも可能となる。


より自然なエクスペリエンスを実現

スキルやシステムがユーザーとの自然な会話を実現するには、個々の単語や文章を理解する力だけでなく、会話的なフレーズや想定外のリクエストに幅広く対応できる力も必要となる。
Amazonは、ディープニューラルネットワーク(DNN)を採用し、Alexaが個々の単語や文章を理解する自然言語理解(NLU)の能力を高めた。カスタムスキルへの導入を開始したところ、このDNNベースのNLUの利用で、平均15%の精度向上を見込んでいるという。また、このDNN、従来のスキルを含めて、一切変更の必要なく利用できるため、導入と同時に自動的にスキルの精度が向上するという。



Alexa Conversations(ベータ版)

Alexa Conversations(ベータ版)は、ダイアログ管理をAI主導で行う新たなアプローチ。ユーザーが直感的なフレーズを好きな順序で使い、自然でわかりやすい方法で対話できるスキルを開発できる。従来のダイアログ管理機能と異なり、Alexa Conversations(ベータ版)では、コーデイングしたり、ユーザーがスキルと対話する方法のバリエーションをすべて列挙したりする必要がない。代わりに、ダイアログサンプルのセットと、それらをスキルの具体的なサービスにどうマッピングするかを指定。ディープラーニングを採用してユーザーが使う可能性のあるさまざまなダイアログパスを推測し、学習結果をリアルタイムに反映してユーザーの対話を自動管理。たとえば、状態のトラッキング、コンテキストの保持、ユーザー主導の修正の承認を行い、適切なタイミングでサービスを呼び出す。en_US(英語、米国)のスキルでは「iRobot」と「Philosophical Creations」等が、既にAlexa Conversations(ベータ版)を利用しているという。


オーディオとビジュアルで没入感の高いエクスペリエンスを実現

多彩なサウンドやビジュアルを駆使した没入感の高い体験を実現するため、ユーザーは声とタッチの両方で操作したいと考えている、という。Alexa Presentation Language(APL)は、こうした両対応の操作を統合して利用できる技術。

APL for audio(ベータ版)を使えば、Alexaでスピーチ、サウンドエフェクト、音楽などのオーディオを実行時にミキシングできます。APL for audio(ベータ版)により、魅力的で没入感の高いオーディオエクスペリエンスを提供できる。

「APL for audio」では、テキスト読み上げ(TTS)とバックグラウンドオーディオをミキシングすることで、より動的に応答できるとしている。

また「Alexa Web API for Games」を使えば、ウェブ技術の知識を利用して、画面付きデバイス上に、印象的な見た目で動きのある、マルチモーダルなAlexaゲームを作成できる。Web API for Gamesは、HTML5、Web Audio、CSS、Javascript、WebGLに対応。 英語スキルではDoppio Games、LC Publishing、Vocala.co、Voice App Labs、Zynga といった企業が、既にこのAPIを使ったゲームスキルを公開しているという。

最新バージョンのAPL 1.4では、編集可能なテキストボックス、ドラッグアンドドロップのUIコントロール、前の画面に戻る機能などが追加された。アニメーションとベクターグラフィックスといったこれまでの機能の強化もしている。
また、最新のAPLオーサリングツールではライブプレビュー機能も搭載。ASK toolkit for VS Codeでは、新しいAPLのオーサリングとプレビューをサポート。


モバイル環境とシームレスなエクスペリエンス

米国を中心にAmazonは昨年、ユーザーが外出先でもAlexaを利用できるEcho AutoやEcho Budsなどのデバイスをリリースした。FitbitのVersa 2、BoseのAlexa搭載ヘッドフォンにも同じ機能が搭載されている。

スキル再開機能(プレビュー版)を使うと、Alexaにほかのタスクを実行させたり、別のアクティビティが実行された後に、簡単にスキルに戻ることができる。ユーザーは、スキルに新しい情報が追加された場合に自動で再開させることもでき、再開をリクエストすることもできるようにできる。Alexaは、ユーザーがそのスキルを使っていたことを記憶しているため、ユーザーが改めてスキル名を伝える必要はないという。たとえば、ユーザーが配車の予約をした後、Uberはスキル再開機能を使用して「Uberが到着しました」と自動で報告。 ユーザーが「アレクサ、Uberは今どの辺にいるの?」とたずねることもできる。これらの機能が日本語版でも利用できるようになることを期待したい。

その他、モバイル連携、「Alexa for Apps」(プレビュー版)、「Quick Links for Alexa」(ベータ版)、無指名対話(NFI)ツールキット(プレビュー版)など、追加された機能の詳細についてはAmazon Alexaブログで確認できる。(英語版や日本未対応の機能もあるので留意が必要)

また、Amazonでは、Alexaスキルチャレンジ「Alexa Conversations」への参加を募集している。このチャレンジでは、Alexa Conversationsを使って最も自然で魅力的なエクスペリエンスを開発した開発者に、最大$100,000の賞金が授与される。公開中の既存Alexaスキルの機能が最も向上したスキル、最高の新しいゲームなど、特別賞も用意されるが、現在Alexa Conversationsは、en_USローカルでのみ使用可能となっている。

ABOUT THE AUTHOR / 

ロボスタ編集部
ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

PR

連載・コラム