【Alexa搭載デバイス開発向け】Amazon voice service (AVS) 開発キットまとめ

2017年10月2日に、Amazon Echo、Amazon Alexaの年内日本上陸が発表された。その日以降、日本のスマートスピーカー市場は戦国時代に突入したといってもいいだろう。

10月5日にLINE Clova Wave正式発売、10月6日にGoogle Home、Google Home Miniが国内販売と立て続けに発表されている。またAlexa搭載デバイスも続々登場しており、まさに目が離せない状態にある。

Amazon Alexa搭載デバイスが多数登場している背景に、Amazon Voice Service(AVS)の存在と、それを支えるAVS開発キットの存在がある。今回はそんなAVS開発キットについて簡単に紹介したいと思う。




Alexa Voice Service(AVS)とは?



Image: Amazon

Alexa Voice Service(AVS)の開発キットは、Alexa搭載製品を開発するためのキット。このキットには、チップセット、音声処理テクノロジー、AVS APIを活用したクライアントソフトウェアが含まれており、開発コストをかけずに簡単に商用レベルの音声デバイスが構築できるというもの。

Alexa Voice Service(AVS)の概要については以下の公式動画がわかりやすい。



現在、7種類のAVS開発キットがラインナップされている。今回はそのキットをまとめて紹介したい。




Voice Modelとは?

AVS開発キットを理解する上で、「Voice Model」と呼ぶユーザーとのインタラクションについて理解しておく必要がある。



Image: Amazon

Amazon Voice Serviceでは、「Touch Activated(ボタンによって起動)」、「Hands Free(近くで声で呼びかけ)」、「Far Field(遠くから声で呼びかけ)」の3種類のモデルを例示している。

ボタンによって起動するのには厳密には2種類あり、「Push-to-Talk(ボタンを押している間だけ聞き取りを行う)」、「Tap-to-Talk(タップすると聞き取り開始し、ユーザーが話し終えると聞き取りを終了する)」に分類される。

一方、「Hands Free」と「Far Field」においては、ボタンなしで音声によって起動する。この音声のことを「ウェイクワード」と呼び、Amazonの場合「Alexa(アレクサ)」と呼びかけることで起動し、聞き取りを開始し、ユーザーが話し終えると聞き取りを終了するようになっている。

それぞれ優劣があるのではなく、使用イメージに合わせて採用されるモデルになっている。


Touch Activated
 Push-to-Talk
  公共スペース、騒がしい場所で使われるデバイス向け。
 Tap-to-Talk
  中程度の騒音環境で使われるデバイス向け。
  自動車やオフィスなど近くにあるデバイス向け。
Hands Free
 家庭内の寝室、廊下または小さな部屋、手の届く範囲にあるデバイス向け。
Far Field
 リビング、キッチンなど、騒々しい環境で使われるデバイス向け。



現在、AVS開発キットはFar Field向け、Hands Free向けの2タイプが用意されている。Touch Activatedであれば、凝ったマイクシステムやノイズキャンセリング不要で構築できるのでわざわざ開発キットがなくても作れるからだ。




Far-Field Solutions

遠くから声で呼びかけられて使われるデバイス向けのソリューションは以下4種類がラインナップされている。



Intel Speech Enabling Development Kit for Amazon AVS



Photo:Intel

インテルのAVS開発キット。価格は399ドル。特徴は円形に配置された8つのマイクアレイ。ウェイクワード検知もカスタムチップで対応。エコーキャンセル、ノイズリダクションなどインテルのアルゴリズムが実装されている。




XMOS VocalFusion 4-Mic Dev Kit for Amazon AVS



Photo:XMOS

XMOS社のAVS開発キット。価格は499ドル。4つのマイクアレイを直列に搭載。全二重エコーキャンセレーション内蔵。壁掛けのスマートパネル、キッチン家電製品などに組み込むのに向いた設計。




Synaptics AudioSmart 4-MicDevelopment Kit for Amazon AVS



Photo:Synaptics

SynapticsによるAVS開発キット。価格は349ドル。4つのマイクアレイを四角形に配置。全二重エコーキャンセレーション、ウェイクワードエンジン搭載。無指向性ファーフィールド製品向け。




Amazon Alexa 7-Mic Far-Field Dev Kit



Photo:Amazon

こちらは販売されておらず、招待者のみが入手可能なキット。7つのマイクアレイを円形に配置し、Echo製品版とほぼ同じ構造。
ウェイクワード認識、ビームフォーミング、ノイズリダクション、全二重エコーキャンセレーションなどフル機能を搭載。





Hands-Free Solutions

近くで声で呼びかけられて使われるデバイス向けのソリューションは以下3種類がラインナップされている。



Synaptics AudioSmart 2-Mic Development Kit for Amazon AVS



Photo:Synaptics

SynapticsによるAVS開発キット。価格は299ドル。2つのマイクを搭載。低電力ウェイクワードエンジン、全二重エコーキャンセレーションを持つ。




Cirrus Logic Voice Capture Development Kit for Amazon AVS



Photo:Cirrus Logic

Cirrus LogicによるAVS開発キット。価格は400ドル。2つのマイクを搭載。スマートスピーカー、オーディオシステムに最適化された設計。




Microsemi AcuEdge Development Kit for Amazon AVS



Photo:Microsemi

MicrosemiによるAVS開発キット。価格は299ドル。2つのマイクを搭載。180度方向と360度方向のオーディオピックアップが可能。全二重バージイン、エコーキャンセレーション搭載。





AVS開発キットの選び方

現在取り扱われているキットをすべて紹介したが、いろいろあって迷ってしまうかもしれない。

選ぶにあたりポイントは価格、マイクの数、マイクの配置場所、オーディオアルゴリズムの4点だ。

ハンズフリーレベルの距離ならマイク数は1〜2で問題ないが、部屋のどこからでも話しかけたいということならば4〜8のマイクアレイが必要だ。さらにマイク配置場所・方法も音声が360度から来るのか、一定の方向から来るのかによって最適なキットは異なってくる。また各キットはそれぞれ独自の音声処理アルゴリズムを搭載しており、自分の望む機能が実装されているかも確認する必要がある。


僕はこう思った:

ロボスタで作ったEcho自作機ではシングルマイクで聞き取り精度が高くありませんでした。マイクアレイが実装されたAVS専用の開発キットの価値はあると思います。



ABOUT THE AUTHOR / 

中橋 義博
中橋 義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。

PR

連載・コラム