LINE Clovaはウェイクワード終わりの1.5秒前から音声取得、Amazon EchoやGoogle Homeはどうなってる?

スマートスピーカー(AIスピーカー)に指示を伝える時に呼びかけるワードをウェイクワードと呼ぶ。

Amazon Echoであれば「Alexa」、Google Homeであれば「OK, Google」、そしてLINE Wave/Friednsであれば「Clova」がウェイクワードとなる。

今回はそんなウェイクワードと音声データの録音との関係についてみていきたい。


LINE WAVE / Friendsの場合

まずTwitterで行われた以下のやりとりに注目だ。


ウェイクワード言う前のコマンドが拾われている? と話題になった。




Friendsで検証でき、かつWAVEとは違う動きだという。




何も説明がなければ、ウェイクワード以降からの録音・サーバーへの転送されると考えるのが自然だろう。




もちろん、仕組み上ウェイクワードの検出は随時行われている。ただこれはデバイスの中に閉じたローカルでの話。ウェイクワードなければ録音もサーバーへの転送もされていないのが基本的なルールだ。




ここでRydeen氏がLine Clova公式アカウントに公開質問を行った。





少し日数が経ってから、Clova公式アカウントが回答を行った。3月5日のアップデート以降、ウェイクワードの末尾から1.5秒前の音声データを取得する設定になっているという。またこの1.5秒という秒数は利便性とプライバシー保護の両面を踏まえて今後も調整されていくという。

1.5秒前は少し長すぎる気もするし、そもそも公式ヘルプページやFAQでこういったプライバシーに関わる情報はわかりやすく公開されていて欲しいと思う。(公式情報が存在していたら申し訳ないが、私には見つけることができなかった。)


Amazon Alexaの場合

Amazonは「Amazon Echo、Amazon Echo PlusおよびAmazon Echo Dotに関するFAQ」にて音声処理のルールについて解説している。Amazonの場合、ストリーミングするデータは「ウェイクワードの数分の一秒前のデータが含まれる」という。数分の一秒とLINEの1.5秒ではかなりの差がある。


1. Amazon Echo、 Echo Plusおよび Echo Dotはどのようにウェイクワードを認識しますか?

Amazon Echo、 Echo Plusおよび Echo Dotは、ウェイクワードを検出するために、端末に搭載されたキーワードスポッティング機能を使用しています。それらの端末がウェイクワードを検出した時、クラウドに音声をストリーミングします。音声には、ウェイクワードが発話される数分の一秒前の音声が含まれます。

2. Amazon Echo、 Echo Plusまたは Echo Dotがいつ私の音声をクラウドにストリーミングしているか、どのように分かりますか?

Amazon Echo、 Echo PlusまたはEcho Dotがウェイクワードを検出した時、またはお客様が端末上部にあるアクションボタンを押した際、お客様の端末の上部にあるライトリングの色が青に変わり、端末から音声をクラウドにストリーミングしていることをお知らせします。

お客様がウェイクワードを発すると、ウェイクワードが発話される数分の一秒前の音声を含みAlexaが質問やリクエストを処理するクラウドへとストリーミングを開始し、お客様の質問やリクエストがクラウドにて処理された後にストリーミングが終了します。



Google Homeの場合

Googleの場合、「数秒のウェイクワードの録音を含む」と記載されている。数秒が何秒なのかはわからないが、ウェイクワードの冒頭以降からの録音と理解できる。少なくともウェイクワード前の音声データを送信するとは明記されてはいない。


Google Home ではすべての会話が録音されますか

いいえ。Google Home は数秒程度の長さの音声サンプル(スニペット)から、外部に情報を送信することなく、デバイスだけで起動ワードを認識します。起動ワードが認識されなかった場合、このスニペットがデバイス上に保存されることも、Google のサーバーに送信されることもありません。ユーザーが「OK Google」と言ったこと、または、ユーザーがGoogle Home デバイス上面を長押ししたことが Google Home で検出されると、録音が行われていることを示すためにデバイス上部の LED が点灯し、Google Home で会話の録音が行われ、録音された内容(数秒の起動ワードの録音を含む)がリクエスト処理のために Google に送信されます。録音データは [マイ アクティビティ] からいつでも削除できます。



僕はこう思った:

ウェイクワードや音声指示が実際どのように理解されたのか、AlexaアプリやGoogle Homeアプリの場合、発話ログが確認できます。たまに見ると面白いです。




関連Facebookコミュニティ
Amazon Echo fan club japan


関連Facebookコミュニティ
Google Home fan club japan


ABOUT THE AUTHOR / 

中橋 義博
中橋 義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。