スマートスピーカーは「訛り」によって音声認識の精度が落ちる

米・ワシントンポストが、スマートスピーカーを訛り(なまり)がある人が使うとどうなるかをテストし、その結果を公開した。

調査は、スマートスピーカーのアクセント不均衡を研究する2つの研究グループとチームを組んで米国の20都市にまたがる100人以上の人々によって数千の音声コマンドをテストし、アクセントの違い(訛り)の差が音声認識の精度にどのような影響を与えるのかをまとめたものになっている。


Image: Washington Post

このグラフは、米国のネイティブエリアを西部、中西部、東部、南部に分類(青)し、移民をインド系、中華系、ヒスパニックに分類(赤)に分類した結果を表示したもの。

70のコマンドの聞き取り精度をテストした結果、Google Home(Google Assistant)、Amazon Echo(Alexa)いずれも地域によって聞き取り精度の差があることがわかったという。移民の訛りに対しては相対的に精度が低いことがわかる。またネイティブであっても地域差がみられることがわかる。


Image: Washington Post

娯楽用途では、より地域差が顕著だということが上の図からもわかる。Google Home(Google Assistant)、Amazon Echo(Alexa)の機種の差はあれ、差があるということでは変わりがない。ベストはおよそ90%の認識率だが、ワーストは80%となり認識精度はなんと10%のギャップがあるという。

Amazonのジェフ・ベゾスCEOは「Alexaと多くのアクセントで話すにつれ、Alexaの理解は向上するだろう」とコメントしている。つまりユーザー数が多いエリア、アクセントは学習が進んで認識率が上がるが、そうでない場合は相対的には低い状態になるということだろう。

今回のテストではApple Siri、Microsoft Cortanaなどは対象になっていないが、いずれも利用者が少ないアクセントや言語ではデータが少なく精度が上がりにくい傾向があることは想像できる。またこれは英語に限った話ではなく、あらゆる言語、もちろん日本語においても同じ。今後、データが集まれば、日本でもあらゆる地域の言葉を理解できるようになるはずだ。


Source:Washington Post

ABOUT THE AUTHOR / 

中橋 義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。

PR

連載・コラム