米・ワシントンポストが、スマートスピーカーを訛り(なまり)がある人が使うとどうなるかをテストし、その結果を公開した。
調査は、スマートスピーカーのアクセント不均衡を研究する2つの研究グループとチームを組んで米国の20都市にまたがる100人以上の人々によって数千の音声コマンドをテストし、アクセントの違い(訛り)の差が音声認識の精度にどのような影響を与えるのかをまとめたものになっている。
このグラフは、米国のネイティブエリアを西部、中西部、東部、南部に分類(青)し、移民をインド系、中華系、ヒスパニックに分類(赤)に分類した結果を表示したもの。
70のコマンドの聞き取り精度をテストした結果、Google Home(Google Assistant)、Amazon Echo(Alexa)いずれも地域によって聞き取り精度の差があることがわかったという。移民の訛りに対しては相対的に精度が低いことがわかる。またネイティブであっても地域差がみられることがわかる。
娯楽用途では、より地域差が顕著だということが上の図からもわかる。Google Home(Google Assistant)、Amazon Echo(Alexa)の機種の差はあれ、差があるということでは変わりがない。ベストはおよそ90%の認識率だが、ワーストは80%となり認識精度はなんと10%のギャップがあるという。
Amazonのジェフ・ベゾスCEOは「Alexaと多くのアクセントで話すにつれ、Alexaの理解は向上するだろう」とコメントしている。つまりユーザー数が多いエリア、アクセントは学習が進んで認識率が上がるが、そうでない場合は相対的には低い状態になるということだろう。
今回のテストではApple Siri、Microsoft Cortanaなどは対象になっていないが、いずれも利用者が少ないアクセントや言語ではデータが少なく精度が上がりにくい傾向があることは想像できる。またこれは英語に限った話ではなく、あらゆる言語、もちろん日本語においても同じ。今後、データが集まれば、日本でもあらゆる地域の言葉を理解できるようになるはずだ。
Source:Washington Post






