スマートスピーカーは「訛り」によって音声認識の精度が落ちる

2018.8.28 Tue 12:02

米・ワシントンポストが、スマートスピーカーを訛り（なまり）がある人が使うとどうなるかをテストし、その結果を公開した。
調査は、スマートスピーカーのアクセント不均衡を研究する2つの研究グループとチームを組んで米国の20都市にまたがる100人以上の人々によって数千の音声コマンドをテストし、アクセントの違い（訛り）の差が音声認識の精度にどのような影響を与えるのかをまとめたものになっている。

Image: Washington Post

このグラフは、米国のネイティブエリアを西部、中西部、東部、南部に分類（青）し、移民をインド系、中華系、ヒスパニックに分類（赤）に分類した結果を表示したもの。
70のコマンドの聞き取り精度をテストした結果、Google Home(Google Assistant)、Amazon Echo（Alexa）いずれも地域によって聞き取り精度の差があることがわかったという。移民の訛りに対しては相対的に精度が低いことがわかる。またネイティブであっても地域差がみられることがわかる。

Image: Washington Post

娯楽用途では、より地域差が顕著だということが上の図からもわかる。Google Home(Google Assistant)、Amazon Echo（Alexa）の機種の差はあれ、差があるということでは変わりがない。ベストはおよそ90%の認識率だが、ワーストは80%となり認識精度はなんと10%のギャップがあるという。
Amazonのジェフ・ベゾスCEOは「Alexaと多くのアクセントで話すにつれ、Alexaの理解は向上するだろう」とコメントしている。つまりユーザー数が多いエリア、アクセントは学習が進んで認識率が上がるが、そうでない場合は相対的には低い状態になるということだろう。
今回のテストではApple Siri、Microsoft Cortanaなどは対象になっていないが、いずれも利用者が少ないアクセントや言語ではデータが少なく精度が上がりにくい傾向があることは想像できる。またこれは英語に限った話ではなく、あらゆる言語、もちろん日本語においても同じ。今後、データが集まれば、日本でもあらゆる地域の言葉を理解できるようになるはずだ。

Source：Washington Post

Amazon Echo fan club japan

Google Home fan club japan

《中橋義博》

中橋義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。

ニュースレター配信中！無料会員登録をしていただくと、定期的に配信されるニュースレターを受け取ることができます。また会員限定の記事を閲覧することも可能になります。

スマートスピーカーは「訛り」によって音声認識の精度が落ちる

関連タグ

中橋義博

特集

Alexa

音声アシスタント

Google Assistant

【先着50名無料】ヒューマノイド×フィジカルAI最前線　アールティに聞くヒューマノイドの社会実装、現実と未来展望

中国ヒューマノイド産業の最前線 2026春～深圳から現地レポートと最新情報アップデート

【先着50名無料】AIロボット普及の最後のピース「ロボットハンド技術の社会実装、現状と課題」RRI/大阪大学原田教授に聞く

神崎洋治の「ロボットの衝撃」

森山和道の「ロボットの見方」

関連タグ

中橋 義博

特集

Alexa

音声アシスタント

Google Assistant

中橋義博