Googleは訛りやノイズに強い!米国スマートスピーカーの音声認識調査「インド系・中国系アクセントで認識精度が低下するか?」

2018年9月10日、Vocalize.aiがスマートスピーカーの聞き取り能力に関する新しいレポートを発表した。同社は過去にも音声認識の比較調査結果を発表しているが、今回はまた新たな切り口での調査となっている。


今回調査の対象となった音声アシスタントはAmazon Alexa、Google Assistant、Apple Siriの3つ。今回のテスト内容は米国で増加しているインド系、中国系の英語話者の音声認識の精度がどのようなものなのかを評価したものだ。


個別の単語の音声認識

Imag: Vocalize.ai

発話された36のワードがどのように認識されたのかの評価結果。パーセンテージが高いほうが認識が正しく行われているというグラフとなる。

Googleはアクセントを問わず100%という高い認識精度だった。一方Alexa、Siriはアメリカアクセント・インドアクセントでも若干パフォーマンスを低下させ、中国アクセントでは22%ほど識別率が低下した。


音声認識のしきい値

Imag: Vocalize.ai

音声アシスタントが1m離れた状態で少なくとも50%の精度で音声を認識できる音圧を測定した結果。

Googleは30〜33dB、Alexaは36〜38dB、Siriは40〜46dBの幅があった。この範囲は狭いほど音声認識の検出の精度が高いと言えるという。結果、もっとも範囲が広いSiriは中国アクセントにおいて音声認識時に大きな声で話す必要があることを示唆しているという。


ノイズのある状況下での聞き取り能力

Imag: Vocalize.ai

音声認識時に雑音がある場合に聞き取り精度が悪化するかをテストした結果。信号対雑音比損失を示したデータで、低い方が良い結果というグラフになる。

雑音がある状態でもGoogleは他社に比べて性能劣化が少なく、ついでSiri、Alexaと続いた。また、3つのアシスタントで、アメリカアクセントがもっとも精度がよく、インドアクセント、中国アクセントと続く。このテストでも中国アクセントでの聞き取り精度は悪く、人間で言うと中程度〜重度の難聴に近いレベルだった。


Source:Vocalize.ai

僕はこう思った:

先日、ワシントンポストも訛りがスマートスピーカーの認識精度にどの程度影響するかを調査していましたが、米国で普及が進む中で地域差、人種差、性別差、年齢差などによる聞き取り精度の違いが問題視されるようになってきたということでしょう。


ABOUT THE AUTHOR / 

中橋 義博
中橋 義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。

PR

連載・コラム