2018年9月10日、Vocalize.aiがスマートスピーカーの聞き取り能力に関する新しいレポートを発表した。同社は過去にも音声認識の比較調査結果を発表しているが、今回はまた新たな切り口での調査となっている。
スマートスピーカーの音声認識が優れているのはGoogle Home? それともAmazon Echo?
【vocalize.ai調査】スマートスピーカーの聞き取り能力、メーカー・機種による違いが判明。最良の耳を持つのはGoogle Home Max、最下位は・・・?
今回調査の対象となった音声アシスタントはAmazon Alexa、Google Assistant、Apple Siriの3つ。今回のテスト内容は米国で増加しているインド系、中国系の英語話者の音声認識の精度がどのようなものなのかを評価したものだ。
個別の単語の音声認識

発話された36のワードがどのように認識されたのかの評価結果。パーセンテージが高いほうが認識が正しく行われているというグラフとなる。
Googleはアクセントを問わず100%という高い認識精度だった。一方Alexa、Siriはアメリカアクセント・インドアクセントでも若干パフォーマンスを低下させ、中国アクセントでは22%ほど識別率が低下した。
音声認識のしきい値

音声アシスタントが1m離れた状態で少なくとも50%の精度で音声を認識できる音圧を測定した結果。
Googleは30~33dB、Alexaは36~38dB、Siriは40~46dBの幅があった。この範囲は狭いほど音声認識の検出の精度が高いと言えるという。結果、もっとも範囲が広いSiriは中国アクセントにおいて音声認識時に大きな声で話す必要があることを示唆しているという。
ノイズのある状況下での聞き取り能力

音声認識時に雑音がある場合に聞き取り精度が悪化するかをテストした結果。信号対雑音比損失を示したデータで、低い方が良い結果というグラフになる。
雑音がある状態でもGoogleは他社に比べて性能劣化が少なく、ついでSiri、Alexaと続いた。また、3つのアシスタントで、アメリカアクセントがもっとも精度がよく、インドアクセント、中国アクセントと続く。このテストでも中国アクセントでの聞き取り精度は悪く、人間で言うと中程度~重度の難聴に近いレベルだった。
Source:Vocalize.ai
僕はこう思った:
先日、ワシントンポストも訛りがスマートスピーカーの認識精度にどの程度影響するかを調査していましたが、米国で普及が進む中で地域差、人種差、性別差、年齢差などによる聞き取り精度の違いが問題視されるようになってきたということでしょう。









