Googleの音声認識、ワードエラー率が1年経たずに「8.5%」から「4.9％」まで改善！もはや人間レベル？

2017.5.22 Mon 14:06

Googleの音声認識技術の精度について、NextPowerUpが報じた。現在の音声認識の識別能力は大きく改善してきているという。

ワードエラー率の改善の進捗

音声認識技術を評価する基準として、人間が発話した単語の聞き取りできなかったワードに着目する「ワードエラー率（Word Error Rate）」がある。Googleの音声認識技術のワードエラー率は、2016年7月に8.5%、2016年12月に6.1%、そして現在4.9%まで改善されててきたという。Google I/O 2017で明らかにされた情報だ。

Image: robot start inc.

上記グラフは発表されたワードエラー率を可視化したものだ。
なお現時点での4.9%というワードエラー率は、およそ100単語に5単語間違える、20単語に1単語間違えるレベルを意味するが、このワードエラー率はまだ高く感じる人もいるかもしれない。
しかし、「Microsoft AI and Research Group」が音声認識技術について発表した内容によれば、誤認率5.9%は人間と同等あるいはわずかに上回る精度だという。
MicrosoftとGoogleが全く同じ認識率のテストを行ったわけではないだろうが、いずれにせよ現時点でのワードエラー率は人間の聞き取り能力に近く、更に今度も改善されていくとなると人間を超える日もそれほど遠くはなさそうだ。

なぜ音声認識技術は改善したのか？

Photo: Wikipedia / Sundar Pichai

2015年にGoogleのCEOに就任したサンダー・ピチャイは、今月開催されたGoogle I/O 2017で、音声認識技術の改善についてこう語っている。

サンダー・ピチャイ

私たちは多くの製品で音声認識を使ってきました。それに伴いコンピュータが人間の発話を聞き取る能力が向上してきました。非常に騒がしい環境下であっても、Googleの音声認識のワードエラー率は改善し続けています。

多くのデバイスに音声認識技術が搭載されたことで、ニューラルネットワークを活用したアルゴリズム改善が進んだということだろう。

僕はこう思った：

どのような環境下でのテストかによって誤認識率は全く違ってくるはず。なので、GoogleとMicrosoftの誤認識率を比較し「Googleの方が優れています」とは上記の数字だけでは言うことはできません。ただ誤認識率が8.5%から4.9%に進化したという事実はさすがGoogleだと思いました。

これらは英語での音声認識の話なので、日本語の場合には全く違うデータが出るかもしれません。日本語の音声認識については、日本の会社に頑張ってもらいたいです。

外部リンク
NextPowerUp / Google’s Speech Recognition Improves To 4.9% Word Error Rate

CBS News / Microsoft says speech recognition technology reaches “human parity”

関連記事
ロボスタ / Google Home

ロボスタ / 音声アシスタント特集

《中橋義博》

中橋義博

1970年生まれ。中央大学法学部法律学科卒。大学時代、月刊ASCII編集部でテクニカルライターとして働く。大学卒業後、国内生命保険会社本社において約6年間、保険支払業務システムの企画を担当。その後、ヤフー株式会社で約3年間、PCの検索サービス、モバイルディレクトリ検索サービスの立ち上げに携わる。同社退社後、オーバーチュア株式会社にてサービス立ち上げ前から1年半、サーチリスティングのエディトリアル、コンテントマッチ業務を担当する。2004年に世界初のモバイルリスティングを開始したサーチテリア株式会社を創業、同社代表取締役社長に就任。2011年にサーチテリア株式会社をGMOアドパートナーズ株式会社へ売却。GMOサーチテリア株式会社代表取締役社長、GMOモバイル株式会社取締役を歴任。2014年ロボットスタート株式会社を設立し、現在同社代表取締役社長。著書にダイヤモンド社「モバイルSEM―ケータイ・ビジネスの最先端マーケティング手法」がある。