Apple Machine Learning JournalにてSiriの最新音声認識技術が紹介された。
自動音声認識システムの精度は、ディープラーニングの普及により近年驚異的に改善された。しかしパフォーマンスの改善は、主に一般的な発言の認識であり、小規模な地方の企業名や店舗名などの認識を正確に行うことは仕組み上難しいのだという。確かに大手チェーン店の店名なら確実に認識するが、地元の小さなお店の名前は認識されにくい。これが実用面でネックの一つになっているのは間違いないだろう。
この解決策として、Appleはユーザーの位置情報を音声認識システムに組み込んだという。
この位置情報を使う仕組みをジオロケーションベース言語モデル (Geo-LM)と呼び、一般的な音響モデルと組み合わせた仕組みとなっている。
結果、地域の特定の固有名詞を認識するSiriの能力を向上させることができた。公開された論文のテスト結果では識別エラーが18%~40%低下したことがわかる。
モバイルデバイスで多く利用されるSiriにおいては、非常に有効なやり方だろう。



