AmazonがAlexa BlogにてAlexaの「エンドポインティング」に関する記事を掲載した。

そもそもエンドポインティングとはなんだろうか。音声区間検出における、出だしがウェイクワードの検出であり、終わりが「end-pointing(終点)」である。エンドポインティングは「end-of-utterance detection(発声終了検出)」「end-of-query detection(質問終了検出)」「end-of-turn detection(ターン終了検出)」などとも言う。
つまり、ユーザーが発話による指示を完了したことを検知する機能である。音声でやりとりするデバイスにおいて重要かつ基本的な機能のひとつだ。この検知は、当然ユーザーの話の途中で打ち切らないようにする必要があり、かつ長時間終了せずに待ち続けるならばレスポンスが低下してしまう。適切な指示の終了を判断するのはなかなか難しい性質のものだ。

この問題への取り組みをAmazonのチームが論文を公開して解説している。
基本的な考え方は、入力されたテキストが完全なクエリーとなっているか、まだ途中と判断されるかを機械学習モデルをトレーニングすることで精度を上げていくというものだ。
音響のパターンを分類するモデル、自動音声認識のテキストを元に次に指示がつながる可能性が高いかを判断するモデル、さらに音声認識のアイドル時間を測定するモデル、これらの3つのモデルを組み合わせて、エンドポインティングを判断し、ユーザーへ応答を始めるようになっているという。
僕はこう思った:
興味のある方は元の論文をご覧いただければと思います。




