Romiの音声認識にGoogle CloudのSpeech-to-Textの採用した理由を公開　Google Cloud ブログで

MIXIが発売しているコミュニケーションロボット「Romi」。ユーザーが話した内容を認識する部分音声認識の部分にはGoogle Cloudが提供している「Speech-to-Text」が利用されている。
Google CloudブログでRomiの開発メンバーのインタビューを掲載。なぜRomiにGoogle Cloudが提供している「Speech-to-Text」を採用・利用しているのかその理由が明らかにしている。

プロトタイプで良好な成果が得られたため、そのまま採用

Romi 事業部開発グループマネージャーの信田氏は、Romiの基盤の殆どの部分に大手のパブリッククラウドを利用していることを明かした。
その中でも音声認識の部分は技術的にとても重要とし、精度が高いと評判だったGoogle CloudのSpeech-to-Textをプロトタイプでテスト。他社のサービスも試したが結果、Google CloudのSpeech-to-Textの方が良好な結果を得られたため、そのまま採用に至ったと経緯を述べている。

再度の検討機会があるもGoogle CloudのSpeech-to-Textを継続

Google Cloudブログでは、2022年6月に改めて音声認識エンジンを検討することになったとし、10社ほどの日本語対応の音声認識エンジンを「コスト」「認識精度」「インフラの安定性」という視点でテストを行ったが、Google CloudのSpeech-to-Textが継続してい使用することになったことも明らかした。
このことについて、開発発本部 CTO室 SREグループの坂口氏は50cmから1m程度の距離の入力が最も優れていたと点を挙げるとともに、コストの面でもトリガーワードを設定していないため認識回数が増えてしまうためコスト増に直結していたという点においても、課金単位が「15秒単位」から「1秒単位」と変更となったためコストダウンに繋がったこともGoogle CloudのSpeech-to-Textを継続する後押しの理由に挙げている。

Google CloudのSpeech-to-Textが採用されているRomi

大規模言語モデルのRomi適用は現実的ではない

一方で今話題となっているChatGPTに代表される大規模言語モデルについて、Romi事業部 BizDev・デザイングループマネージャーの長岡氏は、「大規模言語モデル注視はしているが応答速度の問題で直ぐにコミュニケーションロボットに使うのは現実的ではない」との考えを示すとともに、現状は実用性重視のためRomiで実現したいコミュニケーションにはなりにくいという点を指摘している。
今後のRomiのAIについては、学習内容を吟味して「Romi」のための学習モデルを作り込んでいく方向であるとしている。

Romiの音声認識にGoogle CloudのSpeech-to-Textの採用した理由を公開　Google Cloud ブログで

プロトタイプで良好な成果が得られたため、そのまま採用

再度の検討機会があるもGoogle CloudのSpeech-to-Textを継続

大規模言語モデルのRomi適用は現実的ではない

関連タグ

ロボスタ編集部

特集

音声認識

Google Cloud

【セミナー】人機一体に聞く「人型重機とフィジカルAI」社会実装のリアル　～人を拡張するロボットの最前線～

【セミナー】ロボカップはヒューマノイド・フィジカルAI時代へ　世界大会2026が示すロボット競技の変革と新潮流

神崎洋治の「ロボットの衝撃」

森山和道の「ロボットの見方」