
MIXIが発売しているコミュニケーションロボット「Romi」。ユーザーが話した内容を認識する部分音声認識の部分にはGoogle Cloudが提供している「Speech-to-Text」が利用されている。
Google CloudブログでRomiの開発メンバーのインタビューを掲載。なぜRomiにGoogle Cloudが提供している「Speech-to-Text」を採用・利用しているのかその理由が明らかにしている。
プロトタイプで良好な成果が得られたため、そのまま採用
Romi 事業部開発グループ マネージャーの信田氏は、Romiの基盤の殆どの部分に大手のパブリッククラウドを利用していることを明かした。
その中でも音声認識の部分は技術的にとても重要とし、精度が高いと評判だったGoogle CloudのSpeech-to-Textをプロトタイプでテスト。他社のサービスも試したが結果、Google CloudのSpeech-to-Textの方が良好な結果を得られたため、そのまま採用に至ったと経緯を述べている。
再度の検討機会があるもGoogle CloudのSpeech-to-Textを継続
Google Cloudブログでは、2022年6月に改めて音声認識エンジンを検討することになったとし、10社ほどの日本語対応の音声認識エンジンを「コスト」「認識精度」「インフラの安定性」という視点でテストを行ったが、Google CloudのSpeech-to-Textが継続してい使用することになったことも明らかした。
このことについて、開発発本部 CTO室 SREグループの坂口氏は50cmから1m程度の距離の入力が最も優れていたと点を挙げるとともに、コストの面でもトリガーワードを設定していないため認識回数が増えてしまうためコスト増に直結していたという点においても、課金単位が「15秒単位」から「1秒単位」と変更となったためコストダウンに繋がったこともGoogle CloudのSpeech-to-Textを継続する後押しの理由に挙げている。
大規模言語モデルのRomi適用は現実的ではない
一方で今話題となっているChatGPTに代表される大規模言語モデルについて、Romi事業部 BizDev・デザイングループ マネージャーの長岡氏は、「大規模言語モデル注視はしているが応答速度の問題で直ぐにコミュニケーションロボットに使うのは現実的ではない」との考えを示すとともに、現状は実用性重視のためRomiで実現したいコミュニケーションにはなりにくいという点を指摘している。
今後のRomiのAIについては、学習内容を吟味して「Romi」のための学習モデルを作り込んでいく方向であるとしている。
会話AIロボット「Romi」顔を覚えて家族の名前を呼び分ける新機能を搭載!AmazonのRomiストアで10%オフ販売実施へ
会話AIロボット「Romi」が「うさぎ」に大変身!公式きせかえシリーズ第2弾「Romiのきせかえ(白うさぎ)」Amazonで販売
会話AIロボット「Romi」関連記事(ロボスタ)
Google Cloudブログ「MIXI: 会話 AI ロボットの音声認識に Speech-to-Text を、学習基盤に Compute Engine を採用して自然な会話を実現」
「Romi」公式サイト
株式会社MIXI
この記事を読んだ人におすすめ
-
会話AIロボット「Romi」顔を覚えて家族の名前を呼び分ける新機能を搭載!AmazonのRomiストアで10%オフ販売実施へ
-
癒やし系会話AIロボット「Romi」が「ChatGPT」での会話機能に対応 いつものほっこり会話とON/OFFで切換 会話動画も公開
-
【世界初】NTT、話者が話す意味と内容を手がかりに目的の音声を取り出す音源分離技術コンセプトビームを開発 しくみと凄さを解説
-
【スマートスピーカーに関する調査】利用者は1割弱 利用している機能は「天気予報、気温」が6割弱、「音楽を聴く」が5割弱
-
アクセンチュアとGoogle Cloudが連携を拡大 サイバーレジリエンス強化 Google Cloudのセキュリティ向けジェネレーティブAIを活用
-
市役所の案内は音声技術と21.5インチのタッチパネルにお任せ!草加市役所の新本庁舎で案内用 AIシステム5台が本番稼働 タケロボ
-
Googleの生成系AI「Bard」がLINEで利用できる!LINE bot「AI博士ちゃん」で「Bard」が手軽に試せる REGALOリリース