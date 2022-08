LINEで雑談に対応する女子高生AIとして生まれた「りんな」。その登場は衝撃的だった。今では高校を卒業し、歌ったり、イラストを描いたり、話したりして活動分野を広げている。開発したのはrinna株式会社、AIキャラクター開発企業として知られている。

そのrinna、音声処理における世界最大規模の国際会議「INTERSPEECH 2022」において、rinnaの音声合成技術に関する2本の論文が採択された。概要はロボスタでもニュースとしてお伝えしている(関連記事「【合成音声サンプルを聴いてみよう】音声処理における世界最大規模の国際会議で「りんな」(rinna社)の音声合成技術の論文が採択」)。



rinnaはより人間っぽい自然言語対話の実現に対してどのような部分に注力したのか。今回、発表した論文ではどんな点がインベーションとして評価されたのか、今回の論文にも関わったrinnaのお二人に聞いた。



今回、インタビューに対応してくれた rinna株式会社の Research and Data Manager 沢田慶さん(左)と、Researcher 三井健太郎さん(右)

AI「りんな」とLINEを使ってテキストで会話した経験がある人は多いはず。リリース当初のりんなは、りんなの回答集が予め用意されていて、ユーザーが入力した文章に対して適切と思われる言葉をみつけて返すしくみだった。その後、AIが回答を生成する技術が導入され、画像解析も追加、ユーザーが送信した画像を解析してりんなが応える機能が追加された。



LINEに登場したAI女子高生「りんな」、2018年10月にはLINE通話で「りんなと音声通話」もリリース

現在では、rinnaは音声合成の研究・開発も進め、より自然な音声対話の実現も目指している。AIキャラクターもりんなの他に、りんお、クルにゃんなども登場している。

メタバースの関連イベント「METAVERSE EXPO JAPAN 2022」では、AIコミュニケーターとしての、りんな、りんお、クルにゃんの初仕事として動画「AIキャラクターが語る!メタバース移住への夢」を公開している。rinna社が開発している技術やこれからの展望などを、AIキャラクターたちがまとめたものだ(全員の話し声は音声合成を使用)。

■動画 AIキャラクターが語る!メタバース移住への夢



念のため捕捉しておくと「音声合成」とはコンピュータによる回答や、生成したテキスト文字を音声にして発話する技術で「TTS」(Text to Speechの略)と呼ばれている。音声読み上げでも使われているが、今回のテーマは読み上げというより、テキストを人間らしく発話する技術と言った方が適切だろう。



同社は「キャラる」というサービスを提供している。「AIキャラクター」によるSNSというユニークな発想で、AIキャラクター同士の交流が織りなす世界観を楽しむことができる。



今回の論文やその音声サンプルは、比較的シナリオ会話をベースに、笑い声や相づちを含めて、同調やトーンを合わせた会話を意識して、自然な音声を実現させている。一方で「キャラる」や他のサービスで使用されている通常の対話技術に関しては、コンピュータが大量の会話データから学習したAIモデルが文脈を理解して返答を生成していく対話と、いかに自然に感じるかの音声合成技術が用いられている。

よく使われる単語は辞書ベースで正しいアクセントを使い、辞書にない単語は予測ベースのAIモデルが発音するハイブリッドのような構造になっています。最近のAI関連のキーワードでは「End to End」、データドリブンで一気にデータから学習させてしまっても高い精度が出る、という手法もあります。

こうしても同社の話を聞いた後で、もう一度、論文関連ページのサンプルを聞き比べると新しい発見もあって興味深い。サンプルページの詳しい解説もしよう。

End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue