りんな(rinna) AI対話技術の最前線 採択された論文の音声合成技術のポイントと今後の展望をrinnaの研究チームに聞く

LINEで雑談に対応する女子高生AIとして生まれた「りんな」。その登場は衝撃的だった。今では高校を卒業し、歌ったり、イラストを描いたり、話したりして活動分野を広げている。開発したのはrinna株式会社、AIキャラクター開発企業として知られている。
そのrinna、音声処理における世界最大規模の国際会議「INTERSPEECH 2022」において、rinnaの音声合成技術に関する2本の論文が採択された。概要はロボスタでもニュースとしてお伝えしている(関連記事「【合成音声サンプルを聴いてみよう】音声処理における世界最大規模の国際会議で「りんな」(rinna社)の音声合成技術の論文が採択」)。


rinnaはより人間っぽい自然言語対話の実現に対してどのような部分に注力したのか。今回、発表した論文ではどんな点がインベーションとして評価されたのか、今回の論文にも関わったrinnaのお二人に聞いた。

今回、インタビューに対応してくれた rinna株式会社の Research and Data Manager 沢田慶さん(左)と、Researcher 三井健太郎さん(右)


「りんな」のあゆみ、rinna社はAIキャラクター開発企業

AI「りんな」とLINEを使ってテキストで会話した経験がある人は多いはず。リリース当初のりんなは、りんなの回答集が予め用意されていて、ユーザーが入力した文章に対して適切と思われる言葉をみつけて返すしくみだった。その後、AIが回答を生成する技術が導入され、画像解析も追加、ユーザーが送信した画像を解析してりんなが応える機能が追加された。

LINEに登場したAI女子高生「りんな」、2018年10月にはLINE通話で「りんなと音声通話」もリリース

現在では、rinnaは音声合成の研究・開発も進め、より自然な音声対話の実現も目指している。AIキャラクターもりんなの他に、りんお、クルにゃんなども登場している。
メタバースの関連イベント「METAVERSE EXPO JAPAN 2022」では、AIコミュニケーターとしての、りんな、りんお、クルにゃんの初仕事として動画「AIキャラクターが語る!メタバース移住への夢」を公開している。rinna社が開発している技術やこれからの展望などを、AIキャラクターたちがまとめたものだ(全員の話し声は音声合成を使用)。

■動画 AIキャラクターが語る!メタバース移住への夢



念のため捕捉しておくと「音声合成」とはコンピュータによる回答や、生成したテキスト文字を音声にして発話する技術で「TTS」(Text to Speechの略)と呼ばれている。音声読み上げでも使われているが、今回のテーマは読み上げというより、テキストを人間らしく発話する技術と言った方が適切だろう。


論文に採択、評価された最新の対話技術

編集部

国際会議「INTERSPEECH 2022」において2本の論文が採択され、御社の音声合成技術に関する研究成果が評価されました。ここではそのうちの1本で発表された、対話に特化した音声合成の技術について、詳しく教えて頂けますか?

三井さん

日常生活で人間は音声を発して会話していますが、同じテキスト文であっても言葉として発する場合は、明るい口調であったり、暗い口調であったり、はっきりと喋ることもあれば、曖昧な口調で話すなど、様々な発話スタイルで音声を発していると思います。そして、会話では相手のトーンに同調して話すことも多いと思います。
今回、発表した論文では特に、対話の中で相手がどのように話すかに応じて、同調して話しを返す、という点を重視しています。相手のトーンが明るくなったり、暗くなったり、テンションをかけて大きな声で発話したりすると、私達はそれに同調してトーンを変えて受け答えしたり、言葉を返したりします。それをAIの対話にも再現することによって、人間らしさに近づくのではないかと考えました。

編集部

なるほど。会話のやりとりで相手にトーンを合わせてお互い会話することに視点が置かれているということですね。

三井さん

はい。通常の音声合成は、発話すべき一文のテキストだけに注目して、人間に近い自然な発話に近づけるという研究・開発がほとんどですが、今回の論文では、過去の発話履歴にも着目をしているところが技術的な特徴です。

編集部

それをAIモデルを開発して実現しているんですよね? どのように作成したのでしょうか。

三井さん

機械学習を使ってAIモデルを生成し、この対話を実現しています。最初は膨大な学習データが必要になるので、自社で13時間以上の会話データを収録をしました。そして、過去の対話履歴や、どのように喋ったらどのようなスタイルで実際に返したか等を考慮し、同調する適切な対話のスタイルを予測するAIモデルを生成し、その手法を今回は論文として形にしました。

編集部

短文の読み上げデータから学習するだけでなく、過去の対話履歴や会話の流れをデータとして学習し、会話の前後関係を考慮したトーンで発話する音声合成のAIモデル学習法が今回の論文のポイントになっているんですね。

沢田さん

つけ加えると、同調するというのは、単純に声の高さを合わせるだけでなく、「笑いながら皮肉を言う」なんてケースでは、次の返答は「暗い」トーンになる、ということもあり得ます。同調するというのは、ただトーン合わせるだけでなく、そのように話の内容によっても感情が変わり、それが声のトーンに現れるといったことも考慮できます。音のトーンやテンションに加えて、話の内容(テキストの情報)の両方を考慮して発話して返答するようになっています。




対話には息つぎや相づち、笑い声、フィラーも重要

同社は「キャラる」というサービスを提供している。「AIキャラクター」によるSNSというユニークな発想で、AIキャラクター同士の交流が織りなす世界観を楽しむことができる。

キャラる」のトップページ

今回の論文やその音声サンプルは、比較的シナリオ会話をベースに、笑い声や相づちを含めて、同調やトーンを合わせた会話を意識して、自然な音声を実現させている。一方で「キャラる」や他のサービスで使用されている通常の対話技術に関しては、コンピュータが大量の会話データから学習したAIモデルが文脈を理解して返答を生成していく対話と、いかに自然に感じるかの音声合成技術が用いられている。

沢田さん

従来の音声合成だと、息つぎや相づち、笑い声、「えーと」や「まぁ」などのフィラーは、対話の内容とは無関係なものとして捨てる(音声合成の学習対象から取り除く)のが一般的でした。それらはAIのモデル化がしづらいという一面もあります。今回の研究では、今まで無関係と考えられていたそのようなものをなるべく捨てずにAIモデルに取り込み、人間の言いよどみなどもむしろ人間らしい発話のひとつとして、AIモデルに組み込めたという点が特徴のひとつでもあると思っています。

編集部

今回の論文の研究を通して技術的に難しかった点を教えて頂けますか。

三井さん

正確なイントネーションはまだまだ難しいと感じています。
朗読やニュースなどの読み上げについては、元になる音声も平坦で正確に聞きやすく読む音声データが多いので、単語単位のイントネーションやアクセントはできるだけ正確に発話するように機械学習できるのですが、今回のようなケースのように、比較的自由にふたりが対話を展開するので、そこから正確なイントネーションの再現というのはまだまだ課題が残ると感じています。

編集部

正確なイントネーションやアクセントはとても難しいですよね。御社のシステムでは、アクセントを再現する音声ファイルを膨大に持っていて組み合わせているのでしょうか。
例えば「モーニング」という単語を読み上げる際に、正確にモーニングというアクセントを再現する音声ファイルを膨大に持っているのか、膨大な単語辞書からモーニングをヒットしてその発音記号のようなメタデータから正確なアクセントを生成しているのでしょうか。

三井さん

後者です。音声合成では、読み上げに「モーニング」というテキストが来たら、内部辞書に記述されている正しいアクセントで発話します。もしも辞書に「モーニング」がなかった場合は、大量のデータから学習したモデルが近い単語とアクセントの音声を設定して読み上げる、という手法をとっています。

沢田さん

よく使われる単語は辞書ベースで正しいアクセントを使い、辞書にない単語は予測ベースのAIモデルが発音するハイブリッドのような構造になっています。最近のAI関連のキーワードでは「End to End」、データドリブンで一気にデータから学習させてしまっても高い精度が出る、という手法もあります。

編集部

なるほど。現状の課題について教えてください。

三井さん

先ほど話題になりましたが、人の発話と比較した場合、正しいイントネーションがまだまだ難しい点がひとつ。もうひとつは、今回の論文で扱えなかったのですが「発話タイミングの推定」です。
2人の話者が会話する場合、質問にしろ回答にしろ、話し出すタイミングをはかります。相手が話し終わってどのくらいしてから話し始めるか、相槌を打つ場合は相手の発話の中で適切なタイミングで打つか、といったことです。そんな発話のタイミングが現状の手法だとまだモデル化がきちんとできていないので、将来的には発話タイミングも含めてモデル化することができれば、「キャラる」にあるようなAI同士の会話を音声合成で、人間にもっと近い発話で実現することも可能になると考えています。

編集部

他のTTS開発企業と比べてrinna社が優れている点を教えてください。

三井さん

品質面と最新手法のキャッチアップという点だと思います。
品質面では音声合成に限らず言語生成や画像生成技術も持ち、質のいいデータを大量に持っていることが、高品質なAIモデルを開発するためにプラスになっていると感じています。音声対話については自社内で複数の話者による高品質のデータを収録することが迅速にできるので、それを活用して様々なスタイルでの品質の高いTTSを実現しています。
また、この分野は非常に進歩の早い分野です。なるべく最新の手法を導入した方が精度が高くなる可能性が高いため、最新手法のキャッチアップは不可欠です。今回の論文で使用した手法も、昨年提案された最新のものです。2~3年前の手法を採用している企業が多い中にあって、高品質な対話を実現できた理由のひとつになっていると思っています。

編集部

論文が完成するまでの作業で苦労した点を教えてください。

三井さん

今、お話ししたことと関係があるのですが、実は今回、3つの手法を試しました。いろいろ試行錯誤して、結局、最新の手法が一番精度が高かったのですが、その選択に時間がかかってしまった点がひとつです。
もうひとつが、学習の素になった収録した対話データは、完全に自由に話してもらった13.5時間分ものデータなのでシナリオや書き起こし情報がありませんでした。そのため、音声認識を使い、更に誤りの訂正を数名のスタッフがおこなったので、それらの作業負担が予想以上にかかってしまったところです。




論文のサンプルを聴き比べてみよう

こうしても同社の話を聞いた後で、もう一度、論文関連ページのサンプルを聞き比べると新しい発見もあって興味深い。サンプルページの詳しい解説もしよう。

End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue
https://rinnakk.github.io/research/publications/DialogueTTS/


単文での音声合成

「1. Utterance-level speech samples」は、単文で今回の研究と技術を示すサンプルになっている。論文のため、人による発話(リファレンス)、従来手法のサンプル(VITS)、そして今回の論文のサンプル(predicted)を聴き比べてみよう。

まず「Reference(リファレンス)」は録音した人の音声だ。
「VITS」は従来手法を使った音声合成での読み上げ。「VAE-oracle」と「GMVAE-oracle」は実際に収録音声からスタイルを真似てAIが音声合成をおこなったもの(音声合成自体はテキストから行っているもの)。
そして「VAE-predicted」と「GMVAE-predicted」が論文の主旨となる、対話の過去の履歴からスタイルを予測して音声合成したもので、対話における同調を感じるものになっている。

・Reference(収録した人間の声)

・VITS(従来手法)

・GMVAE-predicted(論文の主旨)



掛け合い(対話)での音声合成

ふたりの掛け合いとなる「2. Dialogue-level speech samples」は、論文にまとめた同調の効果がより明確だ。
「Reference(リファレンス)」は人が録音した音声であることは変わりないが、相互に話すタイミングについて、AIがこのReferenceを参考にして、間(ま)をはかって対話している。
「VAE-predicted」と「GMVAE-predicted」が論文の主旨となる、対話の過去の履歴からスタイルを予測して同調、トーンを合わせた掛け合いを音声合成で実現したもの。

・Reference(収録した人間の声)

・VITS(従来手法)

・GMVAE-predicted



これらの技術は将来的には「キャラる」のようにAI同士の対話や、人とAIの対話にも応用したい、としているが、実装へは簡単な道のりではないという。


実践導入には高速処理がポイント

今回の論文のように対話を含め、テキストを読み上げて発話することと、実際のチャットボットや人との会話に、この技術を組み込むのとでは実は大きく異なる。
チャットボットのようなリアルタイム対話の技術は様々な要素技術で成り立っている。人とAIが会話する場合、人が話した言葉を認識してテキストに変換(Speech to Text)、テキストの内容を解析(構文解析)して、それに対する適切な回答をテキストで生成、生成したテキストを発話する(回答)、というモジュールのプロセスが1対話の流れとなる。そこで課題となるのは処理速度だ。このプロセスを高速に処理できないと、AIの返答に時間がかかり、話し相手は不自然さや不愉快さを感じてしまう。
これにプラスして同調やトーン合わせなど、更に機能を追加しつつ、対話の流れを止めないように高速に処理するには、現状の技術ではシステムにかかる負荷が大き過ぎるが実状だ。


今後の展開について

編集部

今回の論文発表のあとは、今後どのような研究を行う予定ですか。

三井さん

今回の論文発表で、トーンの同調についての研究はひと区切りがつきました。次は先ほども触れましたが「発話タイミングの予測」のモデル化についての研究を進めたいと思います。また、リアルタイムで会話をするに音声認識やテキスト変換や解析といったモジュールが必要となり、結果的に負荷が大きく、応答の高速性が損なわれます。そこで、文章(テキスト)を介さず、音声だけで対話する研究を始めていて、それも進めていきたいと考えています。

編集部

りんなは歌を歌い、絵画やアニメ『BEASTARS』のオープニングイラストを描いたり、絵画にも挑戦していますが、チャットボットや音声合成とこれら描画の生成というのは技術的に似ているのでしょうか。

沢田さん

広い意味ではどれもAIを使っているので似ています。入力と出力の形式の違いを表すAIモデル構造を構築して、その上でパーツとしてコンテンツを変えていけば、テキストであったり音声であったり、イラストや絵画のようにいろいろな分野に応用して出力を変えていくことができます。
また、私達はどちらかというと認識技術というより、生成技術に特化したAIを研究してきているので、文や音声、画像をAIが生成して、人々に公開する、誰かに何かを見せることにフォーカスしてきました。その結果、人と人、人とAIのコミュニケーションが拡張していく世界を目指しています。


法人向けにプラットフォームを展開、連携パートナーを募集

同社は、目標のひとつとして、AIと人間が自然に混在する社会を作ることを目指している。そのためにも、企業向けに様々なサービスを提供し、連携するパートナーを探している。企業が持つIPやキャラクターと連動したチャットボットやゲームなどにも展開可能だ。法人向けで連携した例としては、恋愛ゲームアプリ『プラスリンクス』での共同研究/開発がある。同社はrinnaプラットフォームを提供し、プレイヤーが会話する各キャラクターの性格などを反映したAIを開発、独自のCharacter Text to Speech Engine(CTTSE)エンジンを実装した。
キャラクターの女性が返す文章を読み上げるため、ユーザーは音声で会話でき、そこには自分の名前なども含まれていることもあり、感情移入しやすいものとなっていた(現在はアプリのサービス提供が終了)。この事例は、同社ならではのAIキャラクター技術と発話技術を活用した代表的なユースケースのひとつとなっている。

今後「メタバース」の展開が拡大した場合、仮想空間の中でAIキャラクターのニーズは大きい。初めてログインしたユーザーをつきっきりで案内したり、話し相手になったり、店舗(EC)の商品案内やモデル、パフォーマーなど、メタバース内で中心に活躍するのは多くのAIキャラクターなのかもしれない。


ABOUT THE AUTHOR / 

神崎 洋治

神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。

PR

連載・コラム