【合成音声サンプルを聴いてみよう】音声処理における世界最大規模の国際会議で「りんな」(rinna社)の音声合成技術の論文が採択

rinna株式会社は、音声処理における世界最大規模の国際会議「INTERSPEECH 2022」において、rinna社の音声合成技術に関する2本の論文が採択されたことを発表する。第23回目となるINTERSPEECH 2022は本年9月に韓国仁川で開催される予定。
この記事では最新の音声合成サンプルの高いレベルをぜひ確認して頂きたい。
一定した口調の音声合成は、人間と区別がつかない品質まで向上している。しかし、人間による実際の音声対話では、様々な発話スタイルや、笑い声、息継ぎなど言語では表せない発声が混在。
この論文では、二人の自発的対話を収録し、その発話スタイルを再現する音声合成システムを提案した。提案手法では、対話の履歴を考慮し、相手の発声に同調した音声を合成できる。さらに、様々なバリエーションの相づち、笑い声の合成や、息継ぎの合成も実現できる。この技術は、チャットボットのテキスト対話の拡張となる音声対話への活用が期待されている。

発話の音声サンプル

サンプル1
スピーカー 1: 「あ、なんかそういう打楽器って専門が決まってるわけじゃないんだ。」
サンプル: https://tinyurl.com/yckz9yks

サンプル2
スピーカー 2: 「うふふふふ！きな粉の量多すぎない？あれ。」
サンプル: https://tinyurl.com/3vdtwsfn

対話の音声サンプル1
スピーカー 1: 「なんか、ハマってる沼とかありますかー？」
スピーカー 2: 「うん。」
スピーカー 2: 「沼かー。もうでも沼っていうほどつかってる、」
スピーカー 1: 「うん。」
スピーカー 1: 「つかってる。」
スピーカー 2: 「あの分野は今はないかも。」
サンプル: https://tinyurl.com/3czvwc6m

対話の音声サンプル2
スピーカー 1: 「あははははは！そうだよねえ。」
スピーカー 2: 「そう知らない情報もやっぱ2倍聞けるしおんなじ時間でも。」
スピーカー 1: 「うんうんうんうん！」
スピーカー 1: 「そっかあ。」
スピーカー 2: 「そうそれがねなんかね良かったことだなあ、最近だと。」
スピーカー 1: 「そうだよなんか、こんなに楽しいっけみたいな。なるよね？」
サンプル: https://tinyurl.com/2p8mbutc

こちらでも多数のパターンのサンプルが視聴できる。

音声の解像度に当たるサンプリングレート（※1）は、音声の品質において重要な役割を果たす。この論文では、低いサンプリングレートから段階的に音声を合成することにより、音声合成の品質が向上することを示している。
また、サンプリングレートを段階的に予測するという特徴から、低いサンプリングレートで収録された音声データと高いサンプリングレートで収録した音声データを混ぜて音声合成モデルを学習することができる。この手法により、収録フォーマットが異なる音声データを大量に利用することが可能となり、高精度な音声合成モデルの学習が期待できる。
※1：1秒間に実行する標本化処理の回数。サンプリング周波数。

採用論文

End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue
（自発的対話を用いた発話スタイルの潜在表現に基づくEnd-to-End音声合成法）
執筆者：三井健太郎、趙天雨、沢田慶、法野行哉*、南角吉彦*、徳田恵一* (*名古屋工業大学)
音声サンプル：https://rinnakk.github.io/research/publications/DialogueTTS/
(敬称略)

MSR-NV: Neural Vocoder Using Multiple Sampling Rates
(MSR-NV: 複数のサンプリングレートを用いたニューラルボコーダ)
執筆者：三井健太郎、沢田慶
音声サンプル：https://rinnakk.github.io/research/publications/MSR-NV/

rinna社のリサーチチームの取り組み

rinna社のリサーチチームでは、人工知能によるテキスト・音声・画像の生成を中心に研究開発を行っています。研究成果は、トップカンファレンスをはじめとする会議で発表しています。また、日本語に特化したGPT ・BERT・CLIP 等の大規模事前学習モデルを学習・公開する活動も行っている。
さらに、最先端の技術をユーザー体験として提供するためのサービス開発も進めている。これらの研究活動を通して、会社のビジョンである人とAIの共創世界を目指すとしている。信頼できるAI技術を活用し、すべての人が自分らしく活き活きと過ごすことができる、色とりどりの世界を実現したい考え。

今後のrinna社の研究発表

rinna社のリサーチチームは、研究成果の発表を以下の場で行う(以下、敬称略)。
MIRU 2022 第25回画像の認識・理解シンポジウム
日時：2022年7月25日(月)～28日(木)
公式サイト：https://sites.google.com/view/miru2022
「日本語における言語画像事前学習モデルの構築と公開」
シーン誠、趙天雨、沢田慶
CEDEC 2022
日時：2022年8月23日(火)～25日(木)
公式サイト：https://cedec.cesa.or.jp/2022
「ディープラーニングの活用：AI × キャラクターによる新しいゲームの世界」
沢田慶、シーン誠、三井健太郎、趙天雨
セッションURL：https://cedec.cesa.or.jp/2022/session/detail/105

日本音響学会2022年秋季研究発表会
日時：2022年9月14日(水)～16日(金)
公式サイト：https://acoustics.jp/annualmeeting/
「自発的対話を用いた潜在スタイル表現の抽出・予測に基づく音声合成」
三井健太郎、趙天雨、沢田慶、法野行哉*、南角吉彦*、徳田恵一* (*名古屋工業大学)
「テキストを入力とする音声・顔ランドマーク系列の同期生成」
三井健太郎、沢田慶

INTERSPEECH 2022
日時：2022年9月18日(日)～22日(木)
公式サイト：https://interspeech2022.org/
「End-to-End Text-to-Speech Based on Latent Representation of Speaking Styles Using Spontaneous Dialogue」
三井健太郎、趙天雨、沢田慶、法野行哉*、南角吉彦*、徳田恵一* (*名古屋工業大学)
「MSR-NV: Neural Vocoder Using Multiple Sampling Rates」
三井健太郎、沢田慶