自然な歌声をどこまで再現できるか?「歌声合成」
HOYA
現在、新技術として「歌声合成」を開発中です。歌声合成とはメロディーと歌詞で構成された楽譜をコンピュータに入力することで、歌声を生成する技術です。まずは実際に聞いてみてください。
編集部
これ・・人間が歌っているんじゃないんですか?
HOYA
合成音声の歌です。歌詞とメロディーのみを入力しており、ピッチ・リズム・ビブラートなどの調整は一切行っていません。ただ、BGMと馴染ませるためのEQ・コンプレッサー・リバーブなどの一般的なエフェクト技術は使用しています。
編集部
人間が歌ったデータをもとにしているのですか?
HOYA
はい。まったく別の歌ですが、もとの録音があります。従来の一音一音を録音する方式ではなく、一曲普通に歌ってもらうような方式で録音しています。
編集部
ここから音声の特徴を機械が学習して、別の歌を歌わせた、ということなんですね?
感情がこもった表現力を感じますし、ブレス(息つぎ)しているかのようなリアル感ですね。
HOYA
はい。人間のように自然に歌う歌声を目指しています。発音が明瞭、音程が滑らか、息継ぎが自然なことなどがポイントです。また、歌唱者の声質だけでなく歌い方や歌唱表現なども再現しています。
「音声合成の声優事務所」で様々なキャラクター向けボイスや歌声合成を視聴できますので、ぜひアクセスしてみてください。
この技術を使うと、例えばロボットの声で比較的に自由に歌わせたり、テレビやイベント、展示会、店舗などでも、オリジナル音声の歌声が用途やシーンに合わせて歌わせることも可能になるのではないかと考えています。
編集部
従来の歌声合成とは技術的にはどのようなちがいがあるのでしょうか?
HOYA
従来の歌声合成では、比較的短い単位の波形を接続するタイプの波形接続型を使用しているケースが多いのですが、当社はHMM型をベースに歌声合成を開発しています。HMM型では歌全体の流れも含めて機械学習しているため、音程の変化が滑らかです。ビブラートなども本人の歌い方を再現しています。また、歌唱表現なども再現されるため、素となる歌唱者の歌声の表現力・歌唱力が高いほど良い歌声が生成できます。
もう一つの特徴として楽譜の入力のみで高い品質の歌声を生成できることが挙げられます。従来の歌声合成では職人的な調整作業が必要でしたが、HMM型では調整無しでも高い品質の歌声を生成できます。例えば、「Happy Birthday」の名前の部分を変えたり、ユーザーが歌詞の一部分を替え歌にするなどの動的な対応が可能になります。
歌声合成は様々なシーンで利用のニーズが拡がっている分野です。今までは機械的な歌声が多かったのですが、より自然な歌声を実現していくことで、応用範囲はもっと広くなると考えています。
方言や話し言葉の再現に挑む音声合成技術
編集部
他にどのような技術を開発中なのでしょうか?
HOYA
「喋り方の変更」と呼ばれる、各キャラクターの「声質」と「喋り方」を組み合わせる技術を開発しています。
例えば、同じ声でもナレーター風、ラジオDJ風、おばあさん風など、「声質」と「喋り方」の組み合わせることでキャラクターの可能性を大きく広げることができます。関西弁・博多弁などの「方言」と組み合わせて訛らせることも変更の一つと考えています。
編集部
「方言」の音声合成というのはどういうものですか
HOYA
例えば、博多弁で録音した音声を機械学習して、博多弁の音声合成器を作成したケースです。これを聞いてみてください。
編集部
面白いですね、博多弁、可愛いし(笑)。今はまだ開発中ということですが、近い将来はどんな方言でも対応可能になるのでしょうか?
HOYA
すぐというわけにはいきませんが原理的には可能です。ただ、アクセントやイントネーションなどの違い等によって、自然に聞こえるように話すための難易度は方言によって大きく異なります。関西弁は意外と難しくて、まだ研究を重ねる必要がある段階です。
編集部
最後に、今後の展開について教えてください
HOYA
「話し言葉」などの表現力拡大を目標に研究開発を進めています。
ロボットなど親しみやすさが重視される分野では、会話における微妙なニュアンスの表現も求められています。
例えば、同じ「そうですよね。」でも、「そうですよねー。」と伸ばした方が共感してくれている印象を受けますし、「そうですよねー…。」と語尾のトーンも下がることで、心配してくれているという印象も感じるようになります。こういった微妙なニュアンスの表現は音声合成では再現が難しい分野です。
今後はこのような表現力の拡大に向けて研究を進めていきます。
HOYA
今後は、IoT、人工知能、対話サービスなどの市場拡大が期待されています。そのため、アウトプットのひとつの方法として音声合成が利用されるシーンがさらに高まってくると考えています。顧客のサービスシーンに応じた声色の開発、感情対応エンジン、欧州の言語をはじめとしたさらなる多言語化など、様々な開発を進めていく予定です。
音声発話技術が実際に体験できるチャンス
同社は、2017年5月10日(水)~5月12日(金)の3日間、東京ビッグサイトで開催される「2017 Japan IT Week 春」の「第6回IoT/M2M展 春」へ出展するとのこと。日本語音声では、聞き取り易さを重視した男女の声を始めとして、計10話者を聞き比べられる予定です。新しく追加された言語、タイ語、ポルトガル語(ブラジル)の展示、「VoiceText Micro SDK」なども展示予定とのことです。開発者や企画担当者、ユーザーの方々など、音声技術に興味のある方は足を運んでみては如何でしょうか?
【展示会情報】
第6回 IoT/M2M展(2017 Japan IT Week春) 小間:西15-36
> 展示内容の詳細はこちら
http://voicetext.jp/