【誌上体験】音声発話技術と歌声合成の最前線、「VoiceText」の最新技術とそのしくみ

テキスト文字から音声を作りだして発話する技術「音声合成」(Text To Speech)の市場が急成長しています。
駅や空港等の構内放送、防災放送、コールセンターの自動応答など、私達は機械が話す言葉を実はとても身近なところで頻繁に耳にしています。天気や気象情報、金融、交通・渋滞情報など、刻々と変わる状況を音声で伝えるシーンでも多用されています。もちろんロボットの発話にも使われている重要な技術です。

例えば、この放送も機械が発話しています。

保谷市環境保全課からお知らせいたします。ただ今、光化学スモッグ注意報が発令されました。屋外での運動は避けて下さい。

HOYAサービスは1,300社以上の導入実績を持つ、音声合成技術のトップランナーです。音声合成だけでなく歌声合成の開発も着手していて、両方の技術に長けている企業はあまり類を見ません。
今回は、同社にお伺いして音声技術の最前線を聞きました。

HOYAサービス株式会社音声ソリューション事業部事業企画室室長兼 CS営業グループグループリーダー楠仁至氏

HOYAサービスの音声合成技術「VoiceText」は、多くの分野で活用されています。例えばロボットでは、シャープの「ロボホン」や講談社の「ATOM」、ユカイ工学の「BOCCO」、宇宙に行ったロボット「KIROBO」、大阪大学石黒研究室が開発したヒューマノイドロボット「ERICA」などでも使われています。

編集部

「VoiceText」はどのようなシーンで活用されていますか?

HOYA

構内放送や防災放送、ロボットのほかにも、動画マニュアル、スマートフォンやパソコンのアプリケーション、映像コンテンツやeラーニング等のナレーション、目の不自由な方向けにホームページの画面などを読み上げるスクリーンリーダーなど、音声を発するものであればどんなシーンでも幅広く利用されています。また、ワープロソフトの「一太郎」では入力した文章を校正用に読み上げる機能として活用されています。
珍しいところではテレビ東京様の「モヤモヤさまぁ～ず2」のナレーションもVoiceTextが担当しています。この場合は、番組のテイストに合わせて、むしろ機械っぽい発話でナレーションを展開していますが、最近の音声ガイダンスや情報提供では機械っぽさを感じない例も多数あります。

HOYAサービス株式会社音声ソリューション事業部 CS技術グループ第2チームリーダー立花綱治氏

編集部

VoiceTextは音声を作って話す技術だと思いますが、どのような特徴がありますか?

HOYA

VoiceTextの最も大きな特長は「肉声感」と「豊かな感情」です。滑らかに、明瞭に、自然な肉声に近い声で発話できることが特徴です。
例えば、感情の豊かさでは、同じセリフの発話でもこのように感情の変化をつけることができます。

ありがとう、本当にうれしい

編集部

感情による表現の違いは明らかですね。機械に言われているのに、こちらもうれしくなってきますね(笑)
音声合成の技術にはいくつかの方式や種類があるんですか?

HOYA

現在よく利用されている音声合成の技術としては「波形接続型」と「HMM型」の2種類があります。波形接続型は人間の声に近くて自然です。HMM型は開発がしやすく、感情表現が豊かなことが利点です。

HOYAサービス株式会社音声ソリューション事業部 CS技術グループ竹下裕樹氏

「波形接続型」(VoiceText)と「HMM型」(VoiceText Micro)

VoiceTextは、現在主流となっている「波形接続型」(VoiceText)と「HMM型」(VoiceText Micro)の両方を製品化し、用途に合わせてサービス提供されています。どちらも録音した人間の音声を素にしていますが、その音声をそのままつなぎ合わせて発話する方法と、機械が計算によって音声を作り出し発話するという大きな違いがあります。
まずは聞き比べてみてください。

波形接続型

HMM型

聞き比べると違いがわかりますよね。
では、次に技術的な違い、それぞれのメリットと課題を見てみましょう。

波形接続型のメリットと課題

波形接続型は読んで字のごとく、実際の音声の波形をつなぎ合わせて発話をする技術です。ただ、単に単語や文字ごとにつなぎ合わせただけでは人はとても違和感を感じるので、膨大な音声データベースの中から違和感を感じないものを瞬時につなぎ合わせるアルゴリズムが技術のポイントになります。うまく繋がればまさに人が話しているのと変わりがない「自然感・肉声感」のある発話が実現します。
課題としては、素となる音声データが膨大に必要なため収録が長期間になることと、淡々としたしゃべり方になりがちな点が挙げられます。
このような理由からオリジナルの「波形接続型」の音声合成器を作るためには時間とコストがかかります。また、音声データの容量も大きくなりがちです。

※スライド提供 HOYAサービス株式会社

HMM型のメリットと課題

HMM型では、まず録音した音声データから人間のしゃべり方・声質といった特徴を機械に学習させます。合成時には人間のしゃべり方・声質を模倣するように計算して音声を作ります。
素になる音声は波形接続型と同様に録音しますが、必要な音声データはずっと少なく済むのが特徴です。
また計算して声を作るため、柔軟性が高く、様々な応用が可能です。例えば、先ほどの「本当にうれしい!」の感情表現もHMM型の特徴の一つで、その他の感情表現や発話スタイルなどにも応用ができます。
こうしたことから現在のオリジナルの音声合成器を作る際の主流はHMM型で、ロボットでもほとんどの製品でこちらが採用されています。

編集部

HMM型音声合成「VoiceText Micro」のしくみがわかりました。特徴をまとめて教えて頂けますか

HOYA

VoiceText Microの音声合成の特徴は大きく3つあります。
「豊かな感情音声表現」「様々な個性のキャラクターボイス」「ひとつだけのオリジナルボイス」です。

「感情表現」は「普通」「喜び」「悲しみ」「怒り」の4パターンで、4段階の強弱が設定できます。
次の様々な個性のキャラクターボイスについてですが、お爺さん、お婆さん、女の子、猫や熊、ロボット、マルチリンガルなど、様々なキャラクターに合わせて音声を用意しています。

お爺さん(サンタ)

小さな女の子

「音声合成の声優事務所」というキャラクターボイスを体験して頂けるホームページを用意していますので、ぜひ視聴して体感してください(リンクは次ページ)。

入力したメッセージをウェブ画面でキャラクターボイスで発話できる。感情やスピードも調整して試すことができる

3つめの「ひとつだけのオリジナルボイス」は、お客様ご指定のナレーター・声優からオリジナルの音声合成器を作成するサービスです。個性的なキャラクター作りにとても役立ちます。ロボットでは特に声の個性は重要とされていますね。

編集部

音声合成技術以外にも特徴はありますか?

HOYA

多言語対応も特徴のひとつです。11種類の言語に対応していて、すべての言語をHOYAグループ内で開発しています。今後30種類以上の言語に対応予定です。
英語もアメリカ英語、イギリス英語など数種類に対応します。それぞれの言語はネイティブ・スピーカーの録音した音声データを素に生成が行われています。
マルチリンガルの方の声を録音すれば、ロボットが同じ声でマルチリンガルで発話するといったこともできます。

HOYAサービス株式会社音声ソリューション事業部 CS技術グループ虫鹿弘二氏

編集部

開発中の新しい技術もご紹介頂けますか?

HOYA

「歌声合成」「方言」「話し言葉」等を目標に開発中です。まず「歌声合成」を聞いてみてください。

自然な歌声をどこまで再現できるか?「歌声合成」

HOYA

現在、新技術として「歌声合成」を開発中です。歌声合成とはメロディーと歌詞で構成された楽譜をコンピュータに入力することで、歌声を生成する技術です。まずは実際に聞いてみてください。

♪ My Own Story （オリジナルソング）

編集部

これ・・人間が歌っているんじゃないんですか?

HOYA

合成音声の歌です。歌詞とメロディーのみを入力しており、ピッチ・リズム・ビブラートなどの調整は一切行っていません。ただ、BGMと馴染ませるためのEQ・コンプレッサー・リバーブなどの一般的なエフェクト技術は使用しています。

編集部

人間が歌ったデータをもとにしているのですか?

HOYA

はい。まったく別の歌ですが、もとの録音があります。従来の一音一音を録音する方式ではなく、一曲普通に歌ってもらうような方式で録音しています。

編集部

ここから音声の特徴を機械が学習して、別の歌を歌わせた、ということなんですね?
感情がこもった表現力を感じますし、ブレス(息つぎ)しているかのようなリアル感ですね。

HOYA

はい。人間のように自然に歌う歌声を目指しています。発音が明瞭、音程が滑らか、息継ぎが自然なことなどがポイントです。また、歌唱者の声質だけでなく歌い方や歌唱表現なども再現しています。
「音声合成の声優事務所」で様々なキャラクター向けボイスや歌声合成を視聴できますので、ぜひアクセスしてみてください。

この技術を使うと、例えばロボットの声で比較的に自由に歌わせたり、テレビやイベント、展示会、店舗などでも、オリジナル音声の歌声が用途やシーンに合わせて歌わせることも可能になるのではないかと考えています。

編集部

従来の歌声合成とは技術的にはどのようなちがいがあるのでしょうか?

HOYA

従来の歌声合成では、比較的短い単位の波形を接続するタイプの波形接続型を使用しているケースが多いのですが、当社はHMM型をベースに歌声合成を開発しています。HMM型では歌全体の流れも含めて機械学習しているため、音程の変化が滑らかです。ビブラートなども本人の歌い方を再現しています。また、歌唱表現なども再現されるため、素となる歌唱者の歌声の表現力・歌唱力が高いほど良い歌声が生成できます。
もう一つの特徴として楽譜の入力のみで高い品質の歌声を生成できることが挙げられます。従来の歌声合成では職人的な調整作業が必要でしたが、HMM型では調整無しでも高い品質の歌声を生成できます。例えば、「Happy Birthday」の名前の部分を変えたり、ユーザーが歌詞の一部分を替え歌にするなどの動的な対応が可能になります。
歌声合成は様々なシーンで利用のニーズが拡がっている分野です。今までは機械的な歌声が多かったのですが、より自然な歌声を実現していくことで、応用範囲はもっと広くなると考えています。

方言や話し言葉の再現に挑む音声合成技術

編集部

他にどのような技術を開発中なのでしょうか?

HOYA

「喋り方の変更」と呼ばれる、各キャラクターの「声質」と「喋り方」を組み合わせる技術を開発しています。
例えば、同じ声でもナレーター風、ラジオDJ風、おばあさん風など、「声質」と「喋り方」の組み合わせることでキャラクターの可能性を大きく広げることができます。関西弁・博多弁などの「方言」と組み合わせて訛らせることも変更の一つと考えています。

編集部

「方言」の音声合成というのはどういうものですか

HOYA

例えば、博多弁で録音した音声を機械学習して、博多弁の音声合成器を作成したケースです。これを聞いてみてください。

博多弁

編集部

面白いですね、博多弁、可愛いし(笑)。今はまだ開発中ということですが、近い将来はどんな方言でも対応可能になるのでしょうか?

HOYA

すぐというわけにはいきませんが原理的には可能です。ただ、アクセントやイントネーションなどの違い等によって、自然に聞こえるように話すための難易度は方言によって大きく異なります。関西弁は意外と難しくて、まだ研究を重ねる必要がある段階です。

編集部

最後に、今後の展開について教えてください

HOYA

「話し言葉」などの表現力拡大を目標に研究開発を進めています。
ロボットなど親しみやすさが重視される分野では、会話における微妙なニュアンスの表現も求められています。
例えば、同じ「そうですよね。」でも、「そうですよねー。」と伸ばした方が共感してくれている印象を受けますし、「そうですよねー…。」と語尾のトーンも下がることで、心配してくれているという印象も感じるようになります。こういった微妙なニュアンスの表現は音声合成では再現が難しい分野です。
今後はこのような表現力の拡大に向けて研究を進めていきます。

HOYA

今後は、IoT、人工知能、対話サービスなどの市場拡大が期待されています。そのため、アウトプットのひとつの方法として音声合成が利用されるシーンがさらに高まってくると考えています。顧客のサービスシーンに応じた声色の開発、感情対応エンジン、欧州の言語をはじめとしたさらなる多言語化など、様々な開発を進めていく予定です。

音声発話技術が実際に体験できるチャンス

同社は、2017年5月10日(水)～5月12日(金)の3日間、東京ビッグサイトで開催される「2017 Japan IT Week 春」の「第6回IoT/M2M展春」へ出展するとのこと。日本語音声では、聞き取り易さを重視した男女の声を始めとして、計10話者を聞き比べられる予定です。新しく追加された言語、タイ語、ポルトガル語(ブラジル)の展示、「VoiceText Micro SDK」なども展示予定とのことです。開発者や企画担当者、ユーザーの方々など、音声技術に興味のある方は足を運んでみては如何でしょうか?　
【展示会情報】
第6回 IoT/M2M展(2017 Japan IT Week春) 小間：西15-36
> 展示内容の詳細はこちら

HOYAサービス株式会社「VoiceText」公式ホームページでは音声合成などを試すことができます
http://voicetext.jp/

【誌上体験】音声発話技術と歌声合成の最前線、「VoiceText」の最新技術とそのしくみ

「波形接続型」(VoiceText)と「HMM型」(VoiceText Micro)

波形接続型のメリットと課題

HMM型のメリットと課題

自然な歌声をどこまで再現できるか?「歌声合成」

方言や話し言葉の再現に挑む音声合成技術

音声発話技術が実際に体験できるチャンス

関連タグ

ロボスタ編集部

特集

音声合成

【セミナー】中国ヒューマノイド産業の最前線 2026春～深圳から現地レポートと最新情報アップデート

【セミナー】AIロボット普及の最後のピース「ロボットハンド技術の社会実装、現状と課題」RRI/大阪大学原田教授に聞く

神崎洋治の「ロボットの衝撃」

森山和道の「ロボットの見方」