次世代音声合成AIエンジン「AITalk5」搭載「ナレーション作成ソフト」の新版を発表 深層学習技術で人間に近い肉声感 SDKも提供

株式会社エーアイは次世代音声合成エンジン「AITalk5」を搭載した新製品、ナレーション作成ソフト「AITalk5 声の職人 パッケージ版」及び「AITalk5 SDK」を提供開始することを発表した。2020年5月7日(木)より受注開始する。

次世代型音声合成エンジンAITalk5は従来の「コーパスベース音声合成方式」と最新の深層学習技術を活用した「DNN音声合成方式」を搭載。利用シーンや実現したい音声に合わせて選択することができる。

【特徴】
「コーパスベース音声合成方式は人間に近い肉声感。
「DNN音声合成方式」は雑音や接続ひずみを解消し安定した音声


PCにテキストを入力するだけで、高品質な音声ファイルが作成できる

AITalk 声の職人 パッケージ版はパソコンにテキストを入力するだけで、手軽に高品質な音声ファイルが作成できるナレーション作成ソフト。直感的な操作で、イントネーションの調整や固有名詞の読み方登録も簡単におこなうことが可能。電話自動応答の音声や放送音声、PowerPointでのプレゼンテーション、マニュアル・eラーニング教材のナレーション等など、今までナレーションの収録を諦めてきたコンテンツに、高品質な音声合成によるナレーション音声を手軽につけることができる。


■利用シーン
・教材や資料/マニュアル/e-learningコンテンツのナレーション作成
・電話自動応答の音声ガイダンス作成
・観光案内や館内放送のアナウンス作成

■主な機能
・自由文音声合成、保存
 任意の文章を人間の声に近い自然な音声で合成し、音声ファイルとして保存する。
・イントネーション調整
 最適なイントネーションに調整することが可能。
・単語登録
 業界や分野特有の専門用語や略語、製品名などの固有名詞の読み方を予め登録することが可能。
・話速変換
 0.5~4.0倍の範囲でスピードの調整が可能。
・感情表現を実現
 シチュエーションや用途に合わせた感情表現を実現。


dllまたはsoで提供されるAITalk5 SDK

AITalk5 SDKは人間らしく自然な音声で自由に音声合成をする事ができる音声合成SDK(ソフトウェア開発キット)。ライブラリ(dllまたはso)で提供される。活用例としては病院の受付等で、カルテに入力した名前をリアルタイムで音声呼び出す来客通知・番号呼び出しシステムや、生産現場での作業内容の音声指示、防災行政無線や、館内放送などの放送システムなど。


■主な機能
・感情表現を実現
 シチュエーションや用途に合わせた感情表現を実現。
・イントネーション調整
 最適なイントネーションに調整することが可能。
・単語辞書機能
 地名や氏名などの特殊な読み方をする単語を辞書として登録できる。
・マルチスレッド対応
 クアッドコアに最適化、高いパフォーマンスを実現。
・ライブラリ(dllまたはso)での提供
 Windows用、Linux用それぞれの環境に適した、利便の良いライブラリを提供。
・オプションでチューニング実装機能の追加が可能(※Windows版のみの提供)
■開発時のシステム構成イメージ

ABOUT THE AUTHOR / 

山田 航也

横浜出身の1998年生まれ。現在はロボットスタートでアルバイトをしながらプログラムを学んでいる。好きなロボットは、AnkiやCOZMO、Sotaなどのコミュニケーションロボット。

PR

連載・コラム