NVIDIAの生成AI研究者チームが、ユーザーがテキストだけで音声出力を制御できる音の万能ツールを開発した。
これまでのAIモデルの中には、曲を作曲したり音声を変更したりするものもあったが、同社は「この新しいモデルほど多機能なモデルはない」としている。どの辺が画期的なのか詳しく見てみたい。
プロンプト(文字)で入力した音楽・音声・サウンドの任意の組合せを生成または変換
Fugatto (Foundational Generative Audio Transformer Opus 1の略) と呼ばれるこのモデルは、テキストと音声ファイルの任意の組み合わせを使用して、プロンプトで記入された音楽、音声、サウンドの任意の組み合わせを生成または変換する。
例えば、テキストプロンプトに基づいて音楽の断片を作成したり、既存の曲から楽器を削除または追加したり、声のアクセントや感情を変更したり、これまで聞いたことのないサウンドを生成したりすることも可能だ。
マルチプラチナムプロデューサー兼ソングライターであり、最先端のスタートアップ企業向けのNVIDIA InceptionプログラムのメンバーであるOne Take Audioの共同創設者、Ido Zmishlany氏は「これは素晴らしい。サウンドは私のインスピレーションであり、私が音楽を作る原動力です。スタジオでまったく新しいサウンドを即座に作成できるというアイデアは、斬新です」と述べている。
オーディオの生成および変換をサポート
NVIDIAの応用オーディオ研究マネージャーであり、Fugattoの開発に携わった10人以上のスタッフの1人で、さらにオーケストラの指揮者兼作曲家でもあるRafael Valle (ラファエル ヴァレ)氏は「私たちは、人間のようにサウンドを理解して生成するモデルを作りたかったのです」と語る。
多数のオーディオ生成および変換タスクをサポートするFugattoは、様々なトレーニング済みの能力の相互作用から生じる創発特性と、自由形式の指示を組み合わせる機能を備えた、最初の基盤生成AIモデル。
「Fugatto は、大規模なデータとモデルからオーディオ合成および変換における教師なしマルチタスク学習が生まれる未来に向けた第一歩です」ともValle氏は話している。
ユースケースのサンプルプレイリスト
例えば、音楽プロデューサーは Fugattoを使用して、様々なスタイル、声、楽器を試しながら、歌のアイデアをすばやく試作したり編集したりできる。また、エフェクトを追加したり、既存のトラックの全体的なオーディオ品質を向上させたりすることも可能だ。
前出のIdo Zmishlany氏は「音楽の歴史はテクノロジの歴史でもあります。エレキギターは世界にロックンロールをもたらしました。サンプラーが登場すると、ヒップホップが生まれました。AI によって、私たちは音楽の次の章を書き始めています。私たちは新しい楽器、音楽を作るための新しいツールを手に入れました。これはとてもエキサイティングなことです」とも話している。
広告代理店は、Fugattoを適用して、既存のキャンペーンを複数の地域や状況にすばやくターゲティングし、ナレーションに様々なアクセントや感情を適用することができる。
言語学習ツールは、話者が選択した任意の声を使用するようにパーソナライズできる。例えば、家族や友人の声で話されるオンラインのコースを想像してほしい。
ビデオゲーム開発者は、このモデルを使用して、タイトル内の録音済みアセットを変更し、ユーザーがゲームをプレイするときに変化するアクションに合わせることができる。または、テキストの説明とオプションの音声入力から新しいアセットをその場で作成することもできるとしている。
楽しい音を生み出す
「このモデルの機能の中で、特に誇りに思っているのは、アボカドチェアと呼んでいるものです」と、Valle氏は語った。これは、画像生成AIモデルによって作成された斬新なビジュアルにちなんだ言葉だ。
例えば、Fugattoはトランペットが犬のように吠える音や、サックスが猫のように鳴く音を出すことができる。ユーザーが説明できるものなら何でも、このモデルは作成することができるのだ。
研究者は、ファインチューンと少量の歌唱データにより、テキストプロンプトから高品質の歌声を生成するなど、事前トレーニングされていないタスクを処理できることを発見した。
ユーザーは芸術的なコントロールを手中に
これらの他にも、いくつかの機能によってFugattoの斬新さは実現されている。
推論中、FugattoはComposableARTと呼ばれる技術を使用して、トレーニング中では個別にしか見られなかった指示を組み合わせる。例えば、プロンプトの組み合わせにより、フランス語のアクセントで悲しい気持ちで話されたテキストを要求することもできる。
モデルの指示間の補間機能により、ユーザーはテキスト指示、この場合はアクセントの重さや悲しみの度合いを細かく制御可能になる。
モデルのこれらの側面を設計したAI研究者のRohan Badlani (ローハン バドラニ) 氏は「ユーザーが主観的または芸術的な方法で属性を組み合わせて、それぞれにどの程度重点を置くかを選択できるようにしたかったのです」と話し、「テストでは結果に驚くことが多く、自分はコンピューター科学者であるにもかかわらず、少しアーティストになったような気分になりました」と、スタンフォード大学でAIを専門とするコンピューターサイエンスの修士号を取得した同氏は語っている。
このモデルは、時間の経過とともに変化するサウンドも生成し、Badlani氏はこれを「時間的補間」と呼んでいる。例えば、豪雨が地域を通り抜ける音の中で、雷鳴が徐々に高まり、その後ゆっくりと遠ざかって消えていく音を作り出すことができる。また、サウンドスケープがどのように変かするかをユーザーが細かく制御可能だ。
さらに、ほとんどのモデルでは、これまで公開されたトレーニングデータしか再現できなかったところが、Fugatto では、雷雨が鳥のさえずる夜明けにゆっくりと移行していくなど、これまでに見たことのないサウンドスケープをユーザーが作成することができる。
内部の仕組み
Fugattoは、音声モデリング、オーディオ ボコーディング、オーディオ理解などの分野でのチームのこれまでの取り組みを基に構築された、基盤生成Transformerモデルである。
フルバージョンでは25億のパラメーターが使用され、32基のNVIDIA H100 TensorコアGPUを搭載した複数台のNVIDIA DGXシステムでトレーニングされた。
Fugattoは、インド、ブラジル、中国、ヨルダン、韓国など、世界中の様々な人々によって作成。彼らのコラボレーションにより、Fugattoの多アクセントおよび多言語機能が強化されたとしている。
この取り組みで最も困難だったのはトレーニングに使用する何百万ものオーディオ サンプルを含む混合データセットを生成することだった。チームは多面的な戦略を採用してデータと指示を生成し、モデルが実行できるタスクの範囲を大幅に拡大するとともに、より正確なパフォーマンスを実現し、追加データを必要とせずに新しいタスクを実行できるようにした。
また、既存のデータセットを精査して、データ間の新しい関係を明らかにし、全体的な作業は1年以上に渡るものだった。
Valle氏は、チームが手応えを感じた2度の瞬間を覚えている。「プロンプトから初めて音楽を生成したとき、私たちは心底驚いたものです」と彼は話している。
その後、チームはビートに合わせて犬が吠える電子音楽というプロンプトを Fugatto に与え、Fugattoはそれに応答した。「Fugatto の応答でグループが笑いに包まれたとき、本当に心が温かくなりました」と、Valle氏は回想している。
さて、Fugattoが何ができるのか聞いてみよう。
スマホや電話で「しーちゃん」が話し相手になってくれるAIサービスが登場 ひとりぼっちの時やストレス解消に
他の言語にリアルタイム翻訳して自分の声で話せる「Cross-Language Meeting β版」CoeFontが無料で提供開始
ヤマハ 柴咲コウさんの声のボイスバンクを10年ぶりリメイク、公式デモソング「KUNOICHI Destiny」公開 トークソフトも同時発売へ
【世界初】AI生成音声をビジネスで正しく活用するため「日本音声AI学習データ認証サービス機構(AILAS)」設立
櫻坂46メンバーが中国語を話す?NTT西日本がクロスリンガル音声合成とソニー「Sound AR」を連携 声質そのままで中国語に変換
NVIDIA関連記事
NVIDIA
この記事を読んだ人におすすめ
- アクセンチュアがNVIDIA AI Foundryを活用したカスタムLlama LLMを世界に先駆け開発 ビジネスに合わせた大規模言語モデル作成
- 菱洋エレクトロ「NVIDIA DGX」システムの取り扱いを拡大 次世代のGPUシステムを設計から設置までワンストップで提供
- NVIDIAの生成AIとシーメンスのラックPCで対話型AIデジタルヒューマンを開発 菱洋エレとヘッドウォータース「Japan Robot Week」で公開
- NVIDIAのCEOとメタ(Facebook)のCEOが「生成AIと次のコンピューティング基盤」をテーマに対談 日本語字幕付き
- NVIDIA CEOジェンスン・フアン氏とソフトバンクグループ孫正義社長が対談へ 「NVIDIA AI Summit Japan」11月開催
- 『AI博覧会 Summer 2024』生成AIやLLMなど注目の講演を紹介 NVIDIA・Google Cloud・PFN・AWS・住友生命・戸田市・横須賀市ほか
- 富士通がAI処理のGPU演算効率を高めるミドルウェア技術を開発 処理効率は最大で2.25倍向上 世界的なGPU不足に対応
- ソフトバンクが通信にAIを活用「AI-RAN」を四足歩行ロボットでデモ!生成AIやLLMでどう変わる?AITRASとNVIDIA AI Enterprize