NVIDIAがオーディオ生成の画期的なAI研究モデル「Fugatto」発表　文字入力だけで音楽･音声･サウンドの組合せも生成

2024年11月28日 By ロボスタ編集部

NVIDIAの生成AI研究者チームが、ユーザーがテキストだけで音声出力を制御できる音の万能ツールを開発した。

これまでのAIモデルの中には、曲を作曲したり音声を変更したりするものもあったが、同社は「この新しいモデルほど多機能なモデルはない」としている。どの辺が画期的なのか詳しく見てみたい。

プロンプト(文字)で入力した音楽･音声･サウンドの任意の組合せを生成または変換

Fugatto (Foundational Generative Audio Transformer Opus 1の略) と呼ばれるこのモデルは、テキストと音声ファイルの任意の組み合わせを使用して、プロンプトで記入された音楽、音声、サウンドの任意の組み合わせを生成または変換する。

例えば、テキストプロンプトに基づいて音楽の断片を作成したり、既存の曲から楽器を削除または追加したり、声のアクセントや感情を変更したり、これまで聞いたことのないサウンドを生成したりすることも可能だ。

マルチプラチナムプロデューサー兼ソングライターであり、最先端のスタートアップ企業向けのNVIDIA InceptionプログラムのメンバーであるOne Take Audioの共同創設者、Ido Zmishlany氏は「これは素晴らしい。サウンドは私のインスピレーションであり、私が音楽を作る原動力です。スタジオでまったく新しいサウンドを即座に作成できるというアイデアは、斬新です」と述べている。

オーディオの生成および変換をサポート

NVIDIAの応用オーディオ研究マネージャーであり、Fugattoの開発に携わった10人以上のスタッフの1人で、さらにオーケストラの指揮者兼作曲家でもあるRafael Valle (ラファエルヴァレ)氏は「私たちは、人間のようにサウンドを理解して生成するモデルを作りたかったのです」と語る。

多数のオーディオ生成および変換タスクをサポートするFugattoは、様々なトレーニング済みの能力の相互作用から生じる創発特性と、自由形式の指示を組み合わせる機能を備えた、最初の基盤生成AIモデル。

「Fugatto は、大規模なデータとモデルからオーディオ合成および変換における教師なしマルチタスク学習が生まれる未来に向けた第一歩です」ともValle氏は話している。

ユースケースのサンプルプレイリスト

例えば、音楽プロデューサーは Fugattoを使用して、様々なスタイル、声、楽器を試しながら、歌のアイデアをすばやく試作したり編集したりできる。また、エフェクトを追加したり、既存のトラックの全体的なオーディオ品質を向上させたりすることも可能だ。

前出のIdo Zmishlany氏は「音楽の歴史はテクノロジの歴史でもあります。エレキギターは世界にロックンロールをもたらしました。サンプラーが登場すると、ヒップホップが生まれました。AI によって、私たちは音楽の次の章を書き始めています。私たちは新しい楽器、音楽を作るための新しいツールを手に入れました。これはとてもエキサイティングなことです」とも話している。

広告代理店は、Fugattoを適用して、既存のキャンペーンを複数の地域や状況にすばやくターゲティングし、ナレーションに様々なアクセントや感情を適用することができる。

言語学習ツールは、話者が選択した任意の声を使用するようにパーソナライズできる。例えば、家族や友人の声で話されるオンラインのコースを想像してほしい。

ビデオゲーム開発者は、このモデルを使用して、タイトル内の録音済みアセットを変更し、ユーザーがゲームをプレイするときに変化するアクションに合わせることができる。または、テキストの説明とオプションの音声入力から新しいアセットをその場で作成することもできるとしている。

楽しい音を生み出す

「このモデルの機能の中で、特に誇りに思っているのは、アボカドチェアと呼んでいるものです」と、Valle氏は語った。これは、画像生成AIモデルによって作成された斬新なビジュアルにちなんだ言葉だ。

例えば、Fugattoはトランペットが犬のように吠える音や、サックスが猫のように鳴く音を出すことができる。ユーザーが説明できるものなら何でも、このモデルは作成することができるのだ。

研究者は、ファインチューンと少量の歌唱データにより、テキストプロンプトから高品質の歌声を生成するなど、事前トレーニングされていないタスクを処理できることを発見した。

ユーザーは芸術的なコントロールを手中に

これらの他にも、いくつかの機能によってFugattoの斬新さは実現されている。

推論中、FugattoはComposableARTと呼ばれる技術を使用して、トレーニング中では個別にしか見られなかった指示を組み合わせる。例えば、プロンプトの組み合わせにより、フランス語のアクセントで悲しい気持ちで話されたテキストを要求することもできる。

モデルの指示間の補間機能により、ユーザーはテキスト指示、この場合はアクセントの重さや悲しみの度合いを細かく制御可能になる。

モデルのこれらの側面を設計したAI研究者のRohan Badlani (ローハンバドラニ) 氏は「ユーザーが主観的または芸術的な方法で属性を組み合わせて、それぞれにどの程度重点を置くかを選択できるようにしたかったのです」と話し、「テストでは結果に驚くことが多く、自分はコンピューター科学者であるにもかかわらず、少しアーティストになったような気分になりました」と、スタンフォード大学でAIを専門とするコンピューターサイエンスの修士号を取得した同氏は語っている。

このモデルは、時間の経過とともに変化するサウンドも生成し、Badlani氏はこれを「時間的補間」と呼んでいる。例えば、豪雨が地域を通り抜ける音の中で、雷鳴が徐々に高まり、その後ゆっくりと遠ざかって消えていく音を作り出すことができる。また、サウンドスケープがどのように変かするかをユーザーが細かく制御可能だ。

さらに、ほとんどのモデルでは、これまで公開されたトレーニングデータしか再現できなかったところが、Fugatto では、雷雨が鳥のさえずる夜明けにゆっくりと移行していくなど、これまでに見たことのないサウンドスケープをユーザーが作成することができる。

内部の仕組み

Fugattoは、音声モデリング、オーディオボコーディング、オーディオ理解などの分野でのチームのこれまでの取り組みを基に構築された、基盤生成Transformerモデルである。

フルバージョンでは25億のパラメーターが使用され、32基のNVIDIA H100 TensorコアGPUを搭載した複数台のNVIDIA DGXシステムでトレーニングされた。

Fugattoは、インド、ブラジル、中国、ヨルダン、韓国など、世界中の様々な人々によって作成。彼らのコラボレーションにより、Fugattoの多アクセントおよび多言語機能が強化されたとしている。

この取り組みで最も困難だったのはトレーニングに使用する何百万ものオーディオサンプルを含む混合データセットを生成することだった。チームは多面的な戦略を採用してデータと指示を生成し、モデルが実行できるタスクの範囲を大幅に拡大するとともに、より正確なパフォーマンスを実現し、追加データを必要とせずに新しいタスクを実行できるようにした。

また、既存のデータセットを精査して、データ間の新しい関係を明らかにし、全体的な作業は1年以上に渡るものだった。

Valle氏は、チームが手応えを感じた2度の瞬間を覚えている。「プロンプトから初めて音楽を生成したとき、私たちは心底驚いたものです」と彼は話している。

その後、チームはビートに合わせて犬が吠える電子音楽というプロンプトを Fugatto に与え、Fugattoはそれに応答した。「Fugatto の応答でグループが笑いに包まれたとき、本当に心が温かくなりました」と、Valle氏は回想している。

さて、Fugattoが何ができるのか聞いてみよう。