NVIDIAリサーチの最新研究「LATTE3D」とは？生成AIでテキストから3Dモデルを1秒以内に創造するデモを公開

2024年3月26日 By 神崎洋治

NVIDIA「GTC 2024」が3月18～21日にシリコンバレーで開催されました。期間中、報道陣限定でNVIDIAの各プロダクトのVPやGMなどの担当者と様々なセッションを受けます。
例えば、皆さんご存じのNVIDIAの創業者/CEOのジェンスン・フアン氏とのQ&Aセッションの時間なども用意されています(かなり面白いです)。

報道陣からの質問に丁寧に答えるジェンスン・フアン氏

その中の一つに、新しい技術に取り組むNVIDIAの研究機関「NVIDIA Research」の取り組みを聞くセッションもあって、報道陣にはとても人気があります。今、NVIDIAが研究開発中のプロジェクトを垣間見ることができるのですから当然ですね(守秘や情報解禁の設定がされているケースもあります)。

今回、その中で紹介された最新技術のひとつが「LATTE3D」です。NVIDIA のAI研究担当バイスプレジデント、サンジャ・フィドラー(Sanja Fidler)氏が発表しました(冒頭の写真:NVIDIAの人がみんな革ジャン着ているわけではありません)。

「NVIDIA Research」が研究しているAI技術のひとつ「LATTE3D」で生成した3Dモデル

「スケートボードの上に折り紙のスフィンクス猫」ベースのデザイン(左)が生成されたら、右の折り紙デザインのテクスチャーが加えられる。出典:NVIDIA

「あみぐるみ鶴」出典:NVIDIA

生成AIを活用した「LATTE3D」とは

「LATTE3D」(ラテ・スリーディー)はLarge-scale Amortized Text-To-Enhanced3D Synthesisの略称。今、最もホットな話題のひとつ「生成AI」を活用した技術です。テキストプロンプトで入力した内容から、仮想世界向けの高品質の3Dモデルに素早く生成します。最新の「text-to-3D AI生成モデル」と呼ばれ、更に高速性能が向上させ、1～5秒程度。速いアイテムは1秒以内で瞬時に生成するデモを報道陣に公開しました。NVIDIA Researchのデモでは NVIDIA RTX A6000 などの単一GPUで推論を実行していたようです。
■ LATTE3D Text to 3D Generative AI Model from NVIDIA Research

もうひとつ特筆すべき特徴は、生成された3Dモデルが標準的なレンダリング・アプリケーションで使用できる一般的フォーマットで作成されることです。ビデオゲームや広告キャンペーン、デザイン・プロジェクト、またはロボティクスのバーチャルなトレーニング場を開発するためのデジタルツインや仮想環境に簡単に組み込む込んで活用することができます。

出典:NVIDIA

同研究所のAIラボチームは、「1年前、AIモデルがこの品質の3Dビジュアルを生成するのに1時間程度かかりました。しかし、現在の最先端技術では約10～12秒で可能です」と語っています。「更に、最新では一桁速く結果を生成できるようになり、ほぼリアルタイムで、テキスト入力から3Dモデルへの生成が可能となり、あらゆる業界のクリエイターへ届けられるようになっています」と続けました。

テキストで指示するといろいろなパターンの3Dモデルを瞬時に生成

ゼロからデザインを創造したり、3Dアセット・ライブラリを調べたりする代わりに、クリエイターは「LATTE3D」を使用して、アイデアが頭に浮かんだらテキスト入力で指示してすぐに詳細なオブジェクトを生成できます。

生成されたモデルが気に入らなければ、修正内容をテキストで入力するだけです。コードを書く必要はもちろんなく、AIはデザイナーが提案するように各テキスト・プロンプトに応じたデザインの3Dモデルを瞬時に生成して提案してきます。デザインにが気に入れば、オブジェクトを数分以内に高品質になるよう最適化します。その後、ユーザーはその形状をグラフィックス・ソフトウェア・アプリケーションや、Universal Scene Description (OpenUSD) ベースの3Dワークフローやアプリケーションを可能にするNVIDIA Omniverse などのプラットフォームに書き出すことができます。

出典:NVIDIA

研究者は2つの特定のデータセット (動物と日常の物体) で「LATTE3D」をトレーニングしたといいます。開発者は同じモデル・アーキテクチャを使用して他のデータ・タイプでAIを更にトレーニングすることもできます。

NVIDIAがあげたユースケースでは、「LATTE3D」を3D植物のデータセットでトレーニングすると、造園設計者がクライアントとブレインストーミングをしながら、庭園のレンダリングに木、花の咲く低木などをすばやく配置することができるということです。
家庭用オブジェクトでトレーニングした場合は、AIモデルは家の3Dシミュレーションを構成するためのアイテムを生成でき、開発者はパーソナル・アシスタント・ロボットを現実世界でテストや展開する前に、様々なアイテムや環境を生成した仮想環境でシミュレーションとトレーニングができます。

NVIDIAのブログで公開された情報によれば、「LATTE3D」は、「NVIDIA A100 Tensorコア GPU」を使用してトレーニングされたとのことです。3D形状に加えて、モデルはChatGPT を使用して生成された多様なテキスト・プロンプトでトレーニングされており、ユーザーが特定の3Dオブジェクトを生成するのに適切な説明方法を、思いつくさまざまなフレーズで処理するAIモデルの能力が向上しています。たとえば、さまざまなイヌ科の種をフィーチャーしたプロンプトは、すべて犬のような形状を生成する必要があることを理解できます。

NVIDIA Research は世界中の科学者とエンジニア、数百人体制で構成されており、そのチームはAI、コンピューター・グラフィックス、コンピューター・ビジョン、自動運転、ロボティクスなどのトピックに重点を置いて、研究しているとのことです。

ABOUT THE AUTHOR /

神崎洋治

神崎洋治（こうざきようじ） TRISEC International,Inc.代表「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ～くわかる本」(秀和システム)の著者。デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。