NVIDIA 次世代ヒューマノイド開発支援プロジェクトについて聞く 「GR00T」の3つのワークフローを発表

NVIDIAは、今年の春にシリコンバレーで開催された世界最大のGPUのイベント「GTC 2024」で「次のAIはヒューマノイド」だと公言しました。そして、現状ではヒューマノイドの開発はとても高度で難しいとされていますが、NVIDIAは開発を支援するプロジェクトであり汎用基礎プラットフォームとなる「GR00T」(ジーアールゼロゼロティー:通称グルート)を2025年に提供することを併せて発表しました。

「NVIDIA AI Summit Japan」でも紹介された次世代GPUアーキテクチュア「Blackwell(ブラックウェル)」。「GR00T」はBlackwell上で最適に動作するヒューマノイド開発支援プロジェクト


次世代「Jetson Thor」と人型ロボット開発プロジェクト

この「GR00T」は次世代のGPU「Blackwell」アーキテクチュア上で動作し、ロボットに搭載するエッジAIコンピュータとしては2025年に登場する「Jetson Thor」(ジェットソン・ソー)がメインとなります。「Jetson Thor」は現行の「Jetson Orin」の後継です。

「NVIDIA AI Summit Japan」で「GR00T」について語るジェンスン・フアンCEO

2024年11月13日に行われた「NVIDIA AI Summit Japan」においても、NVIDIAのCEO ジェンスン・フアン氏は特別講演の中で「GR00T」の続報として、3つのワークフロー「GR00T-Mimic」「GR00T-Gen」「GR00T-Control」を紹介しました。これは「NVIDIA AI Summit Japan」開催の一週間前に発表されたワークフローです。


11月13日、「GR00T」とこの3つのワークフローについて、自律型マシン事業(ロボティクス)のバイスプレジデント、ディープゥ タッラ氏に話を聞きました。
なお、「GR00T」は、Generalist Robot 00 Technologyの略称。

11月13日に会見を行ったNVIDIA 自律型マシン事業 バイス プレジデント 兼 ゼネラル マネージャー(Vice President and General Manager of Autonomous Machines) ディープゥ タッラ(Deepu Talla)氏。ロボスタは、春の「GTC 2024」でもNVIDIAのロボティクス戦略や「GR00T」についてタッラ氏にインタビューしている。関連記事「NVIDIAがヒューマノイド開発に注力する理由「Jetson Thor」について聞く 自律型マシン事業VP 単独インタビュー


「GR00T」とは

聞き手

まず、「GR00T」について改めて教えてください。また、今日、特別講演で紹介された3つのワークフローについてもお願いします。

タッラ氏

私達はロボティクス分野において、ヒューマノイド(人型ロボット)に現在最も興味を持っています。それは、過去数100年間、椅子やテーブルや建物など、あらゆるものが人間向けに設計、デザインされてきました。ロボットも同じく、人型にフォーカスされるだろうと考えています。


ただし、ヒューマノイドの開発はとても難しくチャレンジングです。「GR00T」は、世界中の開発者が人型ロボットを開発するためにNVIDIAが支援するプロジェクトで、たくさんのワークフローが用意されます。
そして、そのうちの3つが先週、そして今日もアナウンスされました。


「GR00T」3つのワークフロー



GR00T-Mimic

タッラ氏

ひとつは「GR00T-Mimic」です。ヒューマノイドの学習には多くのデータが必要になります。ヒューマノイドでは、ミミック(真似をする)によってヒューマノイドが学習します。ヒューマノイドに特定のアクションや振る舞いを見せることで、生成AIとOmniverse(デジタルツインプラットフォーム)で、数百、数千のバリエーションを生成します。これが「GR00T-Mimic」ワークフローです。


GR00T-Gen

タッラ氏

ふたつめは「GR00T-Gen」です。例えば、キッチンでヒューマノイドを学習させるとします。デジタルツイン(仮想空間)の世界では、キッチンテーブルやシンク、お皿や食器、温かいスープ、ニンジン、ローソク、環境面では照明(ライティング)なども再現して、学習環境を生成する必要があります。様々な環境で数多くの学習を行うことで、ヒューマノイドは精度の高い行動を実践できるようになります。「GR00T-Gen」では、このような環境の生成を行い、デジタルツイン環境の中に組み込んでいくことを支援します。
Genはジェネレーティブの意味です。3次元アセットや生成AIを活用して、高度なデジタルサイン環境の再現をサポートします。


GR00T-Control

タッラ氏

3つめは「GR00T-Control」です。人間にとって身体のバランスをとり、腕や足を制御することは自然にできる、ごく簡単なことですが、ヒューマノイドの全身を制御することは簡単ではありません。多くの学習が必要です。全身を制御するために支援するワークフローが「GR00T-Control」です。

先週、NVIDIAはこの3つを発表し、本日ジェンスン(CEO)が特別講演で発表したのもこの3つです。しかし、他にもたくさんのワークフローが用意される予定です。例えば、「ビジョン」です。これからも順次詳細や新しいワークフローを発表していきます。

聞き手

「Jetson Thor」のリリース予定はいつですか。また、「GR00T」は「Thor」以外のJetsonでも動作しますか?

タッラ氏

ヒューマノイド全般で開発支援するプロジェクトが「GR00T」です。そしてエッジ側、ヒューマノイドの中に搭載するフィジカルコンピュータ、AIコンピュータが「Jetson Thor」(ジェットソン・ソー)で、これは「Blackwell」をベースにしたものです。


現行のアーキテクチュアはDGXですが、次世代のアーキテクチュアが「Blackwell」です。
プロジェクト「GR00T」は、ジェンスンが特別講演で説明したとおり、ヒューマノイドの開発で重要な3つのコンピュータで構成され(トレーニング、シミュレーション(デジタルツイン)、エッジAI)、それをトータルで支援するプロジェクトとなります。


「Jetson Thor」は2025年の上半期にリリースされる予定です。GR00Tのワークフローは「Jetson Orin」上で既に1年以上前から開発が進められています。現状の多くの開発ツールやアセットを利用できるようになる予定です。今は「Jetson Orin」上で開発していますので、「Jetson Orin」との互換性がありますが、ヒューマノイドは高度な演算能力が必要なので、実現したい作業によっては「Jetson Thor」でないと動作しないものも出てくると思っています。

聞き手

ファンデーションモデル(基盤モデル)を公開すると発表されています

タッラ氏

ファンデーションモデルは今、開発中です。将来的にはNIMのように提供をしていく予定です。NIMは使い勝手が良く、効率的にパッケージ化されています。「Jetson Thor」のリリースと共にファンデーションモデルもリリースしたいとは思っていますが、開発中のため今はまだわかりません。

ABOUT THE AUTHOR / 

神崎 洋治

神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。

PR

連載・コラム