NVIDIAがヒューマノイド開発に注力する理由「Jetson Thor」について聞く　自律型マシン事業VP 単独インタビュー

2024年3月25日 By 神崎洋治

NVIDIAが「GTC2024」の基調講演で、ヒューマノイドの開発を促進するためのプロジェクト「GR00T」(ジーアール・ゼロゼロ・ティー)を発表した(関連記事「NVIDIAがヒューマノイド開発プラットフォーム提供を発表　ディズニーの二足歩行ロボットが登壇　Jetson Orinから次世代Thorへ」)。ロボスタは「GTC 2024」の会場で、それら技術の詳細や、NVIDIAがヒューマノイドに注目している理由、新型Jetsonの発売時期、日本市場などについて、自律型マシン事業のバイスプレジデントに単独インタビューを行なった。

NVIDIAがヒューマノイド開発プロジェクト「GR00T」提供へ

「GR00T」はGeneralist Robot 00 Technologyの略称で、ロボットは自然言語を理解し、人間の動作を観察し、マネすることで動作をエミュレート、様々な作業を学習できるように設計されている。

また、ヒューマノイドは多くのセンサーを搭載し、それを処理する頭脳(ブレイン)や動作(モーション)の制御が必要なため、高速で複雑な演算が要求される。そのため、「GR00T」は新しいSoC「Jetson Thor」(ソー)と、やはり今回発表された高速な「Blackwell」アーキテクチュアによって動作する。

「GTC 2024」で展示されたAPPTRONIK社のヒューマノイド「Apollo」。「Jetson Orin」を2基搭載している。1基はブレイン、もうひとつはモーションを制御する。「Apollo」はメルセデスの工場で試験導入されている。関連記事「メルセデスベンツが工場内でヒューマノイドロボット「Apollo」を試験導入　ヒト型ロボットのメリットとは」

「Jetson Thor」は従来の「Jetson Orin」の後継にあたり、来年の前半にリリースが予定されているという。マルチモーダル生成AIモデルを実行するための8ビット浮動小数点800テラFLOPS、トランスフォーマー・エンジンが搭載される。また、高性能CPUクラスタと、100GBのイーサネット帯域幅も魅力的だ。ヒューマノイドの制御や実用化に相応しい高性能、低消費電力、サイズが最適化されたモジュラー・アーキテクチャを採用するとしている。

「GTC 2024」に展示されたAgility Roboticsのヒューマノイド「Digit」。

ロボスタでは、NVIDIA 自律型マシン事業バイス・プレジデントであり、ゼネラルマネージャーのディープゥ・タッラ氏にインタビューし、ヒューマノイド開発や「Jetson Thor」について詳細を聞いた。

NVIDIA 自律型マシン事業バイスプレジデント兼ゼネラルマネージャー(Vice President and General Manager of Autonomous Machines) ディープゥタッラ(Deepu Talla)氏

NVIDIAがヒューマノイド開発に注目する理由

編集部

御社がロボティクス分野でヒューマノイド開発に注力することをロボスタの記事で紹介しました。とても大きな反響がありました。しかし、実用的なヒューマノイドの開発は、ロボット業界では困難な課題が多く、最も難しいチャレンジングなテーマのひとつです。なぜ、御社はヒューマノイドに注目するのでしょうか？大きな市場やニーズを感じているからでしょうか？

Tallaさん

とても素晴らしい質問です。今まで何年間も、ヒューマノイドの開発はとても多くの企業がチャレンジしてきたからです。例えば、ホンダの「Asimo」は非常に優れたヒューマノイドだということは多くの人が理解していますよね？私も2014年に実際にAsimoを見て、素晴らしいヒューマノイドだと感じました。
では、なぜ今、ヒューマノイドに注力するのかということですが、理由は2つあります。 1つは「経済的」、もうひとつは「技術的」な観点からです。

編集部

経済的な観点というのは、ヒューマノイド開発をもっと効率的にローコストにするべき、という意味でしょうか?

Tallaさん

そうではありません。「経済的」な観点というのは、今どんな分野でも労働者が不足していて、自動化のニーズが高まっています。ほとんどすべての工場のラインや作業環境は人間向けに設計されています。ヒューマノイドは人間に似ているので、作業環境を自動化のために変更したり、新たに作り直す必要がありません。もしもヒューマノイドが実現して、人の代わりに作業ができるようになれば、コストと時間をかけて環境を変える必要がありません。それが可能になるなら大きなチャンスです。それがヒューマノイドが期待されている経済的な理由の意味です。

ApptronikのXの投稿より

しかし、研究者や開発者は20年、30年にわたってヒューマノイドの実用化に挑戦してきましたが実現できませんでした。変革には大きな「技術的」な進化が必要ですが、それは今だと感じています。ひとつは「生成AI」の登場です。生成AIを使って基礎モデル(ファウンデーションモデル)を作ることができます。ヒューマノイド開発には膨大なトレーニングが必要ですが、テキストや音声コマンドを使ったり、ライブデモの動画を使ってトレーニングできるようになりました。そして、それは基礎モデルなので汎用的です。特定のタスクだけでトレーニングするのではなく、さまざまなタスクでトレーニングします。

もうひとつは「Omniverse」や「Isaac Sim」などのシミュレーション技術が進化・熟成したことです。トレーニングを終える前に、ロボットを現実世界で試すのは、衝突したり壊れたり、人を怪我させたり、商品を壊したり等、多くのリスクがあります。実際の工場や倉庫と同様の仮想世界、デジタルツインを「Omniverse」で構築し、事前に「Isaac Sim」でロボットに動きや移動のコース、危険を回避するトレーニングなどを充分に学習させてから、リアル世界にテスト環境を移す方がはるかに安全です。その作業がとても簡単に、しかも高精度でできるようになりました。
学習にはトレーニング・データが必要ですが仮想のデジタル環境では簡単に創ることができます。また、産業用ロボットアームやAMR、ヒューマノイドは、トレーニングデータとしてプログラムコードを書くのではなく、動画を見せて学習させるのです。

「Digit」に片付けをテキストで指示する様子。デジタルツインでも同様の方法で学習を重ねることもできる

編集部

ロボットのトレーニングでAIに動画を見せて学習させるとは驚きです。まるで人間の新入社員に作業手順を教えるみたいですね。「見て覚えなさい」という感じで。ところで、それでも高精度のヒューマノイド開発となると簡単ではないと思います。難しい点はどのような点だと感じますか?

生成AIの登場と、デジタルツイン+シミュレーションの熟成

Tallaさん

労働力不足なので、ヒューマノイドが必要とされ、多くの人にとってそれは次の大きなブレークスルーだと考えられているでしょう。高度なヒューマノイドの実現はたしかに技術的には簡単なことではないでしょう。難しいのはまず機械的な面、高度なメカトロニクスだと考えられています。しかし、メカトロニクスはメカニカルとエレクトリカル、アクチュエーションによって高度化し、ヒューマノイドを実現するレベルのメカトロニクスが開発されれば、解決できると思っています。
今までヒューマノイドが成功しなかった最大の理由はおそらく、ロボットの知的レベルが要求を満たすレベルではなかったことです。決められた作業はロボットの方が上回ることがありますが、いろいろなことをこなしたり、さまざまな状況に対処して正しい作業することは、人の腕の方が優れていると考えられています。でもそれは知性の問題です。汎用性に対応できる知性です。しかし、ファウンデーション・モデル(基礎モデル)の登場によって、AIやロボットの知能を高度化する時期がきています。

「Jetson Thor」は製品名として「Orin」の後継機、発売時期は・・

編集部

「Jetson Thor」は製品名として「Orin」の後継機として登場しますか?

Tallaさん

はい、その通りです。製品名「Jetson Thor」として、来年前半には発売され、利用できるようになるでしょう。「Jetson Thor」Blackwell アーキテクチュアをベースにしています。最初のBlackwellプラットフォームはまずデータセンターに導入され、今年の後半には充分に利用可能な状況になります。その後で「Jetson Thor」は登場することになります。

編集部

「Jetson Thor」の性能は、8ビット浮動小数点800テラFLOPS、トランスフォーマー・エンジン搭載ということがリリースで発表されています。これは非常に高性能だと思います。その他に「Jetson Thor」の性能で特筆すべき点はありますか?

Tallaさん

I/O帯域幅がOrinの10倍にスケールアップされます。ヒューマノイドには多くのカメラやセンサーが必要で、それらのデータを高速に処理する必要があります。他にも、スピーカーやマイク、腕などに触覚センサーが必要なロボットも出て来るでしょう。だからI/Oの帯域幅が必要です。毎秒10Gbitから100Gbitに拡張します。

編集部

ヒューマノイド開発のための「Jetson Thor」を発表する今がその絶好のタイミングだ、と感じていますか

Tallaさん

多くのヒューマノイドは、まだ開発段階のプロトタイプの段階です。最も重要なのは、シミュレーション用の物理的なヒューマノイドを作ることではありません。何千、何十万回というシミュレーションを行って仮想環境でスキルを学び、現実の世界で人との協働をテストします。ごく最近、生成AIの登場もあってファウンデーション・モデルを作り始めました。私たちはヒューマノイドのトップ企業たちと密接に協力しています。ファウンデーション・モデルをブラッシュアップするのには30日から90日かかるかもしれません。併行してトレーニングすれば高精度なモデルに近付いていくでしょう。そんな状況の今が、絶好のタイミングだと考えています。

編集部

基調講演に登場したディズニーが開発中のロボットについて教えてくれませんか?

「GTC 2024」の創業者/CEOのジェンスン・フアン氏による基調講演で、突如登場したディズニーが開発中のかわいいロボット。Jetsonを搭載し、Isaacで開発されていることが紹介された

Tallaさん

実は私も知らないんです。おそらく研究用の実験的なロボットではないでしょうか。Jetson Orinを使っているとは思いますけど、正確なことはわかりません。

編集部

Isaac等でどんなシミュレーションをしているかも知りませんか?

Tallaさん

多くの企業がIsaacシミュレーションを使用しています。ディズニーも同様だと思いますが、具体的には解りません。

生成AIがロボット開発に与える変革

編集部

ジェネレーティブAIの登場によってロボティクス分野にはどのような進化がも見られますか。

Tallaさん

ジェネレーティブAIとシミュレーションは非常に優れています。ジェネレーティブAIの登場によって、すべての企業にとってチャンスが広がると思います。なぜなら、ジェネレーティブAIが登場する以前は、多くの企業がAIを使ってそれぞれのタスク(作業)に特化したAIモデルを個々に開発していました。特化したAIで高い精度を得るのは非常に困難です。しかし、ジェネレーティブAIなら、1つのタスクにフォーカスする必要はありません。ファウンデーション・モデルを創って、拡張していけるからです。
しかし、ジェネレーティブAIには計算コストがかかるという欠点があります。汎用性の高い高精度なモデルを創るためには膨大なリソースが必要となります。トレードオフです。そこでそれほどコストをかけられないプロジェクトにはOrinやLlama 270B等を活用するという使い分けの選択肢があります。
昨日、私のチームが私にLlama-2を使ったデモを見せてくれました。カメラに写った私を正確に認識しましたが、それは汎用のファウンデーション・モデルを使ったもので、私の写真はわずか2～3枚で学習したものでした。もしも「何人がカメラに写っている?」と聞けば、人数を答えてくれます。「ブルーのジャケットを着てサングラスをかけた人物」と言えばその人を特定します。これらをひとつのモデルで実現するのがジェネレーティブAIの特徴で、私達はその優れた性能に興奮しています。関連記事「生成AIをロボティクスへ活用する方法　ボストンダイナミクス、Agility、NTTなどがAIロボットにLLM採用　NVIDIA OmniverseやIsaacの活用例」

日本市場をどう捉えてるか

編集部

最後に、日本市場についてどう感じているか聞かせてください

Tallaさん

日本はロボット大国だと思います。そうですよね? 安川電機や川崎重工、ファナックなど多くのロボットメーカーがあります。私達は「Isaac」プラットフォームを2018年のGTC Japanで初めて正式に発表しました。Xavierも2017年に日本で発表しました。日本がロボット工学に優れた国だと感じているからです。

編集部

今日は忙しいところ、単独インタビューに応えていただき、どうもありがとうございました。

ABOUT THE AUTHOR /

神崎洋治

神崎洋治（こうざきようじ） TRISEC International,Inc.代表「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ～くわかる本」(秀和システム)の著者。デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。