NVIDIAが「GTC2024」の基調講演で、ヒューマノイドの開発を促進するためのプロジェクト「GR00T」(ジーアール・ゼロゼロ・ティー)を発表した(関連記事「NVIDIAがヒューマノイド開発プラットフォーム提供を発表 ディズニーの二足歩行ロボットが登壇 Jetson Orinから次世代Thorへ」)。ロボスタは「GTC 2024」の会場で、それら技術の詳細や、NVIDIAがヒューマノイドに注目している理由、新型Jetsonの発売時期、日本市場などについて、自律型マシン事業のバイスプレジデントに単独インタビューを行なった。
NVIDIAがヒューマノイド開発プロジェクト「GR00T」提供へ
「GR00T」はGeneralist Robot 00 Technologyの略称で、ロボットは自然言語を理解し、人間の動作を観察し、マネすることで動作をエミュレート、様々な作業を学習できるように設計されている。
また、ヒューマノイドは多くのセンサーを搭載し、それを処理する頭脳(ブレイン)や動作(モーション)の制御が必要なため、高速で複雑な演算が要求される。そのため、「GR00T」は新しいSoC「Jetson Thor」(ソー)と、やはり今回発表された高速な「Blackwell」アーキテクチュアによって動作する。
「Jetson Thor」は従来の「Jetson Orin」の後継にあたり、来年の前半にリリースが予定されているという。マルチモーダル生成AIモデルを実行するための8ビット浮動小数点800テラFLOPS、トランスフォーマー・エンジンが搭載される。また、高性能CPUクラスタと、100GBのイーサネット帯域幅も魅力的だ。ヒューマノイドの制御や実用化に相応しい高性能、低消費電力、サイズが最適化されたモジュラー・アーキテクチャを採用するとしている。
ロボスタでは、NVIDIA 自律型マシン事業バイス・プレジデントであり、ゼネラル マネージャーのディープゥ・タッラ氏にインタビューし、ヒューマノイド開発や「Jetson Thor」について詳細を聞いた。
NVIDIAがヒューマノイド開発に注目する理由
編集部
御社がロボティクス分野でヒューマノイド開発に注力することをロボスタの記事で紹介しました。とても大きな反響がありました。しかし、実用的なヒューマノイドの開発は、ロボット業界では困難な課題が多く、最も難しいチャレンジングなテーマのひとつです。なぜ、御社はヒューマノイドに注目するのでしょうか?大きな市場やニーズを感じているからでしょうか?
Tallaさん
とても素晴らしい質問です。今まで何年間も、ヒューマノイドの開発はとても多くの企業がチャレンジしてきたからです。例えば、ホンダの「Asimo」は非常に優れたヒューマノイドだということは多くの人が理解していますよね? 私も2014年に実際にAsimoを見て、素晴らしいヒューマノイドだと感じました。
では、なぜ今、ヒューマノイドに注力するのかということですが、理由は2つあります。 1つは「経済的」、もうひとつは「技術的」な観点からです。
編集部
経済的な観点というのは、ヒューマノイド開発をもっと効率的にローコストにするべき、という意味でしょうか?
Tallaさん
そうではありません。「経済的」な観点というのは、今どんな分野でも労働者が不足していて、自動化のニーズが高まっています。ほとんどすべての工場のラインや作業環境は人間向けに設計されています。ヒューマノイドは人間に似ているので、作業環境を自動化のために変更したり、新たに作り直す必要がありません。もしもヒューマノイドが実現して、人の代わりに作業ができるようになれば、コストと時間をかけて環境を変える必要がありません。それが可能になるなら大きなチャンスです。それがヒューマノイドが期待されている経済的な理由の意味です。
しかし、研究者や開発者は20年、30年にわたってヒューマノイドの実用化に挑戦してきましたが実現できませんでした。変革には大きな「技術的」な進化が必要ですが、それは今だと感じています。ひとつは「生成AI」の登場です。生成AIを使って基礎モデル(ファウンデーションモデル)を作ることができます。ヒューマノイド開発には膨大なトレーニングが必要ですが、テキストや音声コマンドを使ったり、ライブデモの動画を使ってトレーニングできるようになりました。そして、それは基礎モデルなので汎用的です。特定のタスクだけでトレーニングするのではなく、さまざまなタスクでトレーニングします。
もうひとつは「Omniverse」や「Isaac Sim」などのシミュレーション技術が進化・熟成したことです。トレーニングを終える前に、ロボットを現実世界で試すのは、衝突したり壊れたり、人を怪我させたり、商品を壊したり等、多くのリスクがあります。実際の工場や倉庫と同様の仮想世界、デジタルツインを「Omniverse」で構築し、事前に「Isaac Sim」でロボットに動きや移動のコース、危険を回避するトレーニングなどを充分に学習させてから、リアル世界にテスト環境を移す方がはるかに安全です。その作業がとても簡単に、しかも高精度でできるようになりました。
学習にはトレーニング・データが必要ですが仮想のデジタル環境では簡単に創ることができます。また、産業用ロボットアームやAMR、ヒューマノイドは、トレーニングデータとしてプログラムコードを書くのではなく、動画を見せて学習させるのです。
編集部
ロボットのトレーニングでAIに動画を見せて学習させるとは驚きです。まるで人間の新入社員に作業手順を教えるみたいですね。「見て覚えなさい」という感じで。ところで、それでも高精度のヒューマノイド開発となると簡単ではないと思います。難しい点はどのような点だと感じますか?
生成AIの登場と、デジタルツイン+シミュレーションの熟成
Tallaさん
労働力不足なので、ヒューマノイドが必要とされ、多くの人にとってそれは次の大きなブレークスルーだと考えられているでしょう。高度なヒューマノイドの実現はたしかに技術的には簡単なことではないでしょう。難しいのはまず機械的な面、高度なメカトロニクスだと考えられています。しかし、メカトロニクスはメカニカルとエレクトリカル、アクチュエーションによって高度化し、ヒューマノイドを実現するレベルのメカトロニクスが開発されれば、解決できると思っています。
今までヒューマノイドが成功しなかった最大の理由はおそらく、ロボットの知的レベルが要求を満たすレベルではなかったことです。決められた作業はロボットの方が上回ることがありますが、いろいろなことをこなしたり、さまざまな状況に対処して正しい作業することは、人の腕の方が優れていると考えられています。でもそれは知性の問題です。汎用性に対応できる知性です。しかし、ファウンデーション・モデル(基礎モデル)の登場によって、AIやロボットの知能を高度化する時期がきています。
「Jetson Thor」は製品名として「Orin」の後継機、発売時期は・・
編集部
「Jetson Thor」は製品名として「Orin」の後継機として登場しますか?
Tallaさん
はい、その通りです。製品名「Jetson Thor」として、来年前半には発売され、利用できるようになるでしょう。「Jetson Thor」Blackwell アーキテクチュアをベースにしています。最初のBlackwellプラットフォームはまずデータセンターに導入され、今年の後半には充分に利用可能な状況になります。その後で「Jetson Thor」は登場することになります。
編集部
「Jetson Thor」の性能は、8ビット浮動小数点800テラFLOPS、トランスフォーマー・エンジン搭載ということがリリースで発表されています。これは非常に高性能だと思います。その他に「Jetson Thor」の性能で特筆すべき点はありますか?
Tallaさん
I/O帯域幅がOrinの10倍にスケールアップされます。ヒューマノイドには多くのカメラやセンサーが必要で、それらのデータを高速に処理する必要があります。他にも、スピーカーやマイク、腕などに触覚センサーが必要なロボットも出て来るでしょう。だからI/Oの帯域幅が必要です。毎秒10Gbitから100Gbitに拡張します。
編集部
ヒューマノイド開発のための「Jetson Thor」を発表する今がその絶好のタイミングだ、と感じていますか
Tallaさん
多くのヒューマノイドは、まだ開発段階のプロトタイプの段階です。最も重要なのは、シミュレーション用の物理的なヒューマノイドを作ることではありません。何千、何十万回というシミュレーションを行って仮想環境でスキルを学び、現実の世界で人との協働をテストします。ごく最近、生成AIの登場もあってファウンデーション・モデルを作り始めました。私たちはヒューマノイドのトップ企業たちと密接に協力しています。ファウンデーション・モデルをブラッシュアップするのには30日から90日かかるかもしれません。併行してトレーニングすれば高精度なモデルに近付いていくでしょう。そんな状況の今が、絶好のタイミングだと考えています。
編集部
基調講演に登場したディズニーが開発中のロボットについて教えてくれませんか?
Tallaさん
実は私も知らないんです。おそらく研究用の実験的なロボットではないでしょうか。Jetson Orinを使っているとは思いますけど、正確なことはわかりません。
編集部
Isaac等でどんなシミュレーションをしているかも知りませんか?
Tallaさん
多くの企業がIsaacシミュレーションを使用しています。ディズニーも同様だと思いますが、具体的には解りません。
生成AIがロボット開発に与える変革
編集部
ジェネレーティブAIの登場によってロボティクス分野にはどのような進化がも見られますか。
Tallaさん
ジェネレーティブAIとシミュレーションは非常に優れています。ジェネレーティブAIの登場によって、すべての企業にとってチャンスが広がると思います。なぜなら、ジェネレーティブAIが登場する以前は、多くの企業がAIを使ってそれぞれのタスク(作業)に特化したAIモデルを個々に開発していました。特化したAIで高い精度を得るのは非常に困難です。しかし、ジェネレーティブAIなら、1つのタスクにフォーカスする必要はありません。ファウンデーション・モデルを創って、拡張していけるからです。
しかし、ジェネレーティブAIには計算コストがかかるという欠点があります。汎用性の高い高精度なモデルを創るためには膨大なリソースが必要となります。トレードオフです。そこでそれほどコストをかけられないプロジェクトにはOrinやLlama 270B等を活用するという使い分けの選択肢があります。
昨日、私のチームが私にLlama-2を使ったデモを見せてくれました。カメラに写った私を正確に認識しましたが、それは汎用のファウンデーション・モデルを使ったもので、私の写真はわずか2~3枚で学習したものでした。もしも「何人がカメラに写っている?」と聞けば、人数を答えてくれます。「ブルーのジャケットを着てサングラスをかけた人物」と言えばその人を特定します。これらをひとつのモデルで実現するのがジェネレーティブAIの特徴で、私達はその優れた性能に興奮しています。関連記事「生成AIをロボティクスへ活用する方法 ボストンダイナミクス、Agility、NTTなどがAIロボットにLLM採用 NVIDIA OmniverseやIsaacの活用例」
日本市場をどう捉えてるか
編集部
最後に、日本市場についてどう感じているか聞かせてください
Tallaさん
日本はロボット大国だと思います。そうですよね? 安川電機や川崎重工、ファナックなど多くのロボットメーカーがあります。私達は「Isaac」プラットフォームを2018年のGTC Japanで初めて正式に発表しました。Xavierも2017年に日本で発表しました。日本がロボット工学に優れた国だと感じているからです。
編集部
今日は忙しいところ、単独インタビューに応えていただき、どうもありがとうございました。
NVIDIA 大規模言語モデルと生成AIにも特化した「Blackwell プラットフォーム」とは 性能向上は最大30倍、コスト/エネルギー消費は最大1/25に
NVIDIA 自動運転開発環境に生成AI対応の次世代Blackwellアーキテクチャ搭載「DRIVE Thor」を採用 世界最大のEVメーカーBYDとの連携強化
NVIDIA ヒューマノイド・マニピュレータ・自動搬送ロボット向けに「Isaacのメジャーアップデート」を発表 安川電機が「GTC 2024」でデモ展示
NVIDIAがヒューマノイド開発プラットフォーム提供を発表 ディズニーの二足歩行ロボットが登壇 Jetson Orinから次世代Thorへ
VIDIAが量子コンピュータ開発を支援する「NVIDIA Quantum Cloud」開始 暗号化にGPUの並列処理を活用する「cuPQC」も
「GTC 2024」展示ホールはヒューマノイドなど次世代の情報を求めて超満員 現地の様子を写真と動画で体験
いよいよ明日開幕!世界最大級のAIとGPUイベント「NVIDIA GTC 2024」現地直前レポート、サンノゼの青空の下で
世界最大級のAIとGPUイベント「NVIDIA GTC 2024」リアル/オンラインで開催 GTCの全容と日本から参加できる見どころ徹底解説
NVIDIA 日本向けイベント「Japan AI Day」3/22にオンライン開催 生成AI・LLM・デジタルツイン・エッジAIなど12講演 大手企業も登壇
NVIDIA GTC2024関連記事(ロボスタ)
この記事を読んだ人におすすめ
- NVIDIA ヒューマノイド開発の加速を発表 人型ロボットの開発基盤や新サービスの名称とリンク集まとめ NIM/OSMO/MimicGen NIM/Robocasa NIMほか
- ディズニーが表現力豊かなロボット開発の裏側を紹介 「二足歩行ロボット・キャラクターの設計と制御」動画を公開
- 東京ロボティクスが新型「Torobo」のモデルデータを「NVIDIA Isaac Sim」と「Google DeepMind MuJoCo」対応形式で公開
- 生成AIやLLM、人型ロボットなど大規模演算に期待される「NVIDIA Blackwell」 従来比較で最小1/25のコストとエネルギー使用量
- アクセンチュアがNVIDIA AI Foundryを活用したカスタムLlama LLMを世界に先駆け開発 ビジネスに合わせた大規模言語モデル作成
- 警備ロボットugoと行動認識AIのアジラが連携 両社の弱点をカバー、警備のさらなる自動化・省人化、安全性向上へ
- NVIDIAの生成AIとシーメンスのラックPCで対話型AIデジタルヒューマンを開発 菱洋エレとヘッドウォータース「Japan Robot Week」で公開
- NVIDIAのCEOとメタ(Facebook)のCEOが「生成AIと次のコンピューティング基盤」をテーマに対談 日本語字幕付き
- NVIDIA CEOジェンスン・フアン氏とソフトバンクグループ孫正義社長が対談へ 「NVIDIA AI Summit Japan」11月開催
ABOUT THE AUTHOR /
神崎 洋治神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。