NVIDIAが語るヒューマノイド最前線「NVIDIA AI Day Tokyo」レポート フィジカルAIで加速するヒューマノイド開発

NVIDIAは2025年9月24日と25日に、東京ミッドタウンでイベント「NVIDIA AI Day Tokyo」を開催し、25日には招待制のセミナーが実施された。

「NVIDIA AI Day Tokyo」は、すでに開催されたホーチミンに続き、東京、そして今後予定されているシドニーやソウルと並ぶ、グローバルイベントのひとつに位置づけられている。


25日のセッションでは、NVIDIAの担当者やパートナー企業が講師として登壇し、GPU、クラウドサービス、エッジAI、データセンターなどの分野で具体的かつ実践的な活用方法や事例を紹介した。主要トピックは「エージェント型AI」「フィジカルAI」「AIファクトリー/AIインフラ」「ハイパフォーマンスコンピューティング(HPC)/量子コンピューティング」。


特に「フィジカルAI」については人気が高く、満席になるセッションが多かった。


今回の記事ではフィジカルAIのトピックからセッション「フィジカルAIで加速するヒューマノイドロボティクス NVIDIA Isaac GR00TとCosmosの紹介」の前半をベースに、NVIDIAが提供しているロボティクス向け「フィジカルAI」の概要などを解説していきたい。

登壇した エヌビディア合同会社 ソリューションアーキテクト 加瀬敬唯氏


フィジカルAIで加速するヒューマノイドロボティクス

「フィジカルAI」とは何か

加瀬氏は、「フィジカルAI」について、大規模言語モデル(LLM)を使ってロボットを動かすイメージから紹介した。
例えば「トースターからトーストを取り出し、右側の白い皿に置いて」というテキストコマンドを入力すると、ロボットはカメラ画像などから得た認識情報を加味し、アクショントークンを生成。関節を自動制御し、指示どおりに動作する。


従来のLLMのチューリングテストは「対話相手が人かAIか区別できないこと」が基準のひとつだが、フィジカルAIにおけるチューリングテストは「ホテルの部屋を掃除したのが人かロボットか区別できないこと」に例えられるとした。


「モデル化手法」と「フィジカルAI」

従来の産業用ロボットは、詳細なプログラミングによる「モデル化手法」で高精度な動作を実現してきた。しかし、設計やティーチングには多大な手間と時間がかかり、想定外の状況への対応は難しい。
一方、近年注目を集めている「フィジカルAI」は経験を学習して動作する。いわゆる強化学習(多くの経験パターンから学ぶ)をもとにしていて、数学的に設計するのが難しいタスクにも対応することができる、従来のコンピュータよりも、人に近い学習方法とタスク対応が特徴になる。


現場では、「モデル化手法」と「フィジカルAI」を排他的に扱うのではなく、高精度や高速性が求められるタスクには「モデル化手法」を、汎化的で幅広い作業には「フィジカルAI」を導入するなど、使い分けが重要になる。その意味で、人型ロボットという形状はフィジカルAIの適用先として合理的だ(もちろん言葉で言うほど簡単なことではないからこそ、チャレンジングであり面白い)。

■生成フィジカルAIの紹介 (音声で日本語が選択可)


膨大な学習データが必要

LLMがネットなどの膨大なデータから学習してスキルを向上させたように、フィジカルAIもまた膨大な学習データ、アクションデータが必要になり、それをどうやって収集するかが課題だ。
そこで一般的にまず行われるのがテレオペレーション(遠隔操作)によるデータ収集だ。人が遠隔操作でロボットを操縦することでアクションデータを収集していく。



ただし、それだけでは汎化性の実現は不十分だ。例えばキッチンで皿を並べる場合、人は環境や食器が変わっても柔軟に対応できるが、AIにすべてのバリエーションを学習させるのは現実的ではない。膨大な環境や物品を実際に用意して体験データを収集するには時間とコストが障壁となる。



■ドメインランダム化とシム2リアル

この課題を解決するのがシミュレーションの活用「ドメインランダム化」だ。可能な限り多様な仮想環境で学習させ、リアル環境に応用することで汎化性を高める。もちろん、シミュレーションと実環境は完全には一致しないため、実機にデプロイしてからのフィードバック調整(シム2リアル)やファインチューニングが必要となる。


シミュレーションでできる限り多くのパターンを学ぶ点では、同時に大量の数のロボットを仮想環境で動かすことによって、膨大なデータを収集し、学習していく手法もとられる。下の画像は「Isaac Sim / Lab」で4000台のロボットがアクションデータを収集して学習のために利用する例だ。


「Isaac Lab」(ラボ)は、NVIDIAのロボティクスシミュレーションプラットフォーム「Isaac Sim」が提供するシミュレーション機能を活用し、多くのロボット(マニピュレーター、四足歩行ロボット、ヒューマノイドなど)向けの学習環境とツールを提供している。


ファインチューニングとは、膨大なデータで事前学習した汎用的なAIモデルを、特定のタスクや環境に合わせて少量のデータを使って再学習して調整する技術。これにより、ロボットの精度や効率、パフォーマンスを向上させることができる。
これらによって、現実世界のテレオペレーションで得たデータと組み合わせて、精度と汎化性を高める学習環境が整う。


LLMを中心とした生成AIを使ったことがある人は体感していると思うが、生成AIはテキストから画像を創ることができる。例えば、シミュレーションのデータとして活用するためのアイテムの生成には従来とても時間がかかる作業だったが、生成AIを活用すると瞬時に様々なパターンのアイテムや環境を生成することができる。この技術もシミュレーション環境の構築に活かされている。


世界基盤モデルへ

汎化性を一層高める技術として「世界基盤モデル(World Foundation Model)」が導入されつつある。加瀬氏のセッションでは、その代表例として「Cosmos」が紹介された。詳細は今後さらに掘り下げたい。




NVIDIAのオンラインセミナー 見逃し配信を公開中

を2025年7月29日(火)に、ロボスタ初のオンラインセミナー「NVIDIAがヒューマノイド開発を身近にする、フィジカルAIとロボット開発プラットフォームの全貌を聞く」を開催しました。プレミアム会員になると、見逃し配信(動画)を視聴することができます。詳細はこちら

世界一のAI企業、NVIDIAはヒューマノイド向けAIやロボットの開発基盤「NVIDIA Isaac GR00T」の提供を2025年から開始しました。
NVIDIAが提供するフィジカルAI開発のためのプラットフォーム「NVIDIA Omniverse」や、ロボティクス向けの「NVIDIA Isaac Sim」などによって、ヒューマノイドロボット開発の効率が格段に向上したと言われています。世界的に知られるロボット開発企業も既に使い始めています。


セミナーでは、それらの事例を踏まえながら、ヒューマノイドや業務用ロボットをどのような方法で開発を始めればばいいのか、従来の開発プロセスとどのように違うのか、今後、どう変わっていくのかなどを、NVIDIA担当者によるプレゼンテーションとロボスタ編集長・神崎洋治による深堀りで全貌を解明していきます。
詳細はこちら

ABOUT THE AUTHOR / 

神崎 洋治
アバター画像

神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。