ヒューマノイド開発を支援する「NVIDIA Cosmos世界基盤モデル」とは・・ 世界モデルと世界基盤モデルの違いを解説

2025年9月25日に開催された「NVIDIA AI Day Tokyo」のセッションの中から、前回は人気の高いフィジカルAIをトピックとした講演「フィジカルAIで加速するヒューマノイドロボティクス NVIDIA Isaac GR00TとCosmosの紹介」の前半を紹介した。

登壇した エヌビディア合同会社 ソリューションアーキテクト 加瀬敬唯氏。関連記事「NVIDIAが語るフィジカルAIで加速するヒューマノイド開発の最前線「NVIDIA AI Day Tokyo」レポート ドメインランダム化とシム2リアル」より

今回はその講演の中盤で紹介された「NVIDIA Cosmos 世界基盤モデル」と、「世界モデル」について解説したい。


ロボティクスのデータピラミッドと「世界モデル」

ヒューマノイドやロボットのAI学習にも膨大な学習データが必要になること、学習データを収集するにはテレオペレーション(ロボットの遠隔操作によるリアル環境でのデータ収集)が有効なこと、しかし、その収集方法には現実的に時間やコスト面で限界があること、それを更に拡張するためにはシミュレーション環境によってデータ収集する「ドメインランダム化」「シミュレーションtoリアル」が有効なことを解説した。しかし、そこにもまた限界がある。

その状況を俯瞰して見ると、次のようなデータピラミッドが形成されるというが、更に拡張するフェーズが「世界モデル」(世界を理解するモデル)の活用だ。世界モデルとは、物理法則や空間特性などの現実世界の力学を理解する生成AIモデルのことで、テキストや画像、ビデオ、アクションなどの入力データを使用して動画を生成することができる。


感覚データから運動や力加減、空間的な関係などの力学を表現し、予測する方法を学ぶことで、現実世界の環境の物理的特性を理解するとされている。

大規模言語モデルがWEBにある膨大なデータから学習したように、それと同様にロボットの学習データとしてWEBにある膨大なデータを活用できないだろうか、というアプローチだ。


「世界モデルは世界の観測情報から世界の構造を学習し、入力に基づいて未来の状態を予測するモデル」、言い換えると「データドリブンで世界の原則を理解するようなモデル」だ。実際には細かい物理法則は理解していないものの、野球のボールを投げたらどのような放物線を描くということを予測できるモデル」(加瀬氏)となっている。

この「世界モデル」を使って、シミュレーション上のアイテムやマテリアル、環境などのデータを拡張する取り組みが行われている。


この取り組みは自動運転の学習にも有効で、自転車や子どもが飛び出す、火災が発生するなど、実際のデータでは実現させることが困難なケースを世界モデルなら生成することができ、データのスケールアップが可能だと考えられる。

左は車道に子どもが飛び出す映像。中央の火災のシチュエーションも現実では作ることは難しい



「世界モデル」と「世界基盤モデル」

ロボットが環境を理解・予測するために内部に構築するのが「世界モデル」で、環境のダイナミクス(状態がどう遷移するか)や観測の生成過程を学習したもの。そしてこの「世界モデル」を取り込み、多くの環境・センサー・行動データを大規模に学習した汎用モデルを「世界基盤モデル」と呼ぶ。
知識・推論・感覚データを統合し、原則としてどんなロボットにも転移可能な「共通の世界理解」を目指している。

世界モデル
ロボットが環境を予測するための内部モデル

世界基盤モデル
大規模なマルチモーダルデータで学習し、「多くのロボットが共通で利用できる」汎用モデル


世界基盤モデル「Cosmos」

NVIDIAが世界基盤モデルとして提供しているのが「Cosmos」だ。
世界モデルを学習させるために、2000万時間分のデータを取得。1万基の「NVIDIA H100 GPU」で2000時間以上のトレーニングを積んで学習させた。


■NVIDIA Cosmos: A World Foundation Model Platform for Physical AI
日本語の音声(AI通訳)が選択できます

世界基盤モデル「Cosmos」はユーザーが実際に利用しやすいように、3つのモデルで分けて、オープンソースとして提供されている。3つのモデルとは、マルチモーダル入力から未来の仮想世界の状態を予測する「Cosmos Predict」、現実世界と3D入力によって条件付けられた仮想世界を生成する「Cosmos Transfer」、物理AIの世界状態理解のための思考連鎖推論「Cosmos Reason」だ。



Cosmos-Predict
マルチモーダル入力から最大30秒の連続ビデオを生成する世界状態予測モデル。

Cosmos-Transfer
シミュレーションと実世界の間での知覚的ギャップを橋渡しするための条件付き世界生成モデル。

Cosmos-Reason
ビデオフレームに対する推論を行い、物理的常識を理解するモデル。


Cosmos Predict

「Cosmos Predict」はテキストと動画や静止画、アクションなどのコンディションから最大30秒間の動画を生成することができる。



加瀬氏によれば「Cosmos Predictは演算の負荷が高いモデルのため、相応のGPUの性能が必要になる」という。5秒間の映像を生成するために必要な性能と所要時間を示した表を提示した。




Cosmos トランスファー

「Cosmos Transfer」は様々な入力から映像の背景を生成して変更できる。例えば、OmniverseとIsaac laboで使う場合、リアリスティックな映像を作るには通常、時間とコストがかかってしまうが、「Cosmos Transfer」を活用すれば、背景や環境、小物のアイテムまで作り込む必要がなく、簡単なモデルだけを作り、それ以降は「Cosmos Transfer」で生成できるメリットがある。






Cosmos リーズン

「Cosmos Reason」は名前の通りリーズニングするモデル。


ロボットでのユースケースとして「キャプショニング」や「アクションの計画」などを紹介した。



また、使用する学習データが学習に適したものかどうか(学習するのには不適切なデータかどうか)を判断するのにも利用できるという。

加瀬氏は世界モデルを解説した上で、NVIDIAのヒューマノイドの研究開発プロジェクト「Isaac GR00T」(アイザック・ジーアールゼロゼロティー、通称グルート)を紹介した。機会があれば、更に「Isaac GR00T」についてもレポートしていきたい。





NVIDIAのオンラインセミナー 見逃し配信を公開中

を2025年7月29日(火)に、ロボスタ初のオンラインセミナー「NVIDIAがヒューマノイド開発を身近にする、フィジカルAIとロボット開発プラットフォームの全貌を聞く」を開催しました。プレミアム会員になると、見逃し配信(動画)を視聴することができます。詳細はこちら

世界一のAI企業、NVIDIAはヒューマノイド向けAIやロボットの開発基盤「NVIDIA Isaac GR00T」の提供を2025年から開始しました。
NVIDIAが提供するフィジカルAI開発のためのプラットフォーム「NVIDIA Omniverse」や、ロボティクス向けの「NVIDIA Isaac Sim」などによって、ヒューマノイドロボット開発の効率が格段に向上したと言われています。世界的に知られるロボット開発企業も既に使い始めています。


セミナーでは、それらの事例を踏まえながら、ヒューマノイドや業務用ロボットをどのような方法で開発を始めればばいいのか、従来の開発プロセスとどのように違うのか、今後、どう変わっていくのかなどを、NVIDIA担当者によるプレゼンテーションとロボスタ編集長・神崎洋治による深堀りで全貌を解明していきます。
詳細はこちら

ABOUT THE AUTHOR / 

神崎 洋治
アバター画像

神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。

PR

連載・コラム

チャンネル登録