NVIDIA ヒューマノイドや自動運転などフィジカルAI開発を支援する世界基盤モデル「Cosmos」をCESで発表

2025年1月7日 By ロボスタ編集部

NVIDIA は2025年1月7日（日本時間）、「CES 2025」において、自動運転車 (AV) やロボットなどのフィジカルAIシステムの開発を促進するために構築した最先端の生成世界基盤モデル（ファウンデーションモデル）を発表した。

次世代Blackwellアーキテクチュアのロボティクスプロセッサ「Thor」（ソー）を手に、基調講演に登壇したNVIDIA CEOのジェンスンフアン (Jensen Huang) 氏

今回発表された生成世界基盤モデルは以前より発表を予告していたもので「NVIDIA Cosmos」と命名。高度なトークナイザー、ガードレール、および高速ビデオ処理パイプラインで構成されるプラットフォームだ。デジタルツイン「NVIDIA Omniverse」と連携する。

この基盤モデルは、フィジカルAIとしてヒューマノイドの開発に積極的な、1X、Agile Robots、Agility、Figure AI、Foretellix、Uber、Waabi、XPENGなどの企業が既に採用を決めているが、発表された中には日本企業の名前は無かった。

一斉に登場したヒューマノイド（画像）を紹介するフアンCEO

Cosmos世界基盤モデルはフォトリアルな物理ベースの合成データを簡単に生成する方法を提供

フィジカルAIモデルの開発にはコストがかかり、膨大な量の実世界のデータとテストが必要である。今回発表されあtCosmos世界基盤モデル (WFM) は、開発者が既存のモデルをトレーニングおよび評価するための、大量のフォトリアルな物理ベースの合成データを簡単に生成する方法を提供。開発者は、Cosmos WFMをファインチューニングしてカスタムモデルを構築することも可能だ。

Cosmosモデルは、ロボティクスおよびAVコミュニティの作業を加速するために、オープンモデルライセンスの下で提供される。開発者は、NVIDIA APIカタログで最初のモデルをプレビューするか、NVIDIA NGCカタログまたは Hugging Faceから一連のモデルとファインチューニングフレームワークをダウンロードできる。

NVIDIA の創業者/CEO であるジェンスンフアン氏は

ロボティクスにChatGPTの時代が到来しつつあります。大規模言語モデルと同様に、世界基盤モデルはロボットおよび AV 開発の進歩に不可欠ですが、すべての開発者が独自のモデルをトレーニングするための専門知識とリソースを持っているわけではありません。NVIDIAは、フィジカルAIを民主化し、一般的なロボティクスをすべての開発者が利用できるようにするためにCosmosを作成しました

と述べている。

オープンな世界基盤モデルでAIの次の波を加速

NVIDIA Cosmosのオープンモデルスイートでは、開発者が対象アプリケーションのニーズに応じて、走行するAVや倉庫内を移動するロボットの録画映像などのデータセットを使用し、WFMをカスタマイズすることができる。

Cosmos WFMは、フィジカルAIの研究開発専用に構築されており、テキスト、画像、ビデオなどの入力とロボットセンサーまたはモーションデータの組み合わせから物理ベースのビデオを生成できる。モデルは、物理ベースのインタラクション、オブジェクトの永続性、倉庫や工場などのシミュレートされた産業環境やさまざまな道路状況を含む運転環境の高品質な生成を目的として構築されている。

CESの基調講演で、NVIDIAの創業者/CEOであるジェンスンフアン氏は、フィジカルAI開発者によるCosmosモデルの使用例を紹介した。これには以下のものが含まれる。

・ビデオ検索と理解：開発者は、雪道の状況や倉庫の混雑など、ビデオデータから特定のトレーニングシナリオを簡単に見つけることが可能になる。

・物理ベースのフォトリアルな合成データ生成：Cosmosモデルを使用し、NVIDIA Omniverseプラットフォームで開発された制御された3Dシナリオからフォトリアルなビデオを生成することができる。

・フィジカルAIモデルの開発と評価：基盤モデル上にカスタムモデルを構築したり、強化学習のためにCosmosを使用してモデルを改善したり、または特定のシミュレーションシナリオでのパフォーマンスをテストする場合などに活用できる。

・先見性と「マルチバース」シミュレーション：CosmosとOmniverseを使用して、AIモデルが取る可能性のあるすべての将来の結果を生成し、最善かつ最も正確なパスを選択可能にする。

高度な世界モデル開発ツール

フィジカルAIモデルを構築するには、ペタバイト単位のビデオデータと、そのデータの処理、キュレーション、ラベル付けに数万時間の計算時間が必要である。データのキュレーション、トレーニング、モデルのカスタマイズにかかる膨大なコストを節約するために、Cosmosには次の機能が含まれている。

・NVIDIA NeMo Curatorを搭載したNVIDIA AIおよびCUDA アクセラレーテッドデータ処理パイプライン。これにより、開発者は CPUのみのパイプラインを使用した場合に 3年以上かかる2,000万時間分のビデオの処理、キュレーション、ラベル付けを、NVIDIA Blackwellプラットフォームを使用して14日間で行えるようになる。

・NVIDIA Cosmos Tokenizer：画像やビデオをトークンに変換する最先端のビジュアルトークナイザー。今日の主要なトークナイザーよりも8倍の総圧縮率と12倍の処理速度を実現する。

・NVIDIA NeMo：非常に効率的なモデルのトレーニング、カスタマイズ、最適化のためのフレームワーク。

世界最大のフィジカル AI 業界がCosmosを採用

フィジカルAI業界のパイオニアたちはすでにCosmosテクノロジを採用している。

AIおよびヒューマノイドロボット企業である1Xは、Cosmos Tokenizerを使用して1X World Model Challengeデータセットを立ち上げた。XPENGはCosmosを使用してヒューマノイドロボットの開発を加速している。また、HillbotとSkildAIはCosmosを使用して汎用ロボットの開発を加速している。

Agility の最高技術責任者であるPras Velagapudi 氏は

データの不足と変動性は、ロボット環境での学習を成功させる上で重要な課題です。Cosmos のテキスト、画像、ビデオを世界に変換する機能により、さまざまなタスクでフォトリアルなシナリオを生成および拡張でき、高価な現実世界のデータキャプチャをそれほど必要とせずにモデルのトレーニングに使用可能になります

と述べている。

交通業界のリーダーたちも、AV 向けのフィジカル AI の構築にCosmosを使用している。

・物理世界向けの生成 AI のパイオニアであるWaabiは、AVソフトウェアの開発とシミュレーション用のビデオデータの検索とキュレーションにCosmosを使用している。

・自動運転用のAI基盤モデルを開発しているWayveは、安全性と検証に使用されるエッジケースとコーナーケースの運転シナリオを検索するツールとしてCosmosを評価している。

・AVツールチェーンプロバイダーのForetellixは、忠実度の高いテストシナリオとトレーニングデータを大規模に評価および生成するため、NVIDIA Omniverse Sensor RTX APIとともにCosmosを使用している。

・世界的なライドシェアリング大手のUberは、自律移動を加速するためにNVIDIAと提携している。Uberの豊富な運転データセットと、CosmosプラットフォームおよびNVIDIA DGX Cloudの機能を組み合わせることで、AVパートナーはより強力なAIモデルをさらに効率的な状態で構築可能になる。

UberのCEOであるDara Khosrowshahi氏は

生成AIは、豊富なデータと非常に強力なコンピューティングの両方を必要とするモビリティの未来を推進します。NVIDIA と協力することで、業界向けの安全でスケーラブルな自動運転ソリューションのタイムラインを大幅に加速できると確信しています

と述べている。

オープンで安全、かつ責任あるAIの開発

NVIDIA Cosmosは、プライバシー、安全性、セキュリティ、透明性、不要な偏見の削減を優先するNVIDIAの信頼できるAIの原則に沿って開発された。

信頼できるAIは、開発者コミュニティ内でイノベーションを促進し、ユーザーの信頼を維持するために不可欠だ。NVIDIAは、米国政府の自主的なAIコミットメントやその他のグローバルAI安全イニシアチブに沿って、安全で信頼できるAIに取り組んでいる。

オープンなCosmosプラットフォームには、有害なテキストや画像を軽減するように設計されたガードレールが含まれており、テキストプロンプトの精度を高めるツールを備えている。NVIDIA APIカタログのCosmos自己回帰モデルと拡散モデルで生成されたビデオには、AIによって生成されたコンテンツを識別するための目に見えない透かしが含まれており、誤報や誤帰属の可能性を減らすのに役立つ。

NVIDIAは、開発者が信頼できるAIプラクティスを採用し、アプリケーションのガードレールと透かしソリューションをさらに強化することを推奨している。

提供予定

Cosmos WFMは、Hugging FaceおよびNVIDIA NGCカタログでNVIDIAのオープンモデルライセンスに基づいて現在提供されている。Cosmosモデルは、完全に最適化されたNVIDIA NIMマイクロサービスとしてまもなく提供される予定。

開発者は、NVIDIA NeMo Curatorにアクセスしてビデオ処理を高速化し、NVIDIA NeMoを使用して独自の世界モデルをカスタマイズできる。NVIDIA DGX Cloudは、これらのモデルを迅速かつ簡単に展開する方法を提供し、NVIDIA AI Enterpriseソフトウェアプラットフォームを通じてエンタープライズサポートを利用できる。

NVIDIAはさらに、開発者がヘルスケア、金融サービス、製造などのエンタープライズAIユースケースに使用できる新しいNVIDIA Llama Nemotron大規模言語モデルとNVIDIA Cosmos Nemotron視覚言語モデルを発表した。