NVIDIAは2026年6月1日(月)、台湾・台北で開催中のNVIDIA GTC Taipeiにおいて、フィジカルAI向けのオープンな世界基盤モデル「NVIDIA Cosmos 3」を発表した。
Cosmos 3は、ビジョンリーズニング、ワールド生成、アクション予測を単一システムに統合した画期的なmixture-of-transformersアーキテクチャを採用。テキスト、画像、動画、環境音、アクションをネイティブに理解・生成できる完全オープンなオムニモデルであり、従来は数カ月を要していたフィジカルAIのトレーニングと評価サイクルを数日に短縮する。
フィジカルAIベンチマークで複数1位を獲得
Cosmos 3はオープンモデル同士の比較において、世界生成の精度ではArtificial Analysis、Physics-IQ、PAI-Bench、R-Benchで、アクションポリシーではRoboLabとRoboArenaで、視覚理解ではVANTAGE-BenchとTARで、それぞれリーダーボード1位を獲得している。
ラインナップは3種類。「Cosmos 3 Super」はロボティクスおよび自動運転向けモデルのポストトレーニングに最適な最高精度モデル、「Cosmos 3 Nano」は数分の1秒で高品質な動画生成とアクションリーズニングを実現する軽量モデル、「Cosmos 3 Edge」はエッジでのリアルタイム推論向けとして近日公開予定だ。
Cosmos Coalitionでオープンエコシステムを構築
同社はあわせて、Agile Robots、Black Forest Labs、Generalist、LTX、Runway、Skild AIといった世界的なモデルビルダーおよびAI開発者と連携するグローバルなエコシステム構想「Cosmos Coalition」を立ち上げた。メンバーはCosmos 3の技術やトレーニングツール、NVIDIA DGX Cloudインフラを活用しながら、モデル・研究・評価手法を相互に提供し合う。
Cosmos 3を活用する企業はロボティクス領域でAgile Robots、Doosan Robotics、LG Electronics、Samsung、Skild AI、自動運転領域でLiAuto、ビジョンAIエージェント領域でCentific、Fogsphere、Linker Vision、Milestone Systems、Yuanなど多岐にわたる。
Cosmos 3 SuperとCosmos 3 Nanoは現在利用可能で、build.nvidia.comで試用できるほか、Hugging Faceからオープンモデルをダウンロードすることや、Hugging Face Diffusers と GitHub のリソースを使用してモデルをカスタマイズしたり合成データを生成など、NVIDIA NIMマイクロサービスとして展開することも可能だ。