「GTC2026」では、ヒューマノイドおよびフィジカルAIの最前線を担う企業・研究者によるトークセッション「Watch Party: From Concept to Production: Humanoid Robotics at Scale」(ウォッチパーティー:構想から実用化へ ~大規模ヒューマノイドロボティクス)が開催された。登壇したのは、NVIDIAのAmit Goel氏をモデレーターに、Agility RoboticsのPras Velagapudi氏、TeslaのAshok Elluswamy氏、Physical IntelligenceのChelsea Finn氏(スタンフォード大学)、Hexagon RoboticsのArnaud Robert氏、Skild AIのDeepak Pathak氏の計6人。
いずれもヒューマノイドやそのシステム開発に携わる著名な企業のキーマンたちが集まった。

ロボットは研究室から現実の環境へ(NVIDIA)
NVIDIAのGoel氏は冒頭、この10年のロボティクスの変化を振り返った。従来は、マルチモーダルAIの学習方法や、シミュレーションと現実のギャップ(Sim-to-Realの課題)、エッジ上での推論実行といった、いわば「成立条件」が議論の中心だった。しかし現在は、その段階を越え、ロボットは研究室から現実の複雑な環境へと移行しつつあると指摘する。
Agility RoboticsのVelagapudi氏は、同社のヒューマノイド「Digit」がすでに物流や製造現場に導入されている現状を紹介した。AmazonやGXO、Schaefflerに加え、Toyotaとの協業も進んでおり、ヒューマノイドは「将来の可能性」ではなく「現場で評価される存在」になったと語った。今後は、人と同じ空間で安全に協働できる「協調安全機能」が重要になるという。


テスラの「フィジカルAGI」コンセプト
TeslaのElluswamy氏は、同社の一貫したビジョンを提示した。Teslaは「Physical AGI」(フィジカルAGI)を掲げ、車とヒューマノイドを同一の知能で動かす世界を目指している。複数カメラの映像を入力として受け取り、リアルタイムで行動を出力するエンドツーエンドの単一モデルである。自動運転ではすでに大規模な運用が進み、一部では監視なしフリートも動き始めているという。このアプローチは開発中のヒューマノイド「Optimus」にも引き継がれており、安全性とスケーラビリティを最優先する設計思想が特徴となっている。

実世界で取得された大規模データこそが汎化性能を高める(PI)
データ戦略については、各社の思想が大きく分かれた。Agilityは「データのピラミッド」を提示し、遠隔操作で取得するデータは高品質で価値が高いが収集が難しく、動画データからの学習は量は多いが実用性は低いと指摘する。
Physical Intelligence(PI)のFinn氏は、実世界で取得された大規模データこそが汎化性能を高めると主張し、多様なロボットの身体から取得するデータは転移学習活用して強化できることを示した。

重要なのは量ではなく、どのデータが学習に効くか(テスラ)
Teslaはデータの「選別能力」を強みとする。Elluswamy氏は、車両フリートから1日で膨大なデータが生成される一方で、学習に使うのはごく一部に限られると説明する。重要なのは量ではなく、どのデータが学習に効くかを見極めることだ。この思想はヒューマノイドにも適用される。また、工場内で人間が行う作業そのものが貴重な教師データになる点も指摘した。

「Pre-training」と「Post-training」(Skild AI)
Skild AIのPathak氏は、ロボティクスは本質的に「データ不足」の問題があると強調する。(ネット上などに学習データが豊富な)大規模言語モデルのようなスケールにはまだ到達しておらず、異なる身体・環境からデータを集約することで巨大なデータフライホイールを構築する必要があるという。同社は「Pre-training」と「Post-training」を分けて、人間による動画やシミュレーションで基盤を作り、実機データで仕上げるアプローチを取っているという。

シミュレーションの役割と重要性
シミュレーションの役割についても議論が交わされた。Teslaは、ニューラルネットのシミュレータが「成功する未来」だけを学習してしまう危険性を指摘し、常に実データで補正する必要性を強調した。
Skild AIは、移動はシミュレーション中心、操作は実データ中心と整理し、Hexagonはデジタルツインを用いてシミュレーションと現実の差分を計測・フィードバックするループを構築していると説明した。
ロボットの「脳」の設計について
ロボットの「脳」の設計については、階層型と統合型の対立が見られた。PIは階層構造によるタスク分解とメモリ設計の重要性を説いた。一方、Teslaはエンドツーエンド(E2E)の統合モデルを維持する立場を取る。Skild AIは単一モデルの中に階層を内包する「多身体対応の脳」を志向し、Hexagonは複数モデルのオーケストレーションを採用している、とした。
「常時稼働のエージェントAI」
さらに議論は「常時稼働のエージェントAI」に及ぶ。Agilityはすでにクラウドや物流システムと統合された運用基盤を構築しており、その上にエージェント層が乗る形になると説明する。PIは、長時間稼働において重要なのは信頼性であり、失敗を繰り返しながら改善する能力が鍵になると指摘した。Hexagonはフリート間での学習共有を競争軸として挙げ、Skild AIは用途ごとの失敗許容度が導入領域を決めると整理した。
本セッションを総括
本セッションを総括すると、ヒューマノイド競争は単体性能ではなく、データ、シミュレーション、知能アーキテクチャ、そしてフリート運用を含む総合戦へと移行していることが明確になった。Teslaの統合型、PIの実データ重視、Skild AIの汎用基盤、Agilityの現場最適化、Hexagonのオーケストレーション型という、複数のアプローチが並立しながら進化していると感じた。
ヒューマノイドは今、研究テーマから産業基盤へと移りつつある。その中で問われているのは、「どのロボットが優れているか」ではなく、「どのシステムが現実世界で機能するか」である。そして各企業が手探りで最適解を求めている。







