ディズニー先進のアニマトロニクス技術 ヒューマノイドロボットの「モーションデータからポリシーを学習」する動画を公開

ディズニーリサーチは、2024年8月22日、ロボットなど物理ベースでのキャラクター制御が最新技術によって進歩したことで、非構造化のモーションデータから、ロボットの動作を制御するための方針である「ポリシー」を学習することが可能になったとして、動画を公開しました。デジタルツインのロボットシミュレータで学習し、リアルな物理ロボットがポリシーに従って自律動作するまでのプロセスを解説しています。

■ VMP: Versatile Motion Priors for Robustly Tracking Motion on Physical Characters

ディズニーは、ディズニーリゾートや米ディズニーワールドなど、多くのアクラクションでオーディオ・アニマトロニクス(ロボット)を導入し、精巧に動作する様子が度々話題になっています。動画ではロボットが活き活きと動くまでのプロセスを垣間見ることができます(英語)。


©Disney


ロボットはモーションデータからポリシーを学習する

モーションデータとは、主にロボットが過去に行なった動作に関するデータのことで、AIが学習するデータをあげると、ロボットの関節角度、速度、位置情報などが時間とともに記録されたデータなどがその例です。ロボットはモーションデータを機械学習することで特定の環境でどのような動作を行うことが適切かを学習する手法が知られています。

「ポリシー」とはロボット(AI)が機械学習した結果として得られる行動の方針(指針)です。ロボットが次の反応をリアルタイムに選択するためのガイドラインとも言えます。ロボットが何かの要素によって立ち止まる、後退する、障害物を避ける、物を持ち上げる、迂回するといった振る舞い(ビヘイビア)は、このポリシーによって選択されます。

©Disney

すなわち「モーションデータからポリシーを学習」するというのは、ロボットが特定の作業を実行するための動作を過去の動作データから自動的に学習し、それを更に活用してリアルタイムで次の動作を制御する方法を選択、その行動の方針であるポリシーも学習していく、ということです。

©Disney


非構造化データと構造化データ

ちなみに、非構造化とはエクセルの表計算や数値化されたコンピュータ向けの構造化データではない、コンピュータが集計や解析、あるいは検索などに不向きなデータを表します。例えば、ロボットに何かをさせる場合、その動作の概要は数値等で指示できるものの、バランス感覚や不測の事態へのリカバリー、反応は構造化がしづらいので、ポリシーに従って行動することが求められます。

例えば、ロボットの二足歩行はとても不安定です。舗装路ではしっかり歩くことができても、不整地や斜面、雪路など不安定な場所を歩くことは困難で、バランスの補正を随時おこなう必要がありますが、それを構造化データで表すには不可能に近く、基本的な歩行データをもとにしてポリシーを学習することで、不安定な地形にも対応できるようにしています。
人間の行動を振り返ってみても、スポーツや格闘技、登山や釣り、ゲームなど、あらゆる行動は、最初のレベルでは熟練者に習って習得するものの、それ以降は個々人のポリシーに従って身体が動いたり反応する、と感じる人も多いのではないでしょうか。

ちなみに構造化データと非構造化データはチャットボットのような会話システムでも例として頻繁にあげられます。例えば、完全なQ&Aシナリオ(ルールベース)は構造化データです。コンピュータはユーザーが発話した「Q」をデータベースが検索して、それに該当する「A」を着実に回答します。しかし、これでは応用力がなく、ユーザーが「Q」に使った言葉使いが変わっただけでも回答ができない場合もあります。非構造化データを理解するAIはバラツキのある発言や表現を理解し、かつ、多少ユーザーの意図を組んだ回答を返すことができます。「ChatGPT」や「Gemini」などでそれを実感した人も多いのではないでしょうか。


「模倣精度」に着目

ディズニーは「無数にあるモーションや未知のモーションに対しては、リアルな物理ロボットに反映して展開する単一の制御ポリシーを学習することは依然として困難」としています。ディズニーの論文では、「模倣精度」に着目し、全身運動で動作を参照するキャラクター制御を可能にする2段階の手法を提案しています(ここからの内容は専門知識が必要で難解です)。

第一段階では、非構造化データから短いモーション・ウィンドウをまず入力として取得します。更に変分オートエンコーダをトレーニングして「潜在空間エンコーディング」を抽出します(変分自動訓練により潜在空間を学習することで、潜在空間エンコーディングを抽出)。
次に、時間で変動する潜在的なコードからの埋め込みを使用し、第2段階で条件付きのポリシーをトレーニングし、運動学的入力からダイナミクスを考慮した出力へのマッピングを提供します。

©Disney

2つの段階を分離しておくことで、「自己教師法」のメリットを活用して、より優れた潜在コードと明示的な模倣報酬を取得、モードが崩壊することが回避できます。時変潜在符号からの埋め込みを用いて、第2段階で条件付きポリシーを学習し、運動学的入力からダイナミクスを考慮した出力へのマッピングを提供します。

動画の説明では「この2つの段階を分離することで、より良い潜在コードを得るための自己教師法と、モード崩壊を避けるための明示的な模倣報酬の恩恵を受けることができます。本手法の効率性と頑健性を、ユーザが指定した未知のモーションを用いたシミュレーションと、ダイナミックモーションを実世界に持ち込んだ二足歩行ロボットで実証します。」と締めくくっています。

■参考 Interactive Design of Stylized Walking Gaits for Robotic Characters

ABOUT THE AUTHOR / 

神崎 洋治

神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。

PR

連載・コラム