生成AIをロボティクスへ活用する方法 ボストンダイナミクス、Agility、NTTなどがAIロボットにLLM採用 NVIDIA OmniverseやIsaacの活用例

1月9日に開幕したCESに先立ち、NVIDIAは特別講演の一環として、NVIDIAのロボティクスおよびエッジ コンピューティング担当バイスプレジデントの ディープゥ・タッラ氏(Deepu Talla)が、NVIDIAとそのパートナーが生成AIとロボティクスをどのように融合させているかについて説明した動画を公開した(動画はこの記事の末尾に)。


Boston Dynamics、Collaborative Robotics、Covariant、Sanctuary AI、Unitree Roboticsなど、ロボット関連のパートナー企業が増え続けていて、GPUで高速化された大規模言語モデルを採用して、あらゆる種類のマシンに今までにない高度なレベルの知性と適応性がもたらされている。

ヒューマノイドロボット「Digit」に片付けをテキストで指示

タッラ氏は「人工知能を搭載した自律型ロボットは、効率の向上、コストの削減、労働力不足への取り組みのために、ますます活用されるようになっています」と語る。




最新型のGeForce RTX が仮想空間やゲームキャラクターの動きを進化

講演ではまず、最新型のGeForce RTXの8800が紹介された。新型のRTXによって描画処理の負荷が高いアクション系のゲームによりリアルな動きとフォトリアリスティックな映像が提供できるようになった。

NVIDIA の GeForce 担当シニア・バイス・プレジデントであるジェフ・フィッシャー (Jeff Fisher)氏

タッラ氏はNVIDIA V100を採用しているデータセンターでは「6万ドルのGPUが4基必要でしたが、今では1基のGeForce RTX GPUで可能になっています」とその進化を語った。その上で「昨年はChatGPTとStable Diffusionの普及により、新しい生成AIモデルのトレーニングと推論に莫大な投資が行われました」と続けた。これはAIが新しい次元へとステップアップしたことを意味する。
「昨年10月にNVIDIAは、Windows用 TensorRT LLM ライブラリをリリース。「Llama 2」や「Mistral」などの大規模言語モデルをRTX PCで最大5倍まで高速化します」とした。



ロボティクスにも通じるNVIDIA ACEの生成AI活用の流れ

Microsoft TeamsをはじめとしたOffice 365ではクラウド上で実行されるアシスタント「Copilot」が提供されはじめ、業務に大きな進化と変革をもたらそうとしている。
そしてNVIDIAは生成AIを利用して、デジタル アバターに生命を吹き込む テクノロジ プラットフォーム「NVIDIA ACE」(NVIDIA Avatar Cloud Engine)を紹介した(ACE for Gamesのお披露目は昨年5月)。ACE AI モデルはクラウドとローカルPCのどちらでも実行するように設計されている。


例えば、ゲーム キャラクターを動かす場合、まず プレイヤーが音声入力をおこなうと、自動音声認識モデルによって音声がテキストに変換され、プロンプトが生成される。次にそのテキストを大規模言語モデルに送るとキャラクターの反応がAIによって自動生成される。

その後 テキストtoスピーチ(読み上げモデル)機能によってキャラクターが返答するテキストが音声に変換され、それがアニメーションモデルに渡されて違和感がないように口の動きと同期され、キャラクターの動きがゲームシーンに合わせてレンダリングされて自然な対話をおこなう音声と映像が表現される、という流れだ。


デモではラーメン屋を舞台に、プレイヤーと、ゲームの中のキャラクター2人の3人が会話するデモが披露される。このとき、ゲームの中のキャラクター2人は生成AIによって毎回、異なる会話内容をおこなうとしている。(ラーメン屋が舞台のデモは以前の貴重講演でも生成AIデモで紹介されたがそこから更に進化している)


ロボットと生成AI

10年前、NVIDIAの創業者/CEOのジェンスン フアン氏(Jensen Huang)は、最初のNVIDIA DGX AIスーパーコンピュータをOpenAIに直接手渡したという。現在、OpenAIのChatGPTをきっかけに、生成AIは現代で最も急速に成長しているテクノロジーの1つとなっている。

ロボティクスと生成AIの重要な接点は、LLMは脳の言語中枢に似ており、ロボットが人間の指示をより自然に理解して応答できるようになるだろうということ。
このようなマシンは、人間から、相互にそして周囲の世界から継続的に学習できるようになる。「これらの特性を考慮すると、生成 AI はロボティクスに非常に適しているのです」とタッラ氏は語る。


ロボットは生成 AI をどのように使用しているか

AI 搭載ロボットの開発と展開を容易にする NVIDIA Isaac や Jetson プラットフォームなどの NVIDIA テクノロジーは、すでに120万人を超える開発者と 10,000の顧客およびパートナーへの信頼を築いているとしている。

NVIDIAのロボティクスおよびエッジ コンピューティング担当バイスプレジデントの ディープゥ・タッラ氏

動画では最後に、ロボットと生成AIについて、ディープ・タラ氏(Deepu Talla)が登場し、例を挙げながら技術と動向を紹介した。


ボストンダイナミクスは生成AI、LLMと連携してSPOTを対話できるように進化させた

■Making Chat (ro)Bots


ロボットに生成AIを搭載してテキストや音声コマンドの理解度を向上

Agility Robotics やNTTなどは、ロボットに生成AIを組み込んで、テキストや音声コマンドを理解できるようにしている。Dreame Technologyのロボット掃除機は、生成AIモデルによって作られ、シミュレートされた生活空間でトレーニングされている。そして、Electric Sheepは自律型芝刈り機の世界モデルを開発中だ。




2つコンピュータモデルを活用

ロボティクスにおける AIの導入に不可欠なデュアル コンピューター モデル (下図) を示し、AIの開発と応用に対するNVIDIAの包括的なアプローチを披露した。2つのコンピュータで構成される。

最初のコンピュータは、AIモデルの作成と継続的な改善の中心となる。
「AI ファクトリー」は、AI モデルのシミュレーションとトレーニングのために、NVIDIA のデータセンター コンピューティング インフラストラクチャと、NVIDIA の AI および NVIDIA Omniverse プラットフォームを使用する。NVIDIA Omniverse プラットフォームはいわゆる現場を仮想空間で再現するデジタルツインが重要なポイントのひとつとなるが、CG制作やビルド設計の知識が無くてもテキストを入力して生成AIやLLMがプログラミング生成して、デジタルツインを創ることも不可能ではなくなった。



2番目のコンピュータはロボットの実行環境を生成

OmniverseやIsaac Simではロボットのシミュレーションが日常的におこなわれている。このとき、工場や物流倉庫であればパレットや台車、工具、三角コーンなどさまざまなツール(アセット)が置かれている環境を再現することになる。これらのアセットも生成AIでテキストで指示して簡単に作ることができ、雨、水、錆などを既存の仮想環境に簡単に追加することができる。


「NVIDIA Picasso のような生成AIツールを使用すると、ユーザは単純なテキスト・プロンプトからリアルな3Dアセットを生成し、それをデジタルシーンに追加して、動的で包括的なロボットのトレーニング環境が実現できます」と続け、「通常はテクニカル アーティストが数日かかって制作するタスクが、生成AIやLLMを使用して数分で完了します。スクリプトを記述する際にも、生成 AIがコパイロット(支援役)として機能します。プロンプトを入力し 必要なコードを生成してロボットのシミュレーションを実行するか、自動でラベル付けされた合成データを生成すれば、膨大な費用と時間が節約できます」と語った。



同じ機能は、Omniverse での多様で物理的に正確なシナリオの作成にも拡張され、ロボットのテストとトレーニングを強化して現実世界への適用性を確保できる。


従来、ロボットは特定のタスク専用に作られており、別のタスクに合わせてロボットを改造するのは開発と実験、トレーニング、改善と、時間のかかるプロセスだった。
しかし、LLMとビジョン言語モデルの進歩により、このボトルネックが解消され、自然言語を通じてロボットとのより直観的な対話が可能になったと言えるだろう。
「このようなマシンは、適応力があり周囲の環境を認識しており、間もなく世界中に広がるでしょう」と締めくくった。

■NVIDIA Special Address at CES 2024 (ロボットは22分くらいから)

ABOUT THE AUTHOR / 

神崎 洋治

神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。

PR

連載・コラム