NVIDIAのデジタルヒューマン技術「ACE」がどんどんリアルに ブランドアンバサダーのAIアバター「James」を紹介 NVIDIA NIM

生成AIは、企業がデジタルヒューマンやアバターを通じて顧客と関わる新しい方法を生み出している。

2024年7月28日から8月1日に開催されたSIGGRAPH 2024において、NVIDIAは感情やユーモアなどを使って人々とつながることができるインタラクティブなデジタルヒューマンのJamesを公開した。Jamesは、カスタムで非常にリアルなインタラクティブアバターを作成するためのリファレンスデザイン「NVIDIA ACE」を使用したカスタマーサービスワークフローに基づいている。
■Digital Humans Transform Industries 2024/06/04

ユーザーはまもなく、ai.nvidia.comでJamesとリアルタイムで会話できるようになる。

NVIDIAはさらに、このコンピューターグラフィックスカンファレンスにおいて、没入型のテレプレゼンスエクスペリエンスを実現するMaxine3DやAudio2Face-2Dなど、NVIDIA Maxine AIプラットフォームの最新の進歩も紹介した。

開発者は、MaxineとNVIDIA ACEのデジタルヒューマンテクノロジーを使用して、デジタルインターフェイスでの顧客とのやり取りを、より魅力的で自然なものにすることができる。ACEテクノロジーは、音声と翻訳、視覚、インテリジェンス、リアルなアニメーションと動作、リアルな外観のためのAIモデルを使用して、デジタルヒューマンの開発を可能にする。

さまざまな業界の企業が、MaxineとACEを使用して、没入型の仮想顧客エクスペリエンスを提供している。

デジタル ブランド アンバサダーのJamesを紹介




NVIDIA NIMマイクロサービス上に構築されたJamesは、文脈に沿って正確な応答を提供できる仮想アシスタント。

Retrieval-Augmented Generation(RAG)を使用することで、Jamesは最新のNVIDIAテクノロジーについてユーザーに正確に伝えることができる。ACEを使用すると、開発者は独自のデータを使用して、顧客に関連情報を伝えることができるドメイン固有のアバターを作成できる。

Jamesは、最新のNVIDIA RTXレンダリングテクノロジーを使用し、高度でリアルなアニメーションを実現する。その自然な音声は ElevenLabsにより実現されている。NVIDIA ACEを使用すると、開発者はさまざまなユースケースに合わせてアバターを作成する際に、アニメーション、音声、言語をカスタマイズできる。

NVIDIA Maxineがテレプレゼンスにおけるデジタルヒューマンを強化

デジタルヒューマンのオーディオとビデオの品質を強化する最先端のAI機能を導入するプラットフォームであるMaxineは、ビデオ会議デバイスにおいてはリアルタイムでフォトリアルな2Dおよび3Dアバターの使用を可能にする。

Maxine 3Dは、2Dビデオポートレート入力を3Dアバターに変換し、非常にリアルなデジタルヒューマンをビデオ会議やその他の双方向通信アプリケーションに統合できるようにする。このテクノロジーはまもなく早期アクセスで利用可能になる。

現在早期アクセス中のAudio2Face-2Dは、オーディオ入力に基づいて静的ポートレートをアニメーション化し、1つの画像から動的な会話するデジタルヒューマンを作成する。このテクノロジーはai.nvidia.comで試すことができる。

デジタルヒューマン アプリケーションを採用している企業

HTC、Looking Glass、Reply、UneeQ は、カスタマーサービス エージェントや、エンターテイメント、小売、サービス業におけるテレプレゼンス エクスペリエンスなど、幅広いユースケースでNVIDIA ACEとMaxineを使用している最新の企業だ。

SIGGRAPH では、デジタル ヒューマン テクノロジー開発企業の UneeQ が 2 つの新しいデモを披露しました。

1つ目のデモでは、拡張性とプライバシーを強化するローカルのブラウザー内コンピュータービジョンを備えたNVIDIA GPUによりクラウドレンダリングされ、Audio2Face-3D NVIDIA NIMマイクロサービスを使用してアニメーション化されたデジタルヒューマンに焦点を当てている。UneeQのSynapseテクノロジーは、匿名化されたユーザーデータを処理し、それを大規模言語モデル (LLM) にフィードして、より正確で応答性の高いインタラクションを実現する。

2つ目のデモは、NVIDIA RTX GPU搭載のノート PC 1台で実行され、Gemma 7B LLM、RAG、NVIDIA Audio2Face-3D NIM マイクロサービスによって実行される高度なデジタルヒューマンをフィーチャーしている。

どちらのデモも、UneeQのNVIDIAを活用した取り組みを紹介している。これは、ユーザーの表情や動作に反応できるデジタルヒューマンを開発し、仮想カスタマーサービス エクスペリエンスのリアリズムの限界を押し広げるものだ。



HTC Viverseは、Audio2Face-3D NVIDIA NIMマイクロサービスをVIVERSE AIエージェントに統合して、ダイナミックなフェイシャルアニメーションとリップシンクを実現し、より自然で没入感のあるユーザーインタラクションを実現している。

ホログラム技術企業Looking GlassがSIGGRAPHで行ったMagic Mirrorデモでは、シンプルなカメラセットアップとMaxine の高度な3D AI機能を使用して、新たに発売されたグループ表示可能なLooking Glass 16インチおよび32インチ空間ディスプレイに、ユーザーの顔のリアルタイム ホログラフィック フィードが生成された。

Replyは、Costa Crociereのクルーズ船Costa Smeralda向けに開発された最先端のデジタ ヒューマンであるFuturaの強化版を発表した。Audio2Face-3D NVIDIA NIMおよびRiva ASR NIMマイクロサービスを搭載した Futura の音声合成機能は、GPT-4o、RAG 向け LlamaIndex、Microsoft Azure テキスト読み上げサービスなどの高度なテクノロジーを活用している。

Futuraには、包括的な感情認識のために、Reply独自の感情コンピューティングテクノロジーとHume AIおよびMorphCastも組み込まれている。Unreal Engine 5.4.3とMetaHuman Creatorを使用して構築され、NVIDIA ACE搭載のフェイシャルアニメーションを備えたFuturaは、6つの言語をサポートしている。インテリジェントアシスタントは、個別の港訪問の計画、カスタマイズされた旅程の提案、ツアーの予約の円滑化に役立つ。

さらに、Futuraはゲストのフィードバックに基づいて推奨事項を改良し、特別に作成されたナレッジベースを使用して有益な都市情報を提供し、観光客の旅程を充実させる。Futuraは、顧客サービスを強化し、現実世界のシナリオで没入型のインタラクションを提供することで、業務の合理化とビジネスの成長を促進することを目指す。

関連サイト
NVIDIA Japan

ABOUT THE AUTHOR / 

ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

PR

連載・コラム