デジタルヒューマン株式会社と株式会社miiboは、共同で日本初の「視覚」を持つデジタルヒューマンを開発した。これまで両社は、デジタルヒューマン社が提供するAIアバターに会話型AIを構築するプラットフォーム「miibo」を連携し、様々な事例に取り組んできた。今回のアップデートにより、人間のように視覚を持ったデジタルヒューマンを実現することで、物を示して「これの使い方を教えて」と聞くなど、より高度な会話が提供できるようになった(OpenAI社が提供している画像認識に対応した生成AIモデルである「GPT-4 Turbo with vision」に連携)。
また、この機能の早期実用化を目指し、共創パートナーをはじめとする参画企業の募集を開始した。
「視覚」を持つデジタルヒューマン(ビジョン機能と連携したデジタルヒューマン)の動画を公開し、会話している人間の女性のピースサインや持っているリモコンを認識してデジタルヒューマンがされについて話す様子などを観ることができる。
■【デジタルヒューマンVISION】の紹介
「これの使い方を教えて」
「私のスタイリングを提案してください」
など、デジタルヒューマンが相手の様子を視覚的に認識しながら、会話を行うことができるようになった。AIが会話相手を視覚的に認識することで、話しかける内容でなく、見せたものについて解説したり、見た目や表情についてを会話の要素として取り込むことができる。よりパーソナライズされた体験の提供にも繋がる。
miiboは様々なLLMをカスタムした会話型AIを構築したサービスで、OpenAI社が提供している画像認識に対応した生成AIモデルである「GPT-4 Turbo with vision」に対応。miiboの「GPT-4 Turbo with vision」をカスタムして利用する機能と、デジタルヒューマン社の音声認識・音声合成を搭載した高精度なAIアバターを組み合わせることにより実現した今回の新機能は、国内初の事例、としている。
新機能の実装とユースケースへの応用
機能
・デジタルヒューマンが会話相手の特徴を細かく把握可能に
・会話相手の容姿や表情、性別を認識
・上記の特徴に併せた会話が可能に
・デジタルヒューマンが眼の前にあるモノを認識して会話
想定されるユースケース例
医療
デジタルヒューマンが心臓病のコーチとして術後患者をサポート
観光/旅行
デジタルヒューマンガイドと一緒に街を観光
取り組みの背景
学習したデータを元に、新しいデータや情報をアウトプットする生成AI(ジェネレーティブAI)は、これまで人間が実施してきた「考える」「計画する」などを実行し、アイディアやコンテンツを生み出すことができる。そのため、フロントエンドとして人間とAIの良い点を組み合わせたハイブリッドな存在であるデジタルヒューマンがマッチする。
miibo社の提供する会話型AIと、デジタルヒューマン社の提供するデジタルヒューマンを掛け合わせたAIアバターはこれまでも、人間のように「聴覚」「言語」を持ち、音声認識・音声合成ともスムーズに連携する高精度な機能で人間とAIの自然なコミュニケーションを実現した。
この度、AIアバターにさらに「視覚」を持たせることに成功し、AIアバターがさらに人間に近づく画期的な進化を遂げる、としている。
デジタルヒューマンについて
デジタルヒューマン株式会社が提供するデジタルヒューマンは、AIとコンピューターグラフィックス技術の組み合わせによる次世代のAIアバターで、人間とAIの良い点を組み合わせたハイブリッドな存在として開発を進める。
『リアル世界』と『デジタル世界』の双方で同時に活躍することができ、人間のように耳と声をつかって、AIドリブンのリアルタイム対話を楽しめるため、マーケティング、セールス、サービスなどの各チャネルにおいて、圧倒的な没入感をもたらし、強く記憶に残るデジタル体験を提供する。
日本語をはじめ、28言語に対応した音声認識や音声合成機能を搭載しており、さらにChatGPT、LLM(大規模言語モデル)、ジェネレーティブAI、RPA、チャットボット、eKYC、感情推定、年齢や性別の分析など多数のAIツールを統合して、投資効果を最大化する。
同社は「デジタルヒューマンは “想像を超える新たなコミュニケーションチャネル” として、労働力不足といった社会問題の解決にも寄与することが期待されています」とコメントしている。