ドコモ「誰でも簡単にデジタル空間に分身が持てる」大規模言語モデル(LLM)、個人性を再現する対話技術、数分で音声合成できる「Another Me」のデモ公開

NTTドコモは、デジタル分身のプロトタイプをメタコミュニケーションサービス「MetaMe」上に実装したデモを、2024年1月17日から東京国際フォーラムにて開催された「docomo Open House’24」で展示した。冒頭の画像は「邪神ちゃんドロップキック」のキャラクターの分身を活用したデモ展示の様子(まさかの「邪神ちゃん」を起用)。
キャラクターはIPの特性を活かしたものになっていて、技術的には数分の元にナル音声データから音声合成を作成し、「tsuzumi関連技術」を使って自然な対話を実現した高度なものとなっている。

対話をこなす邪神ちゃん(ギャンブラーでも知られる)。デモはゆるい印象だが、高度な技術のAIエージェント「Another Me」を活用し、メタバース空間「Meta Me」での展開が予定されている(このキャラクターは「Meta Me」に登場する予定) ©ユキヲ/COMICメテオ

NTTは、IOWN構想の柱の1つであるデジタルツインコンピューティング(DTC)において、物理世界の制約を超えた活動や交流を通した機会増大や自己成長の実現を目指し、本人のように行動し本人と経験を共有する分身のようなAIエージェント「Another Me」の研究開発を進めている。

今回、NTT版大規模言語モデル「tsuzumi」の拡張技術として、少量の対話データから個人の口調や発話内容の特徴を反映して対話を生成する個人性再現対話技術を開発。また、少量の音声データから個人の声色を反映した音声を合成するZero/Few-shot音声合成技術を開発した。


少量データから個人特徴を再現可能に

従来、個人の特徴を学習し再現するには個人に関するデータが大量に必要だったのに対し、少量データから再現可能になったことで、多くの人が誰でも簡単にデジタル空間内に自身の分身を持つことが可能となる。

今回の研究成果の実用化に向けて、自分自身に代わって人とのコミュニケーションやコミュニティ活動などを行うデジタル分身の公開実証等を進めていくとしている。

個人性抽出技術と個人性再現対話技術


社会全体のデジタル化やAI技術の発展に伴い効率的な生活が実現されていく一方で、汎用AIのようなあらゆる問題に画一的な答えを出すAIへの過度な依存により、個人や社会の多様性が損なわれる可能性も指摘され始めている。

こうした中、NTTはIOWN構想において人それぞれが多様な個性を自然に発揮できる社会の実現を目指し、専門性や個性を備えた比較的小規模なAIの集合知による多様性の確保を方針とするNTT版大規模言語モデル「tsuzumi」の研究開発を進めてきた。
さらに、人の多種多様な個性を学習し人の代わりに自律的に活動するAIにより、人の多様性を様々な社会・経済活動に反映していく「Another Me」プロジェクトを推進している。

Another Meプロジェクトにおいて、昨年度は「過去の行動からその人が持つ趣味、価値観などを推定する個人性抽出技術」や「プロフィールや属性からその人らしい対話を再現する個人性再現対話技術」の開発を行った。

今回、Another Meの社会実装をさらに進めるため、大規模言語モデル(LLM: Large Language Model)を対話に適用し、さらに、少量のデータからでも高い本人再現性を実現する技術を開発した。


技術の概要

個性を有する個人の代理として社会の中で活躍できるAnother Meの実現には、その人らしくコミュニケーションする機能が欠かせない。そのような分身を誰もが持てるようにするため、少量データをもとに本人らしい発話を生成する「個人性再現対話技術」と、数秒~数分程度の音声から本人の音声を合成できる「Zero/Few-shot音声合成技術」を開発した。

個人性再現対話技術


優れた文章生成能力を持つLLMは、人どうしの対話を集めた大量のデータで学習させることで、雑談や議論など人の自然な会話を生成する対話技術にも適用が可能。従来の対話技術の研究においては、個人性を再現するために個人の大量のデータでLLMをファインチューニング(大規模なデータで既に学習してあるAIモデルを、別の比較的小規模なデータで学習させて微調整すること)していた。そのためコストがかかりすぎ、Another Meで目指す万人のデジタル分身を再現することはできず、一部の著名人への適用などにとどまっている状況だった。

一方で、比較的少量のデータによりLLMを効率的に追加学習させる方法として、アダプタ技術(事前学習済みモデルの外部に比較的小規模のモデル(アダプタ)を追加することで、事前学習済みモデルのパラメータを固定したまま効率的に追加学習が可能となる技術)がある。これを対話における個人性の再現に適用した場合、ベースとなるLLMが多種多様な人の大量のデータで学習されているため、追加学習データとの類似性が低い対話例において、特徴が全く異なる他人のような発話が生成され、個人の再現度が低下するという課題があった。

それに対してNTTが開発した個人性再現対話技術では、ペルソナ対話技術とアダプタ技術を組み合わせることで、課題の解決を図っている。これら2つの手法の組み合わせにより、個人アダプタで学習されていないような対話においても、ベースとなるLLMが対象となる個人のペルソナを反映した発話を生成するため、全く異なる人の発話内容が生成されてしまうという問題を回避する。

ペルソナ対話技術は、居住地や趣味などその人の大まかなプロフィール情報をパラメータ指定することで、そのようなプロフィールを持った人格(ペルソナ)に相応しい発話内容を再現することが可能となる。

tsuzumiのアダプタ技術を個人性の再現に適用した個人アダプタは、エピソードを交えた発話や口癖など、対象の個人に特化した発話生成が可能であり、個人アダプタとして個人ごとに追加されるモデルのサイズは非常に小さく、動的に切り替えることができるため、多人数の対話の再現を効率的に実現できる。

数秒程度の音声から声色の特徴を抽出する「Zero/Few-shot音声合成技術」


従来の技術では、声を作りたい話者・口調ごとに数十分程度の音声データを用意する(収録に要する時間はその数倍)必要があり、万人の音声を再現したり、キャラクタの多彩な口調を実現するにはコストが高くなってしまう問題があった。

NTTはより少ない音声データからでも高品質かつ多様な表現の生成を可能にする2つの技術を実現した。

1つ目は、多忙な方や声を失った方など極少量の音声しか得られない方を含む万人の音声の簡易な再現をめざし、声を再現したい話者のほんの数秒程度の音声から声色の特徴を抽出し、音声合成モデルの学習をすることなくその特徴を再現した音声を生成する「Zero-shot音声合成技術」。

2つ目は、著名人や有名キャラクタ等の声色・口調をより高い再現度で反映させることをめざし、再現したい口調の音声を含む数分〜10分程度の音声データから音声合成モデルを学習し、従来に比べ必要な音声データ量を大きく削減しながらも再現性の高い音声を合成可能な「Few-shot音声合成技術」である。

これらの技術を実現するためには多くのパラメータを持つ深層学習モデルを必要としますが、演算処理の高速化により一般的なスペックのCPUで動作させることに成功しており、本技術を用いた音声合成サービスの運用コストを低く抑えることを実現している。

技術の効果


これら技術により、自分の代わりに他人とコミュニケーションをするデジタル分身を誰もが持つことができるようになる。その主な適用先としてNTTが考えているのがメタバースのような新たなデジタルコミュニケーションサービスだ。

サービスを使いこなして物理空間では会えない様々な人と交流している先進的なユーザがいる一方、多くの新規ユーザは誰と話せばよいか、何をすればよいか、最初は戸惑うことが多いのも実情である。

それに対して本技術によるデジタル分身は、ユーザ自身がログインしていなくても自律的に活動するNPC(Non-Player Character)として他のユーザやそのデジタル分身とコミュニケーションし、その内容をユーザ本人に持ち帰って共有することで、全く知らない人に話しかける心理的障壁や仕事・家事などの時間的制約に縛られず、興味関心や気心の合うユーザと友達になるきっかけが得られる。

また、趣味や関心が共通する人々のコミュニティに分身が代理参加してユーザに橋渡しすることで、コミュニティ活動を活性化することができ、有名人やインフルエンサーのデジタル分身をサービス内に常時配置することで、ファンコミュニティの拡大・活性化も期待できる。
 このようなデジタル分身のプロトタイプをNTTドコモのメタコミュニケーションサービス「MetaMe」上に実装し、2024年1月17日から東京国際フォーラムにて開催したdocomo Open House’24でデモ展示した。
■ドコモが高機能AIエージェント「Another Me」のデモにまさかの「邪神ちゃんドロップキック」を起用!LLM、音声合成、キャラ属性認識など活用


今後の展望

ユーザのデジタル分身を通じた人間関係の創出効果に関してMetaMe上でのフィールド実験を2023年度中に開始を予定している。

このような取り組みを通して、NTT版大規模言語モデルtsuzumiによる個人性再現機能の提供に向け、2024年度中に技術の精度向上を図り、それにより、特定の領域に関する高い専門的な言語能力を有しながら、親しみやすい個性を持ち顧客や社員等との関係性を築けるデジタルヒューマンやチャットボットの実現につなげていくとしている。

ABOUT THE AUTHOR / 

ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

PR

連載・コラム