他人や有名人になりきってZoomやGoogle Meetでビデオ会議　リアルタイムで表情抽出＋重畳技術「xpression camera」とは

2020年9月29日 By 梅田正人

株式会社EmbodyMe（エンボディーミー）が、コロナ禍でのZoom会議などを変えるバーチャルカメラアプリ「xpression camera（エクスプレッションカメラ）」の無料ダウンロードを開始した。(Mac版のみ。Windows版は鋭意制作中)

xpression cameraは、カメラで撮影したユーザーの動画から表情を抽出し、画像に重畳する処理をリアルタイムに行うことができるバーチャルカメラアプリだ。
画像を一枚用意するだけであらゆる人になりきってZoomやGoogle Meetなどでビデオチャットができたり、Twitchなどでのライブストリーミング配信、Youtubeビデオ作成することができる。

想像しやすい使われ方としては自分のスーツ姿の画像を使うことで、プライベートを守りつつZoom会議に臨むなどの利用が考えられる。
コロナ禍下での新しい生活スタイルにおいて、xpression cameraがどのような役割を担っていくのかが大いに気になるところだ。

「プライベートへの侵食」と表情なきコミュニケーションのストレス

現在、コロナ禍の影響により、診療行為や授業、打ち合わせなど、対面が必要な様々なシチュエーションでビデオチャットサービスが利用されている。
しかし、ビデオチャットサービスを利用しているユーザーの中で実際にカメラを利用していないユーザーの割合は少なくない。

「Zoom疲れ」という新語を日常よく聞く機会が増えていると思うが、「自宅」というプライベートな空間にカメラが入り込み、業務等のオフィシャルなコミュニケーションを行う、という状況は思ったよりもストレスフルだからだ。

プライベートの時間、空間を過ごす自宅を業務に侵食されることで受けるストレスは大きい

「お互いの表情」というフィードバックなしに撮影された自分の姿を目の前に居ない人に眺められることや、バーチャル背景機能の不具合でプライベートな空間を配信してしまうリスクは大きな心理的な負荷につながる。

そういうことを背景に、多くのユーザーがビデオ機能を切った状態でビデオチャットサービスを利用しているわけだ。
しかし、この状況は発信側にとっては違うストレスを生む。
ミーティングの司会や、社会的地位などの理由からビデオ機能を切らずに利用せざるを得ないユーザーからすると、「相手の表情」というフィードバックなしにカメラに向かって語り続けるというのは思った以上にやりにくいからだ。

こうしたビデオチャットサービス運用によって生まれるストレスをどのように軽減すればいいのか。

その解をEmbodyMeは「カメラで撮影したユーザーの姿ではなく、表情情報のみを画像に重畳して配信する」ことに求めた。

従来のバーチャル背景機能や、Snap Cameraのフィルタ機能などは、撮影しているカメラの映像から人体や顔のパーツを認識してマスキングやフィルターの付加などの処理を行った映像を配信する。

しかし、そのシステムでは、急激な動きや環境光の変化などによりアプリケーションが認識を誤れば、すっぴんの顔や、プライベート空間を配信してしまうことがある。

画像への重畳なので、万が一にも素顔やプライベートが配信されることはない。

それに対してxpression cameraは、物理的なカメラは表情の抽出にのみ使われ、その情報を予め用意した画像に重畳する。

つまり、何らかの理由でエラーが発生して認識に失敗したとしても、予め用意した画像が無表情に配信されるだけであり、プライベートは守られる。また、視聴者は配信される表情を見ることで会話のフィードバックを受け、安心感をえることができるというわけだ。

最近のビジネスコミュニケーションにおいてキーワードとなりつつある「心理的安全性」を保つ上でも、プライベート空間や、心理的な距離の確保は重要だ。
xpression cameraを利用することで、ビデオチャットサービスを使いつつも、適切な心理的な距離を図ることができるようになるだろう。

■表情抽出＋重畳技術による新たなコミュニケーションスタイル

EmbodyMeはxpression cameraを単なるビジネスツール以上の可能性があるプロダクトとして考えているようだ。
先程の使用例は、ビデオチャットサービスにおける負の面をできるだけゼロ(対面のコミュニケーション)に近づけるものと捉えられる。
しかし、ビデオコミュニケーションと表情抽出＋重畳技術を組み合わせることで対面のコミュニケーションでは得られない効果を生み出すことも可能となるというのだ。

具体的には動画の中ではゲーム配信に世界観とマッチした画像を組み合わせることでユーザーの集中を促したり、高齢者とのコミュニケーションで、「受信者に親しみのある幼少時の写真」を使うことで興味を引きつけるといった効果だ。

短期記憶が弱まりユーザーの現在の顔を覚えていられない高齢者とのコミュニケーションや、配信者の実際の顔がゲームの世界観に影響を及ぼしてしまう場合などに有効そうだ

コミュニケーションには様々な側面がある。
対面でのコミュニケーションにおいては、服装や、年齢、性別、人種、身振り、声質、体臭など、様々な要素が「伝えたい内容」に対して複合的に効果を及ぼしていた。
それを今までは服装や香水などの「ファッション」で強化していたわけだ。

しかし、このxpression cameraを使うことで、「伝えたい内容」から「自分の体の制約」を解き放つことが可能になる。
そうして、伝えたい内容、相手に合わせてビジュアルを再構成することが、ビデオコミュニケーションにおいてファッションという概念に置き換わるだろう。というのだ。

EmbodyMeによるアナウンスメント
EmbodyMeは、GAN などのディープラーニングを用いて、誰もが目に見えるあらゆるものを自由自在に作り出す世界を作ることを目標としています。
今後、画像やビデオの中にある人・物・場所など、あらゆるものを自由自在に動かしたり、生成して、ビデオチャットや映画などの映像制作で使えるように技術を進化させていきます。

リアルタイムな配信以外にも、様々なビデオコンテンツを「配信者、製作者の肉体的制約」から解き放ち、ビジュアル面、環境、声、様々な要素を分解し、受け手に刺さりやすい形に最適化するという新しいスタイルの始まりだ。

今後、物理的なカメラの役割が、「撮像」からAIによる「物体認識＆抽出」ツールへと変化し、今回の静止画像への表情の重畳のような「モデル再配置」アプリケーションとの連携により「現像」の意味合いが変わっていくことも考えられる。

スマートフォン、という高度な演算能力、配信能力を持ったデバイスと結びついたことはカメラの歴史の中で大きな転換点だったと言えるが、AIの利用によりさらにその立ち位置は変わっていくことが予想される。
今後もEmbodyMeの動きとAIの進化に注目していきたい。

ABOUT THE AUTHOR /

梅田正人

大手電機メーカーで生産技術系エンジニアとして勤務後、メディアアーティストのもとでアシスタントワークを続け、プロダクトデザイナーとして独立。その後、アビダルマ株式会社にてデザイナー、コミュニティマネージャー、コンサルタントとして勤務。ソフトバンクロボティクスでのPepper事業立ち上げ時からコミュニティマネジメント業務のサポートに携わる。今後は活動の範囲をIoT分野にも広げていくにあたりロボットスタートの業務にも合流する。