NVIDIAはGTCで音質改善を目的としてNVIDIA Maxineに音響エコーキャンセレーションとAIベースのアップサンプリングの機能を追加したことを発表した。また、Maxineのリアルタイムの文字起こしや翻訳が、さらに多くの言語で対応可能になった。NVIDIAはGTCで、Maxineによる英語、フランス語、ドイツ語、スペイン語の翻訳を実演した。
MaxineがリアルタイムのコミュニケーションをAIで革新
誰もが自分の声を届けたいと思うもの。また、ビデオ通話やライブ ストリーミングに自宅の作業スペースから参加する人がこれまで以上に増えている中、エコーに起因する一時的な中断や犬の吠え声などのバックグラウンドノイズに邪魔されない上質な音が、オンラインエクスペリエンスにおける音質向上の鍵となる。
NVIDIA MaxineはGPUで高速化されるAI対応のソフトウェア開発キットを提供し、開発者は通話品質やユーザーエクスペリエンスを向上させるスケーラブルで低レイテンシのオーディオ効果とビデオ効果のパイプラインを構築できる。
音響エコーキャンセレーションはオーディオストリームから音響エコーをリアルタイムで除去し、ダブルトーク状態でも音声品質を維持する。AIベースのテクノロジによりMaxineは、従来のデジタル信号処理アルゴリズムによるエコーキャンセリングよりも優れた効果を実現する。
オーディオ超解像とは、AIベースの技術を使用して高周波数帯域で失われたエネルギーを復元することにより、低帯域幅の音声信号の質を高める技術のこと。Maxineの音声超解像は8kHz(狭帯域)から16kHz(広帯域)、16kHzから48kHz(超広帯域)、および8kHzから48kHzへの音声のアップサンプリングをサポートする。
8kHzなどの低いサンプリングレートでは多くの場合、声がこもり、歯擦音などのアーティファクトが強調され、話しが聞き取りづらくなる。最近の映画やテレビのスタジオでは元の信号の忠実度を維持しつつ明瞭さを確保するために、音声のレコーディング時に48kHz(もしくはそれ以上)のサンプリングレートを使用することが多い。音声超解像で磁気テープなどの低帯域幅メディアから派生した古い音声録音の忠実度を復元することもできる。
■カメラから目を離しても大丈夫、自分がまるでドイツ語を話しているかのように
バーチャル体験の進化をGTC2022でも披露
NVIDIA MaxineはAIによってリアルタイムを実現する最先端のオーディオ、ビデオ、および AR機能を提供し、これらの機能をカスタマイズ可能なエンドツーエンドのディープラーニング パイプラインに組み込むことができる。AI対応のMaxineのSDKにより、開発者はオーディオや画像のノイズ除去、超解像、視線補正、3Dの人物姿勢推定、翻訳機能といったアプリケーションを作ることができる。また、Maxineのリアルタイムの文字起こしや翻訳が、さらに多くの言語で対応可能になった。NVIDIAはGTCで、Maxineによる英語、フランス語、ドイツ語、スペイン語の翻訳を実演した。
Maxineがもたらすこうした効果により、何百万人もの人々が高品質で魅力的なライブストリーミングビデオをあらゆるデバイスで楽しむことができるようになる。
■動画 GTC2022基調講演 (18分30秒くらいから 日本語字幕選択可)
サウンドのギャップを解消
最新の通信のほとんどは、広帯域または超広帯域の音声を使用して行われる。NVIDIAのオーディオ超解像で狭帯域の音声をリアルタイムでアップサンプリングして復元できるため、このテクノロジを効果的に使用することで、従来の電話回線とVoIPをベースとした最新の広帯域通信システムの間の音質のギャップを解消する。
電話会議、コール センター、ライブ ストリーミングといったあらゆる種類のリアルタイム通信が、Maxineによって飛躍的に進歩している。Maxineはリリース当初より、ビデオ通信、コンテンツ制作、ライブストリーミングといった分野における多数の世界的大手プロバイダーに採用されている。Fortune Business Insightsの予想ではビデオ会議の世界市場は、2021年には約63億ドルだったが、2028年には約130億ドルにまで成長するという。
Maxineがカクテルパーティー問題を解消
在宅勤務(WFH)への移行はどの企業でも受け入れている当たり前のこととなり、組織はこの新たな可能性への適応を進めている。しかし、時には仕事と家庭生活がぶつかり合うこともある。その結果、会議には子供が発するバックグラウンドノイズや屋外での建設作業の音、緊急車両のサイレンが鳴り響くことがたびたび起こり、電話会議の流れが一時的に中断されることがよくある。
このような音に関する問題はカクテルパーティー問題として知られ、古くから存在するが、Maxineはこの問題の解決にも貢献する。AIを利用して不要なバックグラウンドノイズを除去できるため、自宅の作業スペースでも、外出先でも、ユーザーの声をより聞き取ることができる。
Maxine GPU アクセラレーテッドプラットフォームは、カスタマイズ可能な最先端のモデルと統合したエンドツーエンドのディープラーニングパイプラインを提供するため、標準のマイクやカメラで高性能の機能を実現する。
アップサンプリングでより豊かで深みのある音声を実現
バーチャルアクティビティのオーディオ品質はバックグラウンドノイズの影響を受けるだけでなく、かぼそい声に聞こえることや、低レベルや中レベルの周波数が失われること、もしくはほとんど聞こえないこともある。Maxineは音声をリアルタイムでアップサンプリングすることで、より豊かで深みのある音声を実現する。
ヘッドセットとBlue Yetiマイクのオーディオが改善
大手周辺機器メーカーであるLogitechは、意思疎通を改善するために同社の人気製品であるヘッドセットやマイクにMaxineを実装している。LogitechはAIライブラリを利用して、MaxineをG Hubオーディオドライバー内に直接統合することで、追加のソフトウェアを必要とせずにデバイスとの通信を強化している。MaxineはNVIDIA RTX GPU内のパワフルなTensorコアを活用し、マイク信号のリアルタイム音声処理が可能にしている。
Logitechは現在、G HubソフトウェアでMaxineの最先端のノイズ除去機能を活用している。この機能により、ビデオ会議やライブストリーミングセッションの妨げとなるエコーやファン、キーボードのタイピング、マウスのクリックなどバックグラウンドノイズを取り除くことができる。
デサイ氏
Logitech GのGMであるユージャッシュ デサイ(Ujesh Desai)氏は次のように話す。
NVIDIA MaxineによりLogitech Gを使うゲーマーはワンクリックでマイク信号をすばやく簡単にクリーンアップして、不要なバックグラウンドノイズを除去できます。G HUBを使えば、マイク信号をテストしてMaxineの設定を確認することもできます。
Tencent Cloudがコンテンツクリエイターにパワーを与える
Tencent CloudはNVIDIA Maxineを利用したクリエイティブな背景をすばやく簡単に追加できるテクノロジを提供することにより、コンテンツクリエイターの制作を支援している。NVIDIA MaxineのAIグリーンスクリーン機能により、従来のグリーンスクリーンを必要とせずに前景と背景を高品質に分離し、さらに没入感の高いプレゼンスを作り出すことができる。実際の背景を分離した後は、バーチャル背景に簡単に置き換えることや、ぼかすことで被写界深度の効果を得ることもできる。Tencent Cloudはこの新機能をコンテンツクリエイター向けに、サービスとしてのソフトウェア(Software-as-a-Service)のパッケージとして提供している。
Tencent Cloud のオーディオおよびビデオ プラットフォームでプロダクト センターのディレクターを務めるバルチャー リー(Vulture Li)氏は次のように述べている。
リー氏
NVIDIA MaxineのAIグリーンスクリーンテクノロジは、特別な機材や照明を必要とせずに、より没入感の高い高品質なエクスペリエンスを実現することで、コンテンツクリエイターの制作を支援します
NVIDIA Maxine
ABOUT THE AUTHOR /
山田 航也横浜出身の1998年生まれ。現在はロボットスタートでアルバイトをしながらプログラムを学んでいる。好きなロボットは、AnkiやCOZMO、Sotaなどのコミュニケーションロボット。