ニュースディープラーニングデジタルツイン人工ニューラルネットワーク音声解析 IoT ロボット人工知能音声コンテンツ NTTグループ

【速報:世界初】NTTがハイスピードカメラとAIで高精細な「音の見える化」に成功　深層学習と光計測で「音のデジタルツイン」目指す

2024年6月17日 By 神崎洋治

日本電信電話株式会社（NTT）は、ハイスピードカメラとレーザー光およびAI処理を用いた音の見える化技術を開発した。音の物理特性を独自の深層学習モデルを使ったノイズ除去によって高精細に音場をとらえることが可能となった。高精細な音場の見える化によって、音響デバイスの設計や音に関わる現象をさらなる理解し、将来的には「音のデジタルツイン」の実現へが期待できる。

成果の枠組み

高精細な音の見える化を世界で初めて実現

光を用いて音をセンシングする光学的音響計測技術において、音の物理特性を考慮した独自の深層学習モデルを用いた高精細な音の見える化を世界で初めて実現した。これにより、空気中を伝わる音の波を動画像として観測することができるようになる。

この成果は音の研究開発における新たなセンシング手段として活用でき、騒音の評価や新たな音響デバイスの開発、従来技術の高効率化などへの貢献が見込まれる。さらに、将来的には空間の音を余すところなく完全にデジタル化する「音のデジタルツイン」技術への活用が期待できる。
NTTはこの技術を6月24日より開催される、コミュニケーション科学基礎研究所オープンハウス2024に出展する。

「音の見える化」の取り組み

音は日々の生活に身近な存在だ。例えば、会話などの音声コミュニケーション、スピーカーやヘッドホン等による音楽鑑賞やウェブ会議、様々な騒音、超音波を使ったセンサーなど、身の回りには音が溢れている。

人間は、音を聞くことでその音色や響き、音が鳴った方向など様々な情報を得ることができる。一方で、音は空気の圧力変動であり、ある地点で発生した音は、波として空気中を伝わっていく。その様子は、水面に投げ入れられた石が作る波紋が周囲に一定の速度で広がっていく様子に似ている。しかし、音は水面とは異なり目で直接見ることができないうえ、反射や回折をともなって空間中を複雑に伝搬するため、音がどのように発生し伝わっていくかを把握することは困難だった。

NTTは、誰にとっても心地のよい最適な音環境を創出するための研究開発に取り組んでおり、音を聞くのではなく「見る」ことを可能とすることで、音に関する様々な課題を解決できると考え、光を用いて音場を見える化する技術「光学的音場イメージング」の研究を進めてきた。

光学的音場イメージングとは

光学的音場イメージングは、目に見えない音を光の明るさに変換する特殊なイメージング装置を用いることで、ある瞬間の音の波紋の形を写真を取るようにそのまま画像として記録する技術。一般に音の空間特性の測定に用いられるマイクロホンアレイと比較すると光学的音場イメージングは約100倍の空間分解能を有している（表1）。

表1：マイクロホンアレイと光学的音場イメージングの比較

これによって音の波がどこからどのように伝わっていくのかを、文字通り「見る」ことができるようになる。しかし、光学的音場イメージングでは非常に小さな信号の変化を検出する必要があるため、相対的に光学的なノイズの影響が大きく、これまで高感度かつ高精細に音を見える化することは困難だった。

ハイスピードカメラとニューラルネットワークの活用

NTTは、光学的音場イメージングおよび独自の深層学習モデルを用いて、音を動画像として捉える光学的音場イメージングの大幅な高精度化に成功した。
その結果、従来技術では検出することのできなかった微弱な音の波を、高精細にイメージングできることを示した（図2）。ハイスピードカメラにより撮影されたノイズを多く含む画像に対して、画像中に含まれる微弱な音波成分のみを高感度に抽出するニューラルネットワークを適用することによって、高精細な音の画像化が実現。図2は光学的音場イメージングにより撮影された音場画像を60マイクロ秒ごとに示したもので、左から右に向かって音波が伝搬している様子が表されている。
この成果によるAI処理によって音の波が空気中を伝わる様子が鮮明に捉えられていることが分かる。

図2：音場イメージング結果。各画像はある瞬間の音場を表しており、色が音の大きさに対応している。AI処理なしの画像に含まれているカメラノイズがAI処理によって除去されている。

技術のポイント

音を動画像として捉える光学的音場イメージング技術

光学的音場イメージング技術では、光を用いて空気中の音を検出する（図3）。
音は空気中を粗密波として伝わるが、音響光学効果と呼ばれる現象により、音がある空気中を光が通過する際に気体の粗密に応じて光の速さが僅かに変化する。レーザー光を測定したい音場内に伝搬させ、干渉計などの光学技術を用いて音によって生じた光の微弱な変化を高感度に検出することによって、音が測定される。このような光の変動をハイスピードカメラ用いて毎秒数千～数十万フレームの速さで撮影することにより、音波を動画像として捉えることができるという。

図3：光学的音場イメージングの概要　音響光学効果とは、音が存在する空間を光が伝搬する際に、音によって光の特性が変化する現象のこと。音は媒質の密度変化であるため、そこを通る光の伝搬速度を変化させる。媒質の違いや音の大きさや周波数の違いによって様々な効果が現れる。空気中の音を対象とする場合、光の位相と呼ばれる量が、ごくわずかに変化。このごくわずかな変動を高感度に検出することで、光を用いて音を測定することができる。

独自の深層学習モデルによる雑音除去

光学的音場イメージングでは、音によって生じる光信号の変化が微小であることから、撮影された画像の中から音の波を高精細に見える化することは困難だった。特に高感度な測定においては、レーザー光や撮像素子に含まれる光学的なノイズが、音の可視化品質を著しく低下させてしまう。
この研究では、ハイスピードカメラにより撮影された動画像の中から、不要なノイズを除去し、音波のみを見える化する独自の深層学習モデルを新たに考案。高精細な光学的音場イメージングを実現した（図4）。

図4：深層学習モデルと処理のプロセス

独自のモデルでは、音の物理的な性質に基づいた演算により人工的に生成した訓練画像を用いて、ニューラルネットワークの学習を実施。さらに、動画像を周波数毎に独立して処理する独自アルゴリズムにより、従来手法を大幅に上回る高精度なノイズ除去処理を実現した（図5）。

図5：実験結果

今後の展開

NTTはIOWN構想の中で「デジタルツインコンピューティング」を提唱し、その研究開発を進めている。この研究の成果は、音を見える化するのみならず、空間に存在する音を余すところなくデジタル化する「音のデジタルツイン」技術への活用が期待される。
今後さらなる研究進め、誰にとっても心地のよい最適な音環境の創出に貢献したい、としている。

関連サイト
コミュニケーション科学基礎研究所オープンハウス2024

ABOUT THE AUTHOR /

神崎洋治

神崎洋治（こうざきようじ） TRISEC International,Inc.代表「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ～くわかる本」(秀和システム)の著者。デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。