NTT、人工ニューラルネットワークが音の振幅の変化に人間と同様の反応を示すことを発見　米国科学誌に掲載

NTTは、自然な音（人間が日常的に耳にする音。動物の鳴き声、雨の音、くしゃみの音、ドアが軋む音、車のエンジン音、など。）を聴き分ける人工ニューラルネットワーク(NN)が音の振幅の変化に対して人間のような反応を示すことを発見した。NNは、機械学習のモデルの一種で、複雑な分類課題を高精度で行う有力技術としても用いられている。
本成果により、これまでに知覚心理学の研究によって調べられてきた人間の振幅変調（AM、信号の振幅を緩やかに変化させること、またはその変化のパターン）の知覚特性と、神経科学の研究によって調べられてきた脳によるAM処理を、ひとつの枠組みで統一的に理解できることが分かった。これにより将来的には、医療、福祉等においてより人間の耳の仕組みに近いデバイスの開発を初めとした、様々な分野への展開が期待される。

研究の背景

人間は、音に含まれる様々な手がかりをもとに音を認識する。
音認識に重要な手がかりのひとつに、音の振幅の緩やかな時間変化のパターン（振幅変調、AM）がある。

音のAMの例。音信号にAMをかけると、振幅が緩やかに変化するようになる。AM音の重要なパラメータに、速さと深さがある。

NTTの研究所ではこれまでに、聴覚によるAM処理を理解するために、人工ニューラルネットワーク（NN）を用いた研究を行ってきた。
自然な音を認識するように音認識の精度が高くなるように、モデルのパラメータを調整した人工NNにAM音を入力しその反応を調べたところ、動物がAM音を聴いているときの脳の反応と類似した反応が得られた。
動物の脳におけるAM音への反応も、自然な音を認識するように適応してきた結果、形作られたものである可能性が示唆された。しかしながら、これまでは脳にある単一の神経細胞の反応特性を検討していたにすぎず、多数の神経細胞のはたらきによって構成されるであろう知覚と音認識との関係の理解には至っていなかった。
また、これまでは人間以外の動物の脳についての検討のみであり、単一の神経細胞からの計測が容易でない人間の知覚についても、同じ枠組みで説明できるかどうかわかっていなかったが、NTTは新たにNNを人間の知覚特性と比較する研究を行い、その類似性を明らかにした。

ニューラルネットワーク構築の際、人間のようなAM検出閾値の特性を示すことが判明

自然音認識で訓練した人工NNを用いて、そのNNに対して知覚実験と神経活動記録実験をシミュレーションを行った結果、NNの構築の際に人間や動物の聴覚の性質を考慮していなかったにもかかわらず、人間のようなAM検出閾値の特性を示すことがわかった。

人間とモデル各層のAM検出閾値の類似度（左）と非類似度（右）。類似度が高いほど、また、非類似度が低いほど、人間と似ている。それぞれの線で、自然な音で訓練したモデル、訓練していないモデル、AM構造を保持した音で訓練したモデル、AM構造を破壊した音で訓練したモデルについて示した。

ここから、人間のAM検出閾値も、進化や発達の過程で聴覚系が音認識に適応してきた結果得られた性質である可能性が示唆される。さらに、その特性を得るためには自然な音に含まれるAMが重要であることがわかった。
また、人間のようなAM検出閾値の特性を示すモデル内の領域が脳の下丘・内側膝状体・聴覚皮質と対応していることもわかり、人間のAM検出に関わる脳部位についても示唆を与えることができた。

NNの層（横軸）と脳部位（縦軸）との対応。色の明るさで類似度を示した。図3で人間のようなAM検出閾値を示した層（9-11層目付近、横軸の灰色背景）が、下丘・内側膝状体・聴覚皮質（縦軸の灰色背景）と類似していることがわかる。

本研究により、これまでの知覚心理学と神経科学の知見を、自然な音に適応した結果として統一的に説明することができるようになった。

本研究のポイント

知覚実験のシミュレーション

AM検出実験の計算機シミュレーションには、人間の知覚心理実験となるべく同じ刺激音を用いた。これにより、得られたAM検出閾値の数値を人間と直接比較することができるようになった。NNに刺激音を入力すると、NNの各素子から活動値の時系列が得られる。NNのAM検出閾値を計算するために、NNの層ごとに素子の活動値を時間平均し、その時間平均値から刺激音がAM音か非AM音どうかを推定した。

AM検出実験の計算機シミュレーション。音をNNに入力し、ある素子の活動値を時間平均したものから、入力音がAM音かどうかを判別した。

この手続きを様々な深さを持つAM刺激について行い、刺激音がAM音かどうか判別できる最小のAM深さ、つまりAM検出閾値を計算した。

人間のようなAM検出閾値を獲得するために必要な音の特徴

NNが人間と類似したAM検出閾値を獲得するためには、訓練に使われた自然音のAMパターンが重要であることも確認できた。
自然なAM構造を保持した音（AM構造を反映した振幅包絡と、より細かな変動である時間微細構造に分け、元の音の振幅包絡と雑音の時間微細構造を組み合わせることにより、AM構造を保持した音を作成）と、その構造を破壊した音を作成し、それぞれの音の認識で訓練したNNを構築したところ、AM構造を保持した音で訓練したNNは人間と類似したAM検出閾値の特性を示しましたが、AM構造を破壊した音で訓練したNNは人間と類似したAM検出閾値の特性を示さなかった。

今後の展開について

知覚心理学の研究では、検出閾値といった知覚的な特性を説明・理解するために、感覚情報処理を複数の段階を積み重ねたモデルによって表現することが通例となっており、人間のAM検出閾値に関しても、これまでに優れたモデルが提案されている。
今後は、このような既存のモデルにおける処理段階と本研究で構築したモデルとの対応関係を明らかにし、聴覚情報処理のどの段階が音認識への適応で説明できるのか・できないのかを、詳細に検討していくとしている。
また、本研究では自然音に含まれるAMパターンがNNの形成に重要であるという示唆が得られた。この知見は脳の発達・可塑性や「聞こえ」の困難のメカニズムの理解にもつながる可能性があるとしており、例えば聴覚末梢に何らかの障害が発生すると、脳に届く信号の特徴も変化する。このような状態をモデル化できれば、難聴またはその補償によって生じうる脳の情報処理への影響について分析可能となり、医療、福祉等においてより人間の耳の仕組みに近いデバイスの開発つながることが想定される。
本研究の枠組みは、AM処理以外の聴覚機能やより一般の感覚機能へ拡張することもでき、例えば、両耳からの音の情報の統合処理は、AM処理と同じくらい深く研究されていますが、人間の両耳音処理に関する心理学的な知見と神経科学的な知見の統一的な理解はあまり進んでいない。本研究のパラダイムを用いることを通じ、これらの性質の起源やメカニズムを探ることを目指すとしている。
尚、本研究の詳細は、米国東部時間2023年5月24日、米国科学誌「Journal of Neuroscience」に掲載された。

NTT、人工ニューラルネットワークが音の振幅の変化に人間と同様の反応を示すことを発見　米国科学誌に掲載

研究の背景

ニューラルネットワーク構築の際、人間のようなAM検出閾値の特性を示すことが判明

本研究のポイント

知覚実験のシミュレーション

人間のようなAM検出閾値を獲得するために必要な音の特徴

今後の展開について

関連タグ

ロボスタ編集部

特集

人工ニューラルネットワーク

【先着50名無料】ヒューマノイド×フィジカルAI最前線　アールティに聞くヒューマノイドの社会実装、現実と未来展望

中国ヒューマノイド産業の最前線 2026春～深圳から現地レポートと最新情報アップデート

【先着50名無料】AIロボット普及の最後のピース「ロボットハンド技術の社会実装、現状と課題」RRI/大阪大学原田教授に聞く

神崎洋治の「ロボットの衝撃」

森山和道の「ロボットの見方」