PR インタビューニュースセキュリティ声認証生体認証顔認証システム日本電気株式会社

声認証がロボットやスマートスピーカーに必要な理由～NECに聞く生体認証の最前線 (第2回)

2017年9月11日 By ロボスタ編集部

前回「コンサートの入場から電子決済、テロ対策まで、ここまで来た顔認証と声認証～NECに聞く生体認証の最前線 (第1回)」では、生体認証全般について導入事例やそれぞれの特徴について聞きました。
今回はロボットやスマートスピーカーに向いている「声認証」について、引き続き日本電気株式会社(NEC)の第二官公ソリューション事業部とデータサイエンス研究所の皆さんに聞きます。

データサイエンス研究所の若手メンバー。性別、国籍ともにダイバーシティのあるチーム。

NECの生体認証についての研究は既に40年近くの歴史があります。特に指紋認証では1971年から取り組みを始め、NIST(アメリカ国立標準技術研究所)が主催する国際的な技術評価等において、世界No.1の精度を複数回記録した実績も持っています。具体的には「FpVTE」や「MINEX(2004年)」Slap Fingerprint Segmentation Evaluation」などです。また、顔認証でも同様に「Face Recognition Vender Test（2013年)」「Face in Video Evaluation(2017年)」などの国際的な技術評価で現在4連続世界No.1という偉業を達成中です(http://jpn.nec.com/press/201703/20170316_01.html)。また、声認証においても昨年行われた技術評価で世界トップクラスの順位を獲得しています。

声認証の特徴や利点とは

編集部

今回は「声認証」を中心に、まずは基本からお伺いしたいと思います。声認証とはどのような技術なのでしょうか。

NEC

音声が持つ特徴を利用することにより、話者を特定する技術です。具体的には、口、のど、鼻など、人間の音声は発声器官の形状の違いによって、個人の声にはそれぞれ特徴があります。これを抽出して識別する要素技術です。

声認証は、A.話者の声を解析し、B.データベースの声データと照合して同じかどうかを判定したり、C.同じ声だと推定される人を一致度の高い順に並べる技術。

編集部

声認証はどれくらいの精度があるのでしょうか

NEC

声認証にはいくつかの種類や方式があるのですが、登録された音声と同じかどうかを特定する確率としては90〜99%程度とお考えください。ほかの生体認証と比較すると精度が高いとは言えませんが、手軽に導入できることと活用範囲が広いので、とても有望な技術だと感じています。

日本電気株式会社第二官公ソリューション事業部主任安諸宗忠氏

編集部

いくつかの種類があるということですが、例えばどのようなものでしょうか

NEC

例えば照合方式の違いに「テキスト依存方式」と「テキスト独立方式」があります。
テキスト依存方式は、なにか特定の言葉で登録して、照合も同じ言葉で行う方法です。例えば「ひらけゴマ」と言った声で登録し、ドアの前で同じフレーズ「ひらけゴマ」と言って本人かどうかを照合する、といった具合です。0.5秒～3秒くらいの短文でも認証できるのと、処理が軽いので組み込み用途にも実装できます。
もうひとつのテキスト独立方式は、フレーズを決めないで自然に話している声で照合する方法です。こちらの場合は声の特徴を抽出するのに10秒程度の音声が必要な場合がありますが、発話内容はもとより、スピードやアクセント、言語には依存しない点が利点です。

編集部

なるほど。他にもいろいろな生体認証がある中で、声認証ならではの特徴を教えてください

NEC

音声は生体認証の中では最も「心理的抵抗感が低い」と言われています。顔写真を嫌がる人はいますが、コールセンター等で「この通話を録音しています」、といわれても嫌な気持ちになる人はあまりいないですよね。他には、帽子・サングラス、手袋等に影響されない事や、手が離せないような状況や、離れた場所からでも認証/照合が可能なことも特徴ですね。あとは電話口でも使える唯一の照合手段というのも特徴です。

NEC

前回も少し触れましたが、メーカーやサービス提供者、開発者からみると「導入がしやすい」ことが大きな魅力ではないでしょうか。ハードウェアは小さな汎用的なマイクがあれば良いので、コストが安価であることは大きな要素だと思います。コミュニケーションロボットやスマートスピーカーならマイクを搭載しているので、特別なハードウェアを追加で装備する必要がありません。
また、ほかの生体認証にはカメラや画像を使うものも多いのですが、光の加減やカメラの設置角度などに配慮する必要があります。しかし、声認証の場合は「環境条件や環境の変化に左右されにくい」という点も利点です。

日本でこそまだ知られていませんが、話者を照合する技術は欧米などの海外ではとても注目されています。報道によれば、シティバンクやHSBC、バークレーなど、海外の銀行や金融業界では導入する事例がここ数年で増えているとされています。

NEC

電話での株取引などにも有効です。香港などでは、電話で株取引を行う場合は2つの要素以上で本人確認をすることが法律で決められています。本人を認証する方法としては、どんな情報を知っているか(生年月日や電話番号など)、何を持っているか(ワンタイムパスワードを発行するトークンなど)が主に利用されていますが、そのうちのひとつに生体認証を導入するのが効果的ということで注目度が上がっています。
また、テレフォンバンキングなどへの導入も始まっています。本人確認をできるだけ効率的に、かつ高いセキュリティを実現したいというニーズに対しては声認証が最適です。

NEC

声認証には「1対1」の照合と「1対N」の照合があります。マイクを通して話している音声が、登録されている本人のものかどうかを判定するのが「1対1」です。データベースにある音声データと同一かどうかを判定するだけなのでスピードが速く、高確率で判定できます。
「1対N」は、話者の声をデータベースの中に登録されているすべての声と照合し、一致するものがあるかどうか、似ているものをランク順にリストするしくみです。ただ、家族や特定の部署の社員など、少人数の中から照合したり判定するのには問題はありませんが、対象が膨大な人数の場合は、精度の観点から、類似度スコアが高い音声データがあったとしても、それが本人かどうかという判断は慎重に行う必要があります。その場合は他の本人確認手段や顔認証などと併用して精度を上げたり、利用する用途に合わせて最適なものをご提案しています。

NEC

「1対N」はコールセンターでの利用も考えられています。顧客からの音声通話を分析し予め登録されている顧客の音声と照合し、該当すればオペレータに顧客情報を表示するという使い方もあります。

声認証はロボットやスマートスピーカーには必須の機能に

編集部

声認証は、コミュニケーションロボットやスマートスピーカーにも必須の技術になりそうですね。

NEC

はい、そう考えています。例えば、一般家庭に導入したスマートスピーカーに家族の音声を登録しておけば、「スケジュールを教えて」と話すだけで、誰のスケジュールかを自動で判別して該当する人のスケジュールを読み上げてくれる機能が実現できます。親の許可なしに子どもがネットショッピングで注文してしまうトラブルを防止することもできます。

AIスマートスピーカーに声認証機能を搭載していれば、名前を言わなくても話者が誰かを識別し、かつ本人と特定して個別のスケジュールを読み上げる製品が実現できる(※スマートフォンはクリックして拡大)

NEC

ビジネス現場ではロボットに自動で議事録をとらせたいというニーズがあります。話者の声をテキストに変換して記録するシステムですが、声認証があれば、誰の発言かも記録することが可能になるでしょう。また、ロボットは顔認証を採用しているケースが多いと思いますが、声がする方向にカメラを向けてから顔で認証するより、声そのもので認証する方がスムーズですよね。
ロボットやスマートスピーカーへの導入については、これから当社も積極的に行なっていきたいと考えています。

声認証技術のしくみ～ディープラーニングの導入で精度が向上～

編集部

少し技術的なことを聞かせてください。声認証システムはどのようにして個々人の違いを判別するのでしょうか。具体的に教えてください

NEC

例えば「音声スペクトラム」(Spectral form)を応用したものが挙げられます。時間を横軸に、周波数を縦軸にして声を画像化するとこの画像のように縞模様で表現される部分があります。これを指紋になぞらえて「声紋」と呼びますが、登録済みの声紋と認証する声紋を比較して同一かどうかを判定するしくみもそのひとつです。

音声スペクトラム「声紋」の例。男性1と男性2。女性でそれぞれ異なる音声スペクトラムを形成する

NEC

現在の主流は「i-vector」という手法です。約400項目で声の特徴を抽出し、個人を表します。i-vectorはデファクトスタンダードの技術ですが、その中にNECの独自技術が反映され、精度が高いものになっています。また、処理時間が非常に早く、秒間何百万件もマッチングできることが特徴です。

編集部

ディープラーニングなどの機械学習が使われているのでしょうか

NEC

はい。認証技術はディープラーニングを導入することで格段に精度が向上しています。声認証の場合、事前の機械学習によって、コンピュータには膨大な量の音声データを解析させ、声の特徴量の違いを理解させます。

技術について説明する日本電気株式会社データサイエンス研究所主任山本仁氏

NEC

コンピュータは何万人もの声の違いを約400項目の特徴を解析して区別することを学習します。短文でも音声の特徴は識別できるので、同じパターンかどうかは識別できます。言語にも依存しませんので、英語であれ、日本語であれ、同じ話者であれば音声の特徴を抽出した「i-vector」は同一です。

取材時に、実際に「テキスト独立方式」の体験をさせてもらいました。その手順はこうです。
まず、取材に参加している人たちの音声と名前をそれぞれ日本語で登録します。

マイクに向かって各人の名前と音声を登録する。写真のようにマイクとの距離が離れていても聴き取れるよう最適化されている。写真はデモを実演する日本電気株式会社第二官公ソリューション事業部マネージャー城風孝行氏

登録が終わると、今度はひとりだけマイクに向かって英語で声認証を行います。システムはその声を正確に認識し、話者の名前が画面に表示されました。この例では「開けゴマ」と日本語で音声を登録したとしても、「Open Sesami!」や「What’s Up?」のような英語で照合することも可能だということを示しています。声質から抽出した「i-vector」を解析して判断しているため、どんな言語か、どんな言葉かに依存しないのです。対象者が多国籍(多言語)の組織でも導入がしやすいと感じました。

バックのプロジェクター画面は、話者が誰かをシステムが正確に識別したところ

編集部

さきほどコールセンターの事例がありましたが、電話の相手の声の聞こえ方が電話機によって異なって聞こえるように、通信機器によって声は変わってしまいますよね。影響は受けないのでしょうか

NEC

おっしゃるとおりです。携帯電話の音声は各種コーデック(圧縮技術)が使われていますし、アナログ電話であれば雑音やノイズが入ります。しかし、実はその点の解析にもディープラーニングをはじめとした機械学習を使っています。例えば、機械学習時にクリアな声、携帯電話の声、アナログ電話の声、インターホン越しの声など、様々な状況の声のデータをそれぞれたくさん解析させます。そうすると、声認証システムは携帯電話のコーデックがかかっている音声の場合は実際の声とはこのように変わる、ということを特徴量で識別できるようになります。こうして学習してしまえば、解析すべき音声がどのような機器を通して聞こえてきた声かを自動で推察し、その結果、高精度の判定ができるようになります。このようにお客様の環境にあわせてエンジンレベルでの最適化を行うことができるのもＮＥＣならではの強みといえます。

日本電気株式会社データサイエンス研究所主任岡部浩司氏

NEC

スマートスピーカーやロボットの需要が年々高まっていますので、今後はセキュリティや個人認証にも注目や期待が集まっていくと考えています。この市場では気軽に導入できてコストも比較的安い生体認証として「声認証」が適しています。「声認証」はNECが⻑年にわたって培ってきた「音声関連技術」と、「パターン認識技術」の結晶です。この技術を多くの人に知って頂きたいと感じています。

研究所と事業部門の距離感がとても近い

NECは1960年代から人の発話の認識に関する研究開発を世界中から優れた研究者を集め行っています。それは今「i-vector」に基づく高速・高精度照合フレームワークとディープラーニングによって、国内開発の高精度エンジンへと昇華しました。その実力はアメリカ国立標準技術研究所（NIST）の話者照合技術評価「SRE2016」において、初登場にして世界トップクラスの精度として認められた実力を持っています。

このインタビューを通じて、ロボットやAIスマートスピーカーには個人を特定する声認識技術が必須になることを確信しました。

関連サイト
NECの生体認証ソリューション