日本発ビジネス用スマートスピーカー「Tumbler」、GoogleやNICTとの連携も選べる音声・翻訳システムをフェアリー社が開発

スマートスピーカーを中央に置いたテーブルで、3人の参加者が会議をしている。発言した内容はスマートスピーカーが瞬時に文字変換し、テキストの議事メモとしてクラウドに蓄積していく。このシステムは話者を判別して記録できる。また、話者が同時に話しても認識する。もちろん、インターネットを介した遠隔会議の音声端末として利用することもできる。

スマートスピーカー「Tumbler」(タンブラー)は16個ものマイクアレイを装備し、音の方向を正確に識別することができる。この機能を活用し、方向から話者を特定するしくみだ。「音の到来方向を推定するだけのシンプルな方法です。個人の情報や声の登録も不要で、いわばどの席に座っている人が発言したかだけを識別しているということになります。もちろん、予め社員の声を登録（学習）させることができれば、発言した音声のいわゆる「声紋」を識別して話者を特定することもできます。複数人が同時に発話した場合も、音の到来方向が異なれば、それぞれを分離することが可能です。」
そう語るのはフェアリーデバイセズの代表取締役の藤野氏だ。

フェアリーデバイセズ代表取締役藤野真人氏

ビジネス向けに開発された高機能スマートスピーカー「Tumbler」

同社は、ビジネス向けのスマートスピーカーを発表して注目を集めている。スマートスピーカーと言えば「Amazon Echo」や「Google Home」などが知られているが、その多くが消費者向け(BtoC)に開発・販売されている製品だ。「BtoB」や「BtoE」「BtoBtoC」向けに特化した製品やサービスはまだ数少ないのが実状だ。

「Tumbler」の全景。ホワイトレーベルとして提供されるので、企業は自社ブランドとして市場に投入することができる

「BtoC」向けと「BtoB」向け製品の違いは非常に大きい。
冒頭の例のように、スマートスピーカーを会議などの記録業務に使いたいという要望は多いが、BtoC向けのスマートスピーカー製品はプライバシーの関係で会話そのものを自由に録音したりクラウドに送ることが制限されているケースが多い。一方、BtoB向けとして開発された「Tumbler」には、そのような制約はなく、前述のように音の到来方向の推定や音を分離するといったエッジ側の技術、話者を識別したり音声認識したりといったクラウド側の技術と連携して自由に活用できる。
フェアリーデバイセズはそうしたソフトウェア技術もエコシステムとして提供していく。技術パートナーも募集している。

スマートスピーカーと先進的な音声認識システム

すなわち、フェアリーデバイセズが提供するのは大きく分けて、ハードウェアとエコシステム(ソフトウェア)の2つ。
ハードウェアの第一弾が、このスマートスピーカー「Tumbler」(タンブラー)だ。ユーザー側のI/O端末となり、ホワイトレーベルとしてOEM提供を行う。
もうひとつがクラウド側を中心としたソフトウェア技術だ。「mimi」と呼ぶ音声認識システムや、「mimi」を含めて先進的な音声対話システムのための技術スタックを「Fairy Cognitive Technology Open Stack」(Fairy CTOS)というエコシステムとして提供する。同社は「Tumbler」と「Fairy CTOS」はどちらか一方でも供給していく考えだ。
フェアリーデバイセズの代表取締役の藤野氏に詳しく聞いた。

編集部

御社にとって「Tumbler」はどのような位置付けになるのでしょうか

藤野(敬称略)

私たちは、高機能で制約の少ない音声応用システムを、ソフトウェア・ハードウェア横断的に提供しており、音声認識などに最適なハードウェア端末を「Fairy I/O」シリーズとしてラインアップしていきます。その第一弾の製品がスマートスピーカー型の「Tumbler」です。自社でエンドユーザーに販売するのではなく、多くの企業が自社ブランドのスマートスピーカーとしてリリースして頂くためにホワイトレーベルとして発表しました。スマートスピーカーに限らず、今後もさまざまな音声デバイスを開発していきます。

16個のマイクアレイが3次元で音源を定位

編集部

「Tumbler」にはどのような特徴があるのでしょうか

藤野

わかりやすい特長としては、16個のマイクアレイを搭載していることです。外周に8個、それを2段に配置していて、この構成によって音源定位を2次元ではなく、3次元で捉えることができます。

編集部

音源を3次元で定位できるとは、具体的にはどういうことでしょうか?

藤野

音源が「360度どの方向にあるのか」に加えて「どの高さにあるのか」も推定することができます。会話であれば、相手が立って話しているのか、寝転がって話しているのかが判別できます。話者に耳を傾けるビームフォーミングも方向と高さを定位することで、より高い精度が実現できます。

GPUを搭載し、AI関連機能にも対応

編集部

音声会話システムにとって、音声の聞き取り精度の向上は大きなアドバンテージになりますね。そのほかにどんな特長がありますか?

藤野

「Tumbler」はスマートスピーカーであるものの、小型コンピュータと同等の機能を持っています。Linux OS を搭載し、CPUに物理4コアのARM製Cortex-A53を採用、GPUも搭載しているので、端末側で「Tensor flow」や「Chainer」を使ったディープラーニングにも対応することができます。後ほど解説しますが、各種APIやSDKをはじめとして、会話システムに必要な技術はエコシステムとして提供します。それを活用すれば、多言語対応の会話はもちろんのこと、音声翻訳機能も提供することができます。

16ch MEMS マイクロフォン、外部マイク入力端子、及びスピーカー再生信号のフィードバック入力の合計 18ch 同期音声入力を持つ。3D 音源定位処理、ビームフォーミング処理、スピーカー再生信号のフィードバック信号を利用したエコーキャンセル処理などの豊富な機能が最強と言われる由縁

現在注目されているいわゆる「AI関連機能」はCPUなどのコンピュータ処理に大きな負荷がかかる。それを軽減するのが行列演算などに長けているGPUの役割となる。一般的には「AI関連機能」は処理能力が高いクラウド側にすべて担当させるが、業務で使用する場合、即応性が要求される会話などには、端末側である程度、AI機能を持たせた方がスムーズで快適な会話が実現できる。そのためにも、スマートスピーカー側に強力な計算機能を搭載していることは大きなアドバンテージに繋がる。

編集部

翻訳機能があるということは、インバウンドを含めて観光客の質問に対して最適な回答やレコメンド情報を返すスマートスピーカーを、比較的簡単に自社ブランドで開発できるということですね

藤野

そうです。
既に市場に出ているBtoC向けのスマートスピーカーは消費者向け製品のため、端末の価格が廉価なのが魅力的です。しかし、現状では企業がビジネスでそれを利用しようと思うと、さまざまな制限を感じると思います。例えば、自社のシステムと連携できなかったり、APIが使えなかったり、同時に発話した言葉を聞き取れないなどのスペックの問題、会話の録音や音声処理結果を取得できない、などのサービス上の制限もあります。
仮に企業向けのコミュニケーションロボットを受付に置きたいと思った場合、来客が来たらロボットが挨拶して用件を聞き、内線やメールで担当者を呼び出す、といった一連の作業になりますが、それはロボットのAPIが開示され、SDKが用意されているからこそ自由に開発したり、クラウドと連携することができます。しかし、BtoC向けのスマートスピーカーでは音声会話システムは垂直統合型だし、スキルやアクションは作れても、開発の自由度は高くありません。

編集部

「Tumbler」には開発環境が用意され、公開されている、という意味でしょうか

藤野

そこはこれから当社のクラウド側の音声対話システム「mimi」と、エコシステムとして構築している「Fairy CTOS」についてくわしく解説しますね。

音声対話システム「mimi」とエコシステム「Fairy CTOS」

フェアリーデバイセズは「mimi」と呼ぶ高精度な音声対話システムをテクノロジー・スタックとして開発、提供を行っている。スタックとは「積み上げ」を意味し、ブロックを積み上げるように必要な技術を選択して構築することができる。具体的には「mimi」は、音声認識の「mimi ASR」、環境音認識「mimi ESR」、話者識別「mimi SRS」、オンラインフロントエンド処理「mimi XFE」で構成される。
音声認識やノイズキャンセル、言語解析など、さまざまな面において、ディープラーニングなどを使った機械学習を行い、ブラッシュアップして技術提供が行われている。

音声を正確に捉え、高い認識率で音声対話を支えている「mimi」のテクノロジー・スタック。下がスマートスピーカーなどの端末側、上がアプリケーション側となる構成図

スマートスピーカーを同時通訳機として窓口に

藤野

「mimi」は音声認識関連のスタックですが、それらを含めてシステム構築のためのエコシステムとして提供しているのが「Fairy CTOS」です。オープンな環境なので、音声認識、音声合成、話者照合や生体認証、各種識別技術、音響イベント検知、パラ言語認識、感情推定など、このエコシステムに関連する技術を持っている企業様には、ぜひ参加して頂きたいと思っています。「mimi」等と競合する技術でもOKです。最近の例であれば、NICT(情報通信研究機構) にて研究開発されている音声認識、翻訳機能の提供を開始しました。

このニュースはある意味、とても衝撃的だった。2017年11月、フェアリーデバイセズはNICTと提携し、NICTが開発した10カ国語に対応して多言語認識技術と翻訳機能を「mimi」で利用できるようにすると発表した。これはスマートスピーカー「Tumbler」等で、音声認識をフェアリーデバイセズ版かNICT版かを選択したり、10カ国語対応の音声翻訳システム(通訳)等が手軽に開発できることを意味する。
NICTの音声認識システムは日本語と、英語、中国語、韓国語、スペイン語、フランス語、ミャンマー語、インドネシア語、タイ語、ベトナム語の10ヶ国語に対応する。自社で開発した業務用パッケージを「mimi」を通じて各国語で活用できる可能性も拡がる。もちろん、「Tumbler」を窓口に置いて、同時通訳機として使うことも可能だ。

技術を自由に組み合わせてシステム構築できる環境

藤野

今回のNICTとの連携で、音声認識が選択できるようになっただけでなく、NICT版の音声合成(テキストから音声を生成)も提供することができるようになりました。以前より、音声合成には「AITalk」で知られている株式会社エーアイと提携し、技術提供してきました。今後は、エーアイ版とNICT版の音声合成を選択して利用できるようになります。

編集部

なるほど。「Fairy CTOS」は、提携する企業が増えるほど、システムベンターやユーザーが利用できる要素技術や選択肢が増えていくということですね。

藤野

そうなんです。当社は以前からGoogleとテクノロジーパートナー契約を結び、既に音声認識で言えば、フェアリー版、NICT版、Google版の3つから選択することができます。また、Googleもご存じのようにディープラーニングを活用した高精度な翻訳エンジンを「Google Cloud Platform」(GCP)上に持っています。すなわち翻訳機能でも、開発者はNICTの翻訳エンジンを使うか、Googleのエンジンを使うかを選択することができます。また、単なる寄せ集めではなく、最終的なアプリケーションを実現するために必要な要素技術を集め、組み合わせて利用するための最適化を図っています。

「Fairy CTOS」のシステム構成図。NICT版の音声認識や翻訳、「Google Cluod Platform」の各種機能も利用することができる。提携する企業が増えるほど、開発企業やユーザーには選択肢が増えていくことになる

編集部

英語と中国語はNICT版、フランス語はGoogle版を使うなど、言語ごとに選択ができるものなのでしょうか。

藤野

はい。言語ごとに選択ができます。言語に限らず、あらゆるコンポーネントが選択・組み替え可能です。技術的なしくみは開発エンジニアの共有ウェブサービス「GitHub」で公開していて(FairyDevicesRD)、常にオープンな開発環境を目指しています。ちなみに、それをひとつの契約体系の中で実現している点も特長のひとつだと思っています。

編集部

なるほど。ちなみにNICT版とGoogle版とでは、どちらが会話認識や翻訳精度が優れているのでしょうか

藤野

どんな用途にでも優れている万能の会話認識エンジンというものは実はありません。それぞれに特徴があって利点と欠点があります。例えば、音声認識の部分ではフェアリー製、NICT製、Google製の3つのエンジンから選択ができますが、講演会、インタビュー、旅行時の会話など、さまざまな用途や活用シーンそれぞれに優れている認識エンジンが異なります。
また、それとは別に音声認識でも翻訳エンジンでも「カスタマイズが必要かどうか」がポイントだと考えています。カスタマイズとは追加で機械学習させることです。言語を例にすると、利用する業界に合わせて専門用語や特殊用語、隠語などを追加で理解させることです。時間やコストはかかりますが、専門用語や言い回しを追加で学習させた方が認識率が上がることは想像できると思います。当社やNICT様の音声認識エンジンは追加の機械学習でカスタマイズが可能です。NICT翻訳も追加学習に対応できます。
Google版は約100カ国語と、対応する言語が多いのが利点ですが、専門用語が多い分野で利用する場合は、開発段階で追加で学習できるNICT版を選択することで、精度の高い認識が可能になると考えています。

本体上部にフルカラーLEDリングを装備。音源の方向や音声受付状態をリングの光り方で示すことができる

編集部

なるほど。Fairy CTOSでは認識や翻訳エンジンが選択できるという点が、大きなメリットに繋がることが具体的にわかりました。

藤野

個別にご相談頂ければ、どのエンジンが合っているか、カスタマイズが必要な場合はどのようなデータをご準備頂くか等、高精度な音声応用、音声対話システムを実現するためのアドバイスやコンサルテーションは当社から行います。
Fairy CTOS は要素技術レベルでの一種のセレクトショップのようなものです。
開発者は目的に応じて最適な要素技術を選択することができます。逆に、私たちのような要素技術ベンダー側から見ると、自分たちの技術を幅広く普及させるための実験場のひとつとなります。
大局的な見地に立てば、要素技術レベルで競合するようなビジネスのやり方は必ずしも時代に合っていないと思っています。音声応用システムの世界的かつ急速な普及状況を前にして、今、私たちが集中すべきことは、如何に事業的な価値を実現するかということであり、成功事例を着実に積み重ねていくことが最も重要です。サービスが動き出せばログデータが蓄積され、ログデータが蓄積されればより良いサービスが作れる。その正の循環にどれだけ早く入ることができるか。そうしなければ、気付いたときには、勢いのある米国や中国勢に席巻されて、もはや太刀打ちができない状況になるといったことは、十分に有り得るのではないでしょうか。

ビジネスパートナーを募集

編集部

パートナーとしてどのような企業を募集していますか

藤野

私達のみでは、実際の業務応用として必要なソリューションの作り込みや販売、保守サービスまで実現することはできません。つまり「餅は餅屋」で、そういった部分は、得意な会社と一緒に進めたいと思います。
これは例えば、既に何らかの業務用ソリューションを持っていて、それとTumblerを組み合わせたいといった企業様や、スマートスピーカーを音声I/O端末として用いた自社ソリューションを開発したい企業様などです。
また、私たちは、主に要素技術側に立っていますが、同様に、優れた要素技術を持っている企業様との連携も幅広く進めていきたいと思います。
音声応用システムは世界的にB2C応用が先行しています。B2B、B2E応用事例は多くはなく、まだまだこれからの領域です。だからこそチャレンジングだし面白い。この領域を、多くの企業様と一緒に切り拓きたいと思っています。

音声でのコミュニケーションはとても手軽だ。手軽で利用しやすい音声インタフェースを業務に活用したいというニーズは大きい。一方、業務環境では周囲がうるさく、音声が聞き取りにくい環境も多い。それらを乗り越えるには、高い次元でのハードウェアと認識システムの組み合わせが必要となるが、フェアリーデバイセズの「Tumbler」と「Fairy CTOS」はそれを実現する初めてのスマートスピーカーだと感じた。
今後の展開から目が離せない。