ニュースリアルタイム翻訳翻訳音声アシスタント AI音声アシスタント人工知能日本マイクロソフト株式会社

夢のリアルタイム音声翻訳、マイクロソフトがAI技術を使った「Microsoft Translator」と「Skype翻訳」を発表、そのしくみと狙いは? PowerPointアドインも登場 - (page 3)

2017年4月7日 By 神崎洋治

95%のウェブサイトが一言語だけで書かれていて、ビジネス機会を損失している

4月7日のリリースに先だち、同社は報道関係者向けにプレスブリーフィングを実施し、今回の技術の解説と今後の展望などを語った。

プレスブリーフィングでは、まず日本マイクロソフト株式会社のCTO、榊原彰氏のプレゼンテーションが行われた。

日本マイクロソフト株式会社執行役員最高技術責任者榊原彰氏

「Microsoft Translatorは、リアルタイムで音声翻訳やテキスト翻訳ができるAPIのサービスです。開発者はプログラムにAPIを組み込むことで、すぐに翻訳機能を使うことができます。ベースはテキスト翻訳で、ある言語のテキストから別の言語のテキストへの翻訳は60以上の言語に対応しています。音声翻訳の場合は、音声認識を行ってテキストに変換、それを文章に成形してテキスト翻訳にかける、という手順です。音声翻訳は認識の関係でテキスト翻訳よりは対応言語の数は少なくなります。
AzureのAPIサービスのひとつとして従量課金で提供します。そのためデベロッパーの方は大きな初期投資することなく、気軽に開発を始めることができます」

APIでは開発者に対しての課金プランであり、現状でユーザーは費用の心配する必要はないと言う。
Microsoft Translator、スカイプ、PowerPointのアドインなどは当面、無償で使用することが可能だ。

「今日も同時通訳の方に来て頂いていますが、Microsoft Translatorは通訳の仕事を置き換えるためにリリースするのではありません。残念ながら機械には情緒豊かな翻訳や状況に応じた通訳はできず、まだまだ人間には叶いません。
一方で機械翻訳の利点として翻訳スピードが速い、ということです。次々に情報がアップデートされるような場面で、スピーディな翻訳を手軽に低コストで行いたいというケースでは機械翻訳は有効です」

「世界中で公開されているウェブサイトを見ると、一ヶ国語だけで書かれているサイトが95%を占めています。社内用のウェブページに至っては更に97%が1言語だけで書かれています」

「GDPで見ますと英語圏は全体の32%に過ぎません。対象を英語、中国語、日本語、フランス語、ドイツ語に増やすと64%に増えます。更に主要10言語に増やすと、81%が網羅できます。すなわち、ウェブサイトを1言語でしか用意していないのは、膨大なビジネスのチャンスを逸しているとも言えます。
マイクロソフトはこのMicrosoft Translatorの機能をあらゆるプロダクトに搭載していきたいと考えています。Visual Studio、スカイプ、Officeツールなど全てです」

機械学習で「文脈を読む」力を付けた翻訳

米Microsoft CorporationのMicrosoft ResearchのAI & Research グループリーダーのオリヴィエ・フォンタナ氏が登壇し、技術的なしくみから、マーケティング等を解説した。

「従来は統計的手法による機械翻訳が行われてきました。人間が翻訳した膨大なデータを見て、単語の並び順などをマッチングして翻訳する手法です。しかし、それには限界があります。特に長い文章の全体の関係を処理するはできませんでした。
そこでニューラルネットワークによる翻訳に移行することに決めました。これは統計的手法とは大きく異なります。
まず各単語を見て、次に全体の文章を見て文脈をつかみます。例えば「犬」という単語を見たあと、「仔犬の世話をしている」という文脈であれば、この犬はメスであることが解ります」

オリヴィエ・フォンタナ氏(OLIVIER FONTANA)、マイクロソフトコーポレーション、AI & Research グループディレクター(機械翻訳プロダクト戦略担当）

このように2〜7つの単語で文脈を構成する統計的機械翻訳と比較して、ニューラルネットワークの機械翻訳は文脈全体を見て適した翻訳をおこなう点で、今までより精度の高い翻訳が実現するとしている。

「他言語の翻訳によるコミュニケーションだけでなく、聴覚障害のある方には音声をテキストに変換することで、コミュニケーションのグループに参加することができるようになります」

音声翻訳の仕組み

マイクロソフトは、2014年12月にスカイプ翻訳（Skype Translator）を提供開始し、2015年にMicrosoft Translator APIとアプリを提供開始した。あらゆる言語に存在する固有の特性に合わせて、同社のAIと自然言語処理の専門家チームは個別に対応する必要があったと言う。

音声翻訳は、マイクロソフトの独自技術「TrueText」によって音声認識用と機械翻訳用の異なる2タイプのAIを組み合わせることで実現される。

TrueTextは認識した音声を機械翻訳で翻訳可能な形に成形する。音声はまずマイクロソフトの音声認識ニューラルネットワークシステムへと送られる。このシステムは人間の自然な対話を扱えるよう設計されている。この最初のステップでは、自然言語の専門家が「ディスフルエンシ（disfluencies）」と呼ぶものを含んだテキストが生成される。ディスフルエンシとは、私たちが話すとき、多くは無意識のうちに繰り返し発生しているつなぎ言葉であり、日本語では「えーと」、英語では「um」などが知られている。ノイズと呼ぶ場合もある。

TrueText は、このようなディスフルエンシを削除し、完全な文章に必要な大文字化や、句読点の追加を行ない、翻訳段階でより精度の高い処理を可能にする。
次に、TrueText の出力が機械学習による第二段階のAI機能に送られ、文章の文脈を利用して、流暢で人間らしく聞こえる翻訳が行なわれると言う。

そして、最後のステップはテキスト読み上げ機能。翻訳したテキストを音声に変換して出力することでユーザーは耳で翻訳された文章を聴くことができる。
この一連の流れは下記のようにアニメーションで公開されている。

なお、利用料金については同社の「Cognitive Services の価格 – Translator Speech API」を参照のこと。

いよいよ夢の音声リアルタイム翻訳がいろいろなシステムに組み込まれるときがやってくる…そう期待したい。

ABOUT THE AUTHOR /

神崎洋治

神崎洋治（こうざきようじ） TRISEC International,Inc.代表「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ～くわかる本」(秀和システム)の著者。デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。