AIが会話を聴き取って議事録を自動作成！高機能スマスピを使った「COET Record Meeting」をTISが正式発表、無料トライアルも

2019年7月25日 By 神崎洋治

TISは、会議や打ち合わせ等の音声を認識して自動で発言者別にテキスト変換するサービス「COET Record Meeting」(コエット・レコード・ミーティング)の正式版を発表し、報道関係者向けに発表会を開催した。構成内容は専用の「スマートスピーカー」と小型ディスプレイ「ビューア」のセット(冒頭の写真)。議事録の保存・テキスト変換・閲覧等はクラウドサービスで提供される。
最大の特徴は会議で発言した話者を特定して聴き取り、会話内容を自動でテキスト化すること。発話内容はスマホやパソコン画面で確認することができ、発言ごとに音声での聞き直しもワンボタンでできる。多言語にも対応した。

「COET Record Meeting」を使用している会議のイメージ画像

発話者別に発言内容を議事録として記録しているイメージ画像。スマホやパソコンの画面でテキスト変換したものを確認することができる

ハードウェアの価格は148,000円。サービス利用料は基本料が月額6,800円/台。他に時間課金として1時間1,800円がかかる(いずれも税別)。2週間の無償レンタル試用を20時間行えるトライアルを実施する。

誤変換は簡単に修正できる。またテキストに該当する発言内容を音声で確認することもできる

最大12名まで発言者を識別して議事録を作成

「COET Record Meeting」は今年の4月の「第3回 AI・人工知能EXPO」でベータ版をデモ展示し、それ以降、60社以上で試用テストが行われ、フィードバックされた内容を反映しつつ、今回の正式版の発売に至った(帝人などが試用テストに参加)。

使用するシーンは主に会議での議事録の保存と作成だ。使用と議事録作成の流れはこうだ。
まず、テーブルの中央にスマートスピーカーを置き、会議の前に、会議の参加者がひとりずつ名乗って話者登録を行う。

ひとりずつ話者を登録する。スマートスピーカーが方向を検知する

スマートスピーカーには16個のマイクアレイが内蔵されていて、声の方向を検知する。30度ごとに方向を区切って話者を判定できるので最大12人まで登録できるが、精度を考慮すると推奨は6人以内程度。距離は発言者の声の大きさにもよるが、概ね話者から2m以内程度が適切なようだ。

参加者の登録が終わると、QRコードとURLが発行される。スマホならQRコードで、パソコンならブラウザでURLにアクセスする。原則として会議の参加者のみがアクセスできるしくみだ。

スマートスピーカーが会議中の発言を話者別に聴き取り、クラウドでテキストに変換して議事録を作成する。記事録はスマホのアプリやパソコン等のブラウザでほぼリアルタイムで閲覧できる。スマホアプリのデザインはSNS画面のようで見やすい。発言終了ごとに内容がテキスト変換されて表示される。再生ボタンを押すと、変換前の実録音した音声データを聞くことができる。

スマホやパソコンで誤変換や発言内容を手軽に修正することができる。

発言内容をパソコンで修正しているところ

外国語にリアルタイム翻訳

テキスト変換した発言内容はスマホのアプリで外国語に翻訳することができる。例えば、会議の発言は日本語で行われるものの、英語で会話内容を確認したいという場合などが想定される。スマホのアプリに順次追加されていく発言内容を英語などの外国語でも併記して表示することができる。

表示に「英語」を選択すると発言した日本語の下に、英語に翻訳した内容が併記されるしくみ

逆に英語の会議に参加した場合、聴き取れなかった英単語や会話を日本語で即座に確認することもできる。英語の聞き漏れによって会議の流れに乗れなかったという課題に向けたツールとしても活用できそうだ。

英語での会議の例。英語の会話認識と日本語翻訳の例(画面イメージ)

議事録を保存

変換した議事録はテキスト形式のほか、CSV、JSONで保存することができる。保存先はクリップボード、OneDrive、Googleドライブが選択できる。CSV等で保存した場合、表計算ソフト等で、特定の話者の発言だけを確認したり、特定のキーワードで発言内容をチェックするなどの応用が可能だ。

この機能を活用すると、「部長の発言だけ確認しておこう」「A製品の話題のところだけチェックしておきたい」といったことをテキスト検索で手軽に確認できるようになる。また、会議全体を通じて発言者が著しく偏っていたり、発言をまったくしない人を確認するなど、会議の質や改善点を精査するためのデータとして活用することもできるだろう。

無料で2週間試用できるベータトライアルも実施

今回のリリースは製品サービスのスタートに過ぎず、同社は今後も、テスト試用した60社からのフィードバックを参考に、記録された発言のピン留めなどができる「発言ログのプロット機能」「発言ログの検索機能」「会議アシスタント機能」などの新機能を随時追加していく予定としている。

今後の実装が検討されている機能

筆者としては企業ごとに認識率を向上するために専門用語や製品名、なまりなどをより正確に変換するためのチューニング機能、誤変換から学習する単語登録機能などもあればなお良いのではないかと感じた。

なお、2019年に導入した場合はいくつかの特典が用意されているほか、試しに無料で2週間使うことができる「ベータトライアル」も用意されている。導入を検討している企業は、早めに同社に問い合わせることをオススメしたい。

音声データとセキュリティ: 利用する企業側が適切に利用を判断

海外では、GoogleアシスタントやAlexaに対してユーザーが発話した一部の会話が、ユーザーの承諾なしに製品の機能向上のために利用されるなど、海外では音声データの取扱いに批判的な声や懸念が上がっているケースもある。こういったサービスでは、その点はどう判断すべきだろうか。
「COET Record Meeting」を開発しているTISはセキュリティレベルの高いシステムの構築や提供を行っている企業。データを扱うセキュリティレベルは高いはずだ。とはいえ、音声データは原則としてインターネットを介してやりとりされるし、テキスト変換や翻訳エンジンなど様々なシステムやサーバとやりとりされる。そもそもクラウドサービスで提供される以上、そのしくみ内にリスクが全くないとは誰も言い切れないのは当然のことだ。
その点、セキュリティやコンプライアンスのレベルを企業側が十分に考慮した上で、自動議事録作成システムを上手に活用していくことが求められるだろう。要は機密性が極めて高い会議ではこういったクラウドサービスの利用は控え、会議の内容を「手軽に」音声データとして録音・テキスト変換して残したいという会議から順次導入していくことが重要になっていく。

専用の高機能スマートスピーカーを使った自動議事録サービスが翻訳機能も実装してようやく正式リリースされる。
会議中に議事録を作成しようとすれば発言に集中できないし、ICレコーダからの書き起こしには手間がかかる。英語での会議は聞き取れないこともあって流れに乗れない・・など、会議や議事録の作成に関わる多くの課題に対するソリューションとなることを期待したい。

ABOUT THE AUTHOR /

神崎洋治

神崎洋治（こうざきようじ） TRISEC International,Inc.代表「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ～くわかる本」(秀和システム)の著者。デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。