iFLYTEK JAPAN AI SOLUTIONS 株式会社は「次世代AIボイスレコーダー『VOITER SR302 Pro』製品説明&体験会」を7月29日に開催した。多数の報道関係者が参加し、次世代AIボイスレコーダーを体験した。
「iFLYTEK」(アイフライテック)は1999年に設立された中国に本社を構える企業(日本では浜松町に拠点を持つ)。音声AI業界に焦点を絞って製品やサービスを展開している。音声認識、音声合成、自然言語理解、機械学習と推論、適応学習など、コア技術の研究にも多くの力と資金を投入している。
この日、製品として体験用に用意されたのは主力製品の次世代AIボイスレコーダー『VOITER SR302 Pro』と『VOITER SR502J』。また、モバイル翻訳機の『Smart Translator』等も試用することができた。
次世代AIボイスレコーダーの特徴
VOITERシリーズには「SR502J」(2021年7月発売)と「SR302」(2022年7月発売)の2機種がある。一部の家電量販店とECサイトで購入することができ、価格は「SR502J」が59,900円(税込)、「SR302」が39,600円(税込)。これまで中国ではボイスレコーダーが約40万台、翻訳機が20万台と大きな販売実績を残している。
世界的には「家電製品購入者の割合はECサイトが多い」としたうえで、「日本市場は逆で、ECサイトが約4割、約6割が家電量販店で購入している」比率だという。なお、日本市場での累計販売実績は「SR502J」が約5千台、「SR302」が約8千台となっている。
「SR502J」は文字起こしがオンライン、「SR302」はオフラインで可能
最も大きな特徴の違いは、「SR502J」は文字起こしをオンライン環境でのみ利用できる(録音はオフラインで可能)ことに対して、「SR302」はオフラインで文字起こしまで利用できる。教育や医療機関では特にデータを施設外に送ることに抵抗がある組織が多い。そのため完全オフラインで文字起こしできる点で「SR302」を選択するユーザーが多いという。文字の認識精度はクラウドでテキスト認識する「SR502J」の方がやや高い。
すなわち、モバイル環境で文字起こしが必要な場合は「SR302」を、文字起こしはWi-Fi環境でできればOKという場合はより精度の高い「SR502J」がお勧めとなる。ハードウェア面では「SR302」が6個のマイクを搭載しているのに対して、「SR502J」は8個のマイクを搭載している。いずれの機種も雑音除去技術を持つ。
両方の機種の特徴をもう少し詳しく見てみよう。
次世代AIボイスレコーダー『VOITER SR302 Pro』
「SR302 Pro」は、前述したとおり、ネット環境が不要で、オフラインで録音と文字起こしが可能だ。操作も簡単で使い勝手がよい。
本体には6基のマイクを搭載、そのうち2基は最大5m程度までカバーする指向性マイクとなっている。雑音除去機能もあり、VOITERの両機種共通の特徴として雑音の多い環境でも利用できることがあげられる。
文字起こしに対応する言語は日本語だけでなく、英語・中国語・韓国語・ロシア語の計5言語に対応している。
録音や文字起こししたデータをパソコン等で使用したい場合は、USBケーブルでデータを転送することができる。
次世代AIボイスレコーダー『VOITER SR502J』
もう一方の『VOITER SR502J』は、価格的にみてフラッグシップモデルとしてラインアップされている。高精度の文字起こしができる。ただ、文字起こしにはインターネット接続(Wi-Fi接続)が必要となる。
著者は取材やインタビュー等で普段からボイスレコーダーを頻繁に使っているが、現場では録音だけ行い、デスクに戻ってから文字起こし作業をしていることを考えると、オンライン仕様の「SR502J」でも不便はないだろう。そうなると、文字起こしの精度が高い「SR502J」の方を選びたい(今回「SR502J」を入手したので、実際の使い勝手や性能は後日、別の記事でレポートしたい)。
また、文字起こしの精度にも関わってくる現場の環境によって選択できる多彩なモードも魅力的だ。モードは「標準」「会議」「取材」「講演」「メモ」「音楽」「省電力」が用意されている。例えば、いろいろな場所から発言がある会議モードとステージ上の講演者に向けて指向性を上げられる講演モードでは、集音の方法が異なってくる。
特に自社の会議の議事録では、Wi-Fi環境が利用できるケースが多いので、「SR502J」の高精度な文字起こし機能は有効だろう。
「SR502J」用のWEBアプリが用意されていて、話者ごとに文章を分ける機能や文字起こしに失敗しがちな専門用語の一括変換機能などを利用することもできる。
技術的に大きなコンテストでのiFLYTEK受賞実績を紹介
説明会には iFLYTEKの趙翔氏が登壇し、同社が築いてきた技術とその評価実績を、デモを交えながら説明した。
音声識別(聞き取る技術)では、雑音環境での音声認識性能を競う国際コンテスト「CHiME」において、4年連続1位を獲得した。
更には、音声合成(テキストを自然に読み上げる技術)では、テキスト音声合成の品質を競う国際ワークショップ「Blizzard Challenge」(カーネギーメロン大学と名古屋工業大学による組織)において14年間連続で1位を獲得しているという。
生成AIバーチャルヒューマンによる発話技術のデモ
説明会では同社が生成AIバーチャルヒューマンによる発話の技術をデモで公開した。顔の表情や口の動きまで音声合成に合わせてシンクロしている(リップシンク機能)。
■動画
翻訳や画像認識(OCR)のコンテストでも受賞
次に趙氏は翻訳技術と実績を紹介。音声翻訳国際ワークショップ「IWSLT」で、英-独、英-中で1位を獲得、英-日でも2位に輝いた。また、中国翻訳専門資格テスト「CATTI」において、英語二級、三級「スピーキング実務」で合格している。
■動画 音声認識と翻訳のデモ
画像から文字を識別する技術では、国際会議「ICDAR」において、同社は4部門で1位を獲得した。そのうち2つの事例を紹介し、具体的にどのような項目で1位を獲得したのかを語った。
下のスライドのうち、真ん中の画像は(サンプル事例の左)大学生が実際の入試の際に書いた回答用紙の文字(手書き文字)を認識。ロボットで読み取り、適切に文字起こしを行う技術を中国の大学入試システムで導入していて、採点の時間短縮に貢献しているという。
また、上のスライドのサンプル事例の右端は宅配便の伝票(送り状)の例(手書き文字)。スマホで読み取ってテキストにしてデータ化している。
医療分野での活用事例
医療分野での活用事例では、中国国家医学テストセンターで医療AI「智医助理」(商品名)がテストに参加。600点満点で合格ラインが350点のところ、同社のシステムは456点を獲得しこれはテストに参加した人のうち、96.3%を超えるスコアとなった、という。
大規模言語モデル(LLM)
同社の大規模言語モデル(LLM)「SPARK」は、「GPT-4 Turbo0409」と比較して、多くの分野でGPT-4を上回るベンチマーク結果を得た、としている。
日本市場向け製品ラインアップ
現在、同社は日本市場に「AI翻訳ペン」「AI翻訳機」を各1機種、スマートオフィス向けとしてAIボイスレコーダー2機種と、今後タブレット型の「AI Note」と「AIイヤホン」をラインアップに追加していく予定だ。
導入事例とユーザーの声
説明会では最後に、各分野での導入事例とユーザーの声が紹介された。
弁護士
[SR302 Pro ユーザーの声]
業務の特性として、情報漏洩には非常に気を付けなければなりません。セキュリティ面を考えれば、オフラインである事が一番重要です。また、プログラムのアップデートもオフラインで出来る事が良いと思います。
自治体市役所
[SR302 Pro ユーザーの声]
複雑な操作性がなく誰でも使いこなせる点が非常に助かりました。大人数の会議だとしても発言者は決まっているので、それに対してのニーズがしっかり果たされ、尚且つオフラインであることなどが選んだ理由でした。結果議事録の作成時間が大幅に削減される事により、他の業務に時間を充てられるため、結果無駄な残業が減りました。
一般企業広報
[SR302 Pro ユーザーの声]
SR302Proを導入する事により、工数が大幅に削減されました。登壇者の近くに置けば正確に録音、文字起こししてくれますし、また完全オフラインなので、社内セキュリティポリシーにも問題なく、安心して使っています。
教育業界某大学の教授
[SR502J ユーザーの声]
「502J」を活用して編集時間の大幅な削減だけでなく、録音時の雑音除去技術によるクリアな音源にも大変驚きました。授業研究だけでなく、教職員の会議、論文を書く時の下書きにも利用しています。
建設業界ゼネコン
[SR502J ユーザーの声]
2024年問題(労働時間の上限規制、高齢化など)や深刻な人手不足の中で、これらの問題を解決するために、VOITERSR502Jを導入しました。これにより、限られた人員と時間を効率的に活用できるようになりました。
医療業界 医師
[SR502J ユーザーの声]
VOITER SR502Jの導入以降、会話に専念できるようになり、後で文字起こし結果を患者に共有するだけで済むため、非常に楽になりました。
メディア業界スポーツ記者
[SR502J ユーザーの声]
一般的に、インタビュー後の録音整理にはインタビュー時間の3倍の時間がかかりますが、VOITER導入後はその作業を半分以下の時間に短縮することができ、文字起こしも非常に正確です。
私は今年75歳になり、これまでに10回のオリンピック取材には従来のボイスレコーダーを使用していましたが、これからはVOITERを「相棒」として仕事に活用していきます。
次世代AIボイスレコーダー『VOITER SR502J』レビューもお楽しみに
今回の説明会で著者は次世代AIボイスレコーダー『VOITER SR502J』を入手。使い勝手のレポートはもちろん、著者が通常使っているボイスレコーダー(文字起こし)との比較もお伝えする予定だ。お楽しみに。
ABOUT THE AUTHOR /
神崎 洋治神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。