東芝人物の行動を高速･正確に認識する「ハイブリッド行動認識AI」発表「骨格認識AI」と「動画認識AI」を融合、精度約9割･高速性4倍超に

2024年10月28日 By 神崎洋治

株式会社東芝は、人物の骨格の動きと1枚の画像を効率的に組み合わせることで、人の行動を、少ない計算量で高精度に認識できる独自の「ハイブリッド行動認識AI」を開発した。「骨格認識AI」で人の動きを検知し、「動画認識AI」で人が持っているものなどを解析することで、行動をより正確に推測（認識）する。

東芝独自の「ハイブリッド行動認識AI」のしくみ（詳細は後述）

同社は、公開データセットを用いた評価において、特に行動認識の結果が持ち物の影響を受けるケースに対して「ハイブリッド行動認識AI」を用いると、「骨格認識AI」のみの場合と比較して、認識精度が51.6%から89.5％と大幅に向上したことを確認した。また、AIの計算速度は「動画認識AI」と比較して4.6倍も高速処理が可能になった。

従来技術と比較した「ハイブリッド行動認識AI」の精度改善効果

なお、東芝はこの技術をコンピュータビジョンの主要な国際会議「ICIP2024」で発表する。

「骨格認識AI」と「動画認識AI」を融合

製造現場では、デジタルトランスフォーメーション（DX）が進展しており、作業効率の分析や作業ミスの検知・防止を目的として、カメラ映像から作業員の行動を認識する「行動認識AI」の導入が進んでいる。

「行動認識AI」は大きく分けて、撮影した人物の映像を骨格情報に変換し解析する「骨格認識AI」と、カメラで撮影した動画をそのまま解析する「動画認識AI」がある。「骨格認識AI」は、少ない計算量で行動を認識できることから導入が進む一方、人物の持ち物が何なのか判別ができず、認識できる行動の種類に制限があった。

また、「動画認識AI」は、持ち物も含めて行動を認識できる一方で、計算量が膨大になり、高性能な計算用のサーバーが必要となったり、運用コストが高くなったりする課題があった。

同社が開発した「ハイブリッド行動認識AI」は、人物の骨格の動きを参考にしながら、独自のAIアルゴリズムによりカメラ映像から行動を認識するために最適な画像を1枚だけ抽出する。そして、骨格の動きと、抽出した画像を効率的に組み合わせることで、少ない計算量で、道具を持っている人物の行動を認識することが可能となる。

このAIは、「動画認識AI」よりも低い計算量で、「骨格認識AI」より詳細に作業内容を解析することができるため、製造現場におけるDXへの寄与が期待できる、としている。

■ 東芝　少ない計算量で高精度に人物の行動を認識する「ハイブリッド行動認識AI」

同社は本AIの詳細を、2024年10月27日～30日に開催されるコンピュータビジョンの主要な国際会議ICIP2024（2024 IEEE International Conference on Image Processing）で発表する。

「行動認識AI」の正確性と計算速度を向上

「行動認識AI」は、デジタル化が進むモノづくりの現場において、作業効率の分析や、作業ミスの検知・防止に活用されている。
例えば、作業効率を分析する用途では、各作業の所要時間を解析して可視化、作業の改善策の検討に活用できる。また、作業ミスを検知する用途では、リアルタイムに作業内容を認識し作業の抜けを検知して作業者へ通知することで、作業の後戻りを防ぎ生産性を改善できる。

「骨格認識AI」のメリット/デメリット

「行動認識AI」には前述のように、大きく分けて「骨格認識AI」と「動画認識AI」の2つの方式がある。「骨格認識AI」は、画像から人物の関節位置を表す骨格情報へ変換し、骨格の動き認識をすることで、少ない計算量で実現可能な技術であり、製造現場への導入が進んでいる。一方で、骨格情報以外のビジュアル情報を失うため、例えば、「製品を手に持って検品シールを貼る行動」と「スマートフォンやタブレットを両手で持って操作する行動」のように、骨格の動きは似ていても、持ち物によって意味が変わる行動の区別ができないところが課題となっていた。

「動画認識AI」のメリット/デメリット

「動画認識AI」は、カメラで撮影した動画をそのまま解析することでビジュアル情報を用いて行動を認識できる一方で、時系列に画像が並んだ動画データを処理するため、計算量が動画の時間と画像サイズに応じて膨大になってしまう。そのため、短時間で計算するには、AIの処理に高性能な計算用のサーバーが必要となり、製造現場におけるDX推進とコスト効率の良い運用の両立が難しいという課題があった。

製造現場におけるDXを実現するには、持ち物によって意味が異なる作業をリアルタイムで詳細に区別して解析する必要があり、少ない計算量で、作業者の具体的な行動を高精度に認識できる認識技術が求められていた。

「ハイブリッド行動認識AI」のしくみ

そこで同社は、少ない計算量で、持ち物も加味して人物の行動を認識するために、人物の骨格の動きと1枚の画像を効率的に組み合わせることで高精度に行動を認識する「ハイブリッド行動認識AI」を開発した。

本AIは、骨格の動きを参考に、独自のAIアルゴリズムを用いて、カメラ映像から行動認識に重要なキーフレームとなる画像を1枚だけ抽出する。具体的には、行動認識に必要となる度合いを「注目度」という指標で表し、時系列に並ぶフレームの中から、「注目度」が高いフレームを選択する。この技術により、「動画認識AI」と「骨格認識AI」の両者のデメリットを消す「ハイブリッド行動認識AI」を実現した。

キーフレームとなる画像のみを利用することで、少ない計算量で、骨格情報には含まれない工具や部品などのビジュアル情報をAIに取り組むことができ、骨格と画像の情報を効率的に計算する行動認識が可能となる。

「ハイブリッド行動認識AI」のテスト結果

このAIを公開データセットで評価した結果、「骨格認識AI」のみで認識する手法に比べて、道具を使う行動の認識精度が大幅に向上したという。
例えば、「スマートフォンやタブレットを使用する」という行動では、「ハイブリッド行動認識AI」によって認識精度が51.6％から89.5％に向上したことを確認した。
このAIにより、「骨格認識AI」だけでは認識できなかった行動が区別できるようになり、詳細な作業内容や所要時間を実用的な精度で解析できる。
加えて、動画のフレームをすべて処理する「動画認識AI」と比較して、「ハイブリッド行動認識AI」は4.6倍高速に処理することができるため、現場への導入が進んでいる「骨格認識AI」と同様にリアルタイムでの処理が可能。

今後の展望

東芝は今後、「ハイブリッド行動認識AI」を同社グループの工場や東芝ライテック(株)の製品であるカメラ付きLED照明「ViewLED」を用いた画像解析ソリューションなどへ広く活用し、早期の実用化を目指す考えだ。

ABOUT THE AUTHOR /

神崎洋治

神崎洋治（こうざきようじ） TRISEC International,Inc.代表「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ～くわかる本」(秀和システム)の著者。デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。