
パナソニックR&Dカンパニー オブ アメリカ(PRDCA)とパナソニック ホールディングス株式会社は、カリフォルニア大学 バークレー校(UC Berkeley)の研究者らと共同で、言語と参照画像を用いて認識対象を指示できる対話型セグメンテーション技術「SegLLM」を開発したと発表した。
セグメンテーションとは、画像内を画素レベルで複数の領域に分割する技術。
画像認識との連携によって、例えば特定の物体を検出し、その位置や形状を正確に捉えることができる。これによって、屋内での物体認識、自動車の周辺環境認識やロボットによる物体操作など、さまざまな応用が可能となる。
近年、画像認識の研究では大規模言語モデル(Large Language Model : LLM)を導入して認識対象をテキストで指示する手法が増えているが、対話的に指示を行う際、過去の対話で認識した対象をもとに新しい指示を出そうとするとテキストが複雑になり、誤認識が起こりやすいという問題があるという。
今回開発したSegLLMは、プロンプトにテキストと参照画像の入力を実現したことで、未学習の物体があっても指示文で物体の階層関係や物体間のインタラクションが認識可能になる。また、見た目が類似した物体が多数存在するような、より複雑なシーンで特定の物体のみを認識することに優れているとしている。
この技術は、先進性が国際的に認められ、AI・機械学習技術のトップカンファレンスである「International Conference on Learning Representations(ICLR 2025)」に採択された。2025年4月24日から4月28日までシンガポールで開催される本会議で発表する。
「SegLLM」は、テキストと参照画像を一緒にプロンプト入力
パナソニックHDとPRDCAでは、セグメンテーション技術に関するVision and Language Model(VLM)の研究に取り組んでいる。昨今、言語モデルの進化によって認識対象をテキスト形式で柔軟に指定できる手法は増えているが、対話的にセグメンテーションを行うと、過去の対話で認識した対象を基に新しい指示を出す際に、テキストが複雑になり、誤認識が起こりやすい課題があった。
これに対し「SegLLM」は、テキストと参照画像を一緒にプロンプト入力する手法。
具体的には参照画像をテキストと同じ特徴空間に埋め込みLLMに入力できる形で学習を行なった。この手法では、過去の対話でLLMが出力したセグメンテーション画像(マスク)を用いてマスクされた物体のみを切り抜いた参照画像をプロンプトにして次の指示を出すことが可能なため、テキスト入力の長さを増やさず過去の対話内容を踏まえた指示が可能となる。
この論文ではSegLLMの構成に加え、対話型セグメンテーションの学習・評価データセットも提案している。提案した学習・評価データセットを用いた評価実験においては、既存手法では対話が進むにつれ、認識精度の劣化が大きくなるのに対して、SegLLMは精度劣化を大幅に抑えることに成功した。(下図)
今後の展望
今回開発したSegLLMは対話型セグメンテーションの性能を大幅に向上させる技術。この技術は、パナソニックHDがFastLabelと開発を進めている自動アノテーションツールに実装を予定しており、従来のテキストのみの指示では検出が難しかった対象(例えば、未学習の物体や特定の人物が持っている物体など)まで適用範囲が広がることで、AI開発の効率やスピードを左右するアノテーションのコスト削減と高精度化に向けてより汎用的なツールに進化させていく。また、このようなSegLLMの特性を活かし、CPS(サイバーフィジカルシステム)へ応用することで、多種多様な器具・工具が存在するような工場・生産ラインにおいても現場毎の学習コストを削減できるため、工場等の最適化の加速に貢献していくとしている。
今後もパナソニックHDは「AIの社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます」としている。
SegLLM: Multi-round Reasoning Segmentation
https://arxiv.org/abs/2410.18923
本研究は、PRDCAのKonstantinos Kallidromitis氏、UC-BerkeleyのXudong Wang氏らとパナソニックHDの加藤 祐介氏、小塚 和紀氏による共同研究成果。
この記事を読んだ人におすすめ
-
ソフトバンクが通信にAIを活用「AI-RAN」を四足歩行ロボットでデモ!生成AIやLLMでどう変わる?AITRASとNVIDIA AI Enterprize
-
NECのCTOが「NECの先端技術開発」を発表 生成AI・大規模言語モデルの新Ver、生体認証の最新技術、図表を理解するAI など NEC Innovation Day 2024
-
大阪メトロ梅田駅でNTTの生成AI「tsuzumi」と案内ロボット「ugo」で多言語対応の社会実験 大阪・関西万博に向けて
-
ソフトバンクの子会社Gen-AX 生成AIがコンタクトセンターなどの照会応答業務を支援する「X-Boost」を発表
-
アクセンチュア「テクノロジービジョン2025」を発表 『AIに求める最も重要な指標は、そのパフォーマンスに対する信頼』
-
生成AI搭載の業務DXロボット「ugo」が秋葉原駅のエキナカ施設で接客・案内キャストに正式採用 緊急時の一次対応も
-
AIロボットが人生を共に楽しむパートナー 認知症の対策、健康寿命の延伸、クウジットが「Active Aging Platform」を開発
-
富士通がAI処理のGPU演算効率を高めるミドルウェア技術を開発 処理効率は最大で2.25倍向上 世界的なGPU不足に対応
-
【世界初】企業のAIクローン同士を仮想面談するクローンマッチング技術で5か月間という短期間でのM&A成約