ニュース大規模言語モデル IoT ロボット人工知能 UC Berkeley パナソニックHD

パナソニック、学習してない物体をテキストと画像で指示できる対話型セグメンテーションAI技術「SegLLM」を開発

2025年4月17日 By ロボスタ編集部

パナソニックR&Dカンパニーオブアメリカ（PRDCA）とパナソニックホールディングス株式会社は、カリフォルニア大学バークレー校（UC Berkeley）の研究者らと共同で、言語と参照画像を用いて認識対象を指示できる対話型セグメンテーション技術「SegLLM」を開発したと発表した。

セグメンテーションとは、画像内を画素レベルで複数の領域に分割する技術。
画像認識との連携によって、例えば特定の物体を検出し、その位置や形状を正確に捉えることができる。これによって、屋内での物体認識、自動車の周辺環境認識やロボットによる物体操作など、さまざまな応用が可能となる。

近年、画像認識の研究では大規模言語モデル（Large Language Model : LLM）を導入して認識対象をテキストで指示する手法が増えているが、対話的に指示を行う際、過去の対話で認識した対象をもとに新しい指示を出そうとするとテキストが複雑になり、誤認識が起こりやすいという問題があるという。

今回開発したSegLLMは、プロンプトにテキストと参照画像の入力を実現したことで、未学習の物体があっても指示文で物体の階層関係や物体間のインタラクションが認識可能になる。また、見た目が類似した物体が多数存在するような、より複雑なシーンで特定の物体のみを認識することに優れているとしている。

この技術は、先進性が国際的に認められ、AI・機械学習技術のトップカンファレンスである「International Conference on Learning Representations（ICLR 2025）」に採択された。2025年4月24日から4月28日までシンガポールで開催される本会議で発表する。

「SegLLM」は、テキストと参照画像を一緒にプロンプト入力

パナソニックHDとPRDCAでは、セグメンテーション技術に関するVision and Language Model（VLM）の研究に取り組んでいる。昨今、言語モデルの進化によって認識対象をテキスト形式で柔軟に指定できる手法は増えているが、対話的にセグメンテーションを行うと、過去の対話で認識した対象を基に新しい指示を出す際に、テキストが複雑になり、誤認識が起こりやすい課題があった。

図1 従来のVLMではテキストが複雑になると誤認識を起こす

これに対し「SegLLM」は、テキストと参照画像を一緒にプロンプト入力する手法。
具体的には参照画像をテキストと同じ特徴空間に埋め込みLLMに入力できる形で学習を行なった。この手法では、過去の対話でLLMが出力したセグメンテーション画像（マスク）を用いてマスクされた物体のみを切り抜いた参照画像をプロンプトにして次の指示を出すことが可能なため、テキスト入力の長さを増やさず過去の対話内容を踏まえた指示が可能となる。

図2 SegLLMの構成

この論文ではSegLLMの構成に加え、対話型セグメンテーションの学習・評価データセットも提案している。提案した学習・評価データセットを用いた評価実験においては、既存手法では対話が進むにつれ、認識精度の劣化が大きくなるのに対して、SegLLMは精度劣化を大幅に抑えることに成功した。（下図）

図3 対話型セグメンテーションデータセットにおける評価性能

今後の展望

今回開発したSegLLMは対話型セグメンテーションの性能を大幅に向上させる技術。この技術は、パナソニックHDがFastLabelと開発を進めている自動アノテーションツールに実装を予定しており、従来のテキストのみの指示では検出が難しかった対象（例えば、未学習の物体や特定の人物が持っている物体など）まで適用範囲が広がることで、AI開発の効率やスピードを左右するアノテーションのコスト削減と高精度化に向けてより汎用的なツールに進化させていく。また、このようなSegLLMの特性を活かし、CPS（サイバーフィジカルシステム）へ応用することで、多種多様な器具・工具が存在するような工場・生産ラインにおいても現場毎の学習コストを削減できるため、工場等の最適化の加速に貢献していくとしている。

今後もパナソニックHDは「AIの社会実装を加速し、お客様のくらしやしごとの現場へのお役立ちに貢献するAI技術の研究・開発を推進していきます」としている。

【論文情報】
SegLLM: Multi-round Reasoning Segmentation
https://arxiv.org/abs/2410.18923
本研究は、PRDCAのKonstantinos Kallidromitis氏、UC-BerkeleyのXudong Wang氏らとパナソニックHDの加藤祐介氏、小塚和紀氏による共同研究成果。