ニュース tsuzumi ジェネレーティブAI 大規模言語モデル生成AI 画像認識人工知能 NTTグループ東北大学

NTTが大規模言語モデルに文書を視覚情報から理解する「視覚読解技術」を確立　NTT版LLM 生成AI「tsuzumi」に採用

2024年4月15日 By ロボスタ編集部

NTTは、大規模言語モデル（LLM）によって文書を視覚情報も含めて理解する視覚読解技術を実現した。

実験において、文書画像を提示しながら、あらゆる質問への回答を行う人工知能（AI）の実現への可能性を示唆する結果が得られており、デジタルトランスフォーメーション（DX）におけるコア技術として期待されている。

なお、本成果はNTT版大規模言語モデル「tsuzumi」のアダプタ技術として採用・導入されており、本成果は、LLMベースの視覚文書読解に関する具体的な方法論を示した世界初の論文として、2024年2月20日～2月27日にカナダ・バンクーバーで開催されたAI分野における最高峰の国際会議である「The 38th Annual AAAI Conference on Artificial Intelligence」（AAAI2024、採択率23.8%）において発表された。また、2024年3月11日～3月15日に日本・神戸で開催された国内最大規模の自然言語処理に関する研究を扱う会議である「自然言語処理学会第30回年次大会」（NLP2024）で、優秀賞（投稿論文中上位2%）を受賞した。

1：「視覚読解技術」とは

テキストベース読解と視覚読解の比較

我々が扱う文書はテキストや視覚要素（アイコンや図表など）を含み、多様な種類・形式が存在する。こうした実世界の文書を読解し理解する技術の実現は、AI分野における重要課題の一つである。一方で、LLMを始めとする現在のAIは、人間の読解能力を超えるなど大きく発展してきたが、文書中のテキスト情報しか理解できない限界があった。

この問題に対して、NTTではヒトの情報理解と同様に、文書を視覚情報から理解する技術として、「視覚読解技術」（文書を画像として捉え、視覚情報から理解し読解を行う技術）を提唱し、本技術の実現をめざして研究開発を進めている。

2：研究の課題

これまでの視覚読解技術は任意のタスク（例えば、請求書に関する情報抽出タスク）に対して対応することができず、目的のタスクごとに一定数のサンプルを用意して学習を行わない限り、所望のタスクで高い性能を出すことは難しい状況だった。

そこで本研究は、汎用な言語理解・生成能力を持つLLMをベースとして、任意のタスク用の学習を行わなくても応答できる、高い指示遂行能力を視覚読解モデルで実現することを目指した。具体的には、テキスト情報しか理解することができないLLMに対して、どのように文書画像に含まれる図表などの視覚情報をテキストと融合させてLLMに理解させるか、が本研究で解決を目指した課題となる。

3：研究の成果

LLMの推論能力を活用した視覚読解技術の概要

LLMの高い推論能力を活用し、視覚的に文書を理解する新たな視覚読解技術を世界に先駆けて開発した。

この実現に向けて本研究では、「1：文書画像をLLMの表現に変換可能な新たなアダプタ技術（画像エンコーダとLLMの橋渡しとなるモジュール）の開発」および、「2：多様な視覚読解タスクを対象とした指示遂行データセットの構築」を行った。これにより、LLMが文書の内容を視覚と言語を融合して理解し、任意のタスクを追加学習なしで遂行することが可能となる。

例えば、文書を検索・スクリーニングを行う業務、専門文献の読書補助などオフィス作業や日常生活におけるヒトの認知が必要なシーンにおいて、LLMを活用することができる。

4：研究のポイント

文書画像をLLMに解釈できる形に変換を行うアダプタ技術の詳細

1：画像中の文字および位置（座標）、画像の特徴を定量的に表現した画像情報、指示テキストを同一空間上にマッピングし、LLMに繋ぐ新たなアダプタ技術」を開発した。

学習時には、モデルパラメータの大部分を占めるLLMや画像エンコーダのパラメータを固定にし、アダプタのみを学習対象にすることで、パラメータ効率の良い学習を実現している。

本技術のアダプタでは、Transformer（入力シーケンスを出力シーケンスに変換または変更するニューラルネットワークアーキテクチャの一種）構造を採用し、学習可能なトークンに対して、相互注意では画像特徴との関係性を捉え、自己注意では指示テキストや画像中の文字および位置情報との関係性を捉える。これにより、文書画像のマルチモーダルな特徴をLLMにとって解釈しやすい情報として獲得することができる。

視覚読解における未学習タスクでのベンチマーク結果

2：文書画像を知識源とし、質問応答、情報抽出、文書分類を始めとする12種類の視覚読解タスクを、ヒトの指示を基に遂行する世界最大規模の指示遂行データセットを構築。

これらの貢献により、未学習のタスクにおいても、目的タスクで学習を行なった教師あり学習モデルの性能やGPT-4（テキスト入力のみ）、画像を理解できるLLMであるLLaVAなどに匹敵または凌駕する高い性能を達成した。