クルマでは大規模言語モデル(LLM)をどう使う？日英言語対応のマルチモーダル学習ライブラリ「Heron」と最大700億パラメータのLLM群を公開

2023.9.12 Tue 11:47

完全自動運転車両の開発・販売に取り組むTuringは、日本語を含む複数言語対応の大規模マルチモーダル学習ライブラリ「Heron（ヘロン）」と、それにより学習した最大700億パラメータのモデル群を公開した。
Turingでは高度な自動運転を実現するため、視覚情報によって得られた情報を人間のように言語化して高度な文脈を理解できるAIモデルを開発しており、今回公開したマルチモーダルモデルの学習技術と知見を活かし、完全自動運転にむけた開発を進めるとしている。

マルチモーダルとは

近年注目されている大規模言語モデル（LLM）は、大量のテキストデータを学習に用いることで、広範な知識の獲得や人間のような応答が可能になるが、一方で、一般的にその入力と出力はテキストに限定されるため、画像など視覚情報を用いたタスクには直接適用できないという課題がある。
例えば、「洗面台に横たわる猫」の写真に対し、「この画像の面白い点は何ですか？」という質問に答えるためには、画像と言語の双方を入力情報として扱えなければならない。このように、入力の形態（モーダル）が複数あることを「マルチモーダル」と呼ぶ。

マルチモーダルモデルの構造と応答例

今回公開したマルチモーダルモデルは、画像認識用に事前学習された「画像エンコーダ」部分と「大規模言語モデル」部分、およびその間をつなぐ「アダプタ」部分から構成されいる。橋渡しするアダプタ部分を学習した後、画像エンコーダおよび大規模言語モデルも追加学習することで、全体として画像に何が写っているかを正確に把握しつつ、豊富な言語モデルの知識を利用して回答することが可能になるとのこと。

マルチモーダル学習ライブラリ「Heron」

Turingが開発したマルチモーダル学習ライブラリ「Heron」は、画像認識モデルと大規模言語モデルを接続し、各モジュールを追加学習するための学習コード、日本語を含むデータセット、および学習済みのモデル群から構成されている。
Heronのモデル学習の最大の特長は、対話を含むデータセットを用いることにより、自然かつ適切な対話が可能となっている点にあるとしている。これまでのマルチモーダルモデルでは単純な回答しかできなかった複合的な画像-言語タスクにおいて、より詳細で自然な文章生成が可能となり、前の質問を含む文脈を理解して応答することができる。

公開した日本語マルチモーダルモデルの応答例

学習用ライブラリは、学習する大規模言語モデルを自由に変換可能であり、既存の言語モデルの性能を活かしつつ、今後開発・公開される新たな大規模言語モデルに対しても容易に対応できる柔軟性を有している。本格的にマルチモーダルモデルを学習するために系統的に学習できるように工夫されており、ソースコード部分については研究・商用利用が可能なApache License 2.0で公開した。
今回公開した学習済みのマルチモーダルモデル群は、Llama 2-chat、ELYZA-Llama 2、 Japanese StableLMなどをベースにHeronで追加学習を行い、マルチモーダル化させたもので、この学習したモデルをWebブラウザ上で試すことができるデモページもあわせて公開した。
さらに、注釈テキストやQ&Aからなる約15万枚の画像/テキストの英文データセットに対し、独自に日本語に翻訳した大規模な日本語の画像/テキスト情報のデータセットを作成・公開。このような対話形式のマルチモーダル学習向けの大規模な日本語データセットの公開は、世界で初となる。

LLMと完全自動運転の関係性

LLMは、大量のテキストデータから学習し、人間のような自然な文章を生成したり、質問に答えたりすることができるAIモデルである。Turingは、完全自動運転の実現には人間と同等以上にこの世界を理解した自動運転AIが必要であると考え、言語を通じて極めて高いレベルでこの世界を認知・理解している、LLMを含むマルチモーダルモデルの開発を進めている。

関連サイト
TURING株式会社

《ロボスタ編集部》

ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

ニュースレター配信中！無料会員登録をしていただくと、定期的に配信されるニュースレターを受け取ることができます。また会員限定の記事を閲覧することも可能になります。

rinnaが日英バイリンガル大規模言語モデルをオープンソースで公開　4種類のモデル公開で活用の幅を拡大 2023.8.1 Tue 15:50
rinnaは、日本語と英語のバイリンガル大規模言語モデルを開発し…

クルマでは大規模言語モデル(LLM)をどう使う？日英言語対応のマルチモーダル学習ライブラリ「Heron」と最大700億パラメータのLLM群を公開

マルチモーダルとは

マルチモーダル学習ライブラリ「Heron」

LLMと完全自動運転の関係性

関連タグ

ロボスタ編集部

特集

チャットボット

自動運転

大規模言語モデル

AI自動運転機能

生成AI

ジェネレーティブAI

大規模マルチモーダルモデル

【セミナー】自律搬送ロボット「カチャカプロ」が売れる理由～AMRシェア1位を支える設計思想と開発戦略

【セミナー】人機一体に聞く「人型重機とフィジカルAI」社会実装のリアル　～人を拡張するロボットの最前線～

神崎洋治の「ロボットの衝撃」

森山和道の「ロボットの見方」