rinnaが日英バイリンガル大規模言語モデルをオープンソースで公開 4種類のモデル公開で活用の幅を拡大

rinnaは、日本語と英語のバイリンガル大規模言語モデルを開発した。

対話形式のテキストを生成する対話言語モデル、テキストと画像のマルチモーダル入力を実現する画像対話モデル、長いテキストの入力を可能とする長期コンテキスト言語モデルも開発。いずれのモデルも商用利用可能なライセンスでオープンソースとして公開した。

rinnaのオープンソース活動

OpenAI社から提案された大規模言語モデル (Large Language Model; LLM) であるGPT (Generative Pre-trained Transformer) シリーズは、大量のデータから高速かつ高精度に大規模モデルが学習できるTransformerとテキストデータから自己教師あり学習を可能とする枠組みを採用したモデル構造により、テキスト生成において幾つものブレイクスルーをもたらしてきた。

2023年に提案されたGPT-4は、テキストのみでなく画像も入力できる大規模マルチモーダルモデル (Large Multimodal Model; LMM) であり、入力テキストと画像の情報をもとにしたテキスト生成を実現した。

LLMやLMMなどの大規模基盤モデル (Large Foundation Model; LFM) の学習には大量の計算資源が必要となり、誰もが気軽に学習を実行できるわけではないが、その一方で多くの研究機関や企業が事前学習したLFMをオープンソースで公開することでAIの民主化に貢献しているのが現状だがオープンソースLFMの学習データの大部分は英語データであり、日本語データの割合は少数で日本語の性能や選択肢は英語と比べると十分ではない。

rinnaは2021年4月から、誰もが気軽にAIを使える世界を目指す「AIの民主化」という考え方に共感し、研究成果を積極的に発表・公開してきた。

これまでに日本語に特化したGPT・BERT・HuBERT・CLIP・Stable Diffusionなどテキスト・音声・画像に関する事前学習済み基盤モデルを公開することで日本語LFMの選択肢を提供。2023年5月には、ChatGPTの学習にも用いられている人間の評価を利用した強化学習 (Reinforcement Learning from Human Feedback; RLHF) に成功し、日本語に特化した36億パラメータを持つRLHF GPTも公開した。これまでにHugging Faceで公開してきたrinnaのモデルダウンロード数は累計360万を超え、多くの研究・開発者に利用されている。

そしてこの度、約40億パラメータを持つ日本語と英語のバイリンガルGPTを開発。さらに、汎用言語モデルをベースとして、入力テキストの上限を拡大するように追加学習した長期コンテキスト言語モデル、対話形式でユーザーの指示を遂行するように追加学習 (Supervised Fine-Tuning; SFT) した対話言語モデル、テキストと画像のマルチモーダル入力を可能とするように追加学習した画像対話モデルの開発にも成功。

rinnaは、これら4種類の事前学習モデルを、商用利用可能なライセンスでオープンソースとして公開することで、日本のAI研究・開発の更なる発展につながることを願っていると述べている。

・汎用言語モデル (rinna/bilingual-gpt-neox-4b):
https://huggingface.co/rinna/bilingual-gpt-neox-4b

・長期コンテキストモデル (rinna/bilingual-gpt-neox-4b-8k):
https://huggingface.co/rinna/bilingual-gpt-neox-4b-8k

・対話言語モデル (rinna/bilingual-gpt-neox-4b-instruction-sft):
https://huggingface.co/rinna/bilingual-gpt-neox-4b-instruction-sft
・画像対話モデル (rinna/bilingual-gpt-neox-4b-minigpt4):

https://huggingface.co/rinna/bilingual-gpt-neox-4b-minigpt4


rinnaの日英バイリンガル大規模言語モデルの特徴

・汎用言語モデル(rinna/bilingual-gpt-neox-4b)は、約40億パラメータを持つ日本語と英語のバイリンガルGPTであり、日本語と英語のテキスト生成ができます。学習データには、オープンデータセットを用いており、透明性が高いモデルです。学習データの割合は英語56%、日本語33%、ソースコード11%となっている。

・長期コンテキストモデル(rinna/bilingual-gpt-neox-4b-8k)は、汎用言語モデルに対して長いテキストの入力を可能とするための追加学習を行っており、入力トークンの上限を2048から8192トークンまで拡大している。

・対話言語モデル(rinna/bilingual-gpt-neox-4b-instruction-sftは、汎用言語モデルに対して対話形式でユーザの指示に応えているデータを用いてSFT追加学習をしており、対話形式のテキスト生成を行うことができる。

・画像対話モデル(rinna/bilingual-gpt-neox-4b-minigpt4)は、汎用言語モデルとBLIP-2(https://github.com/salesforce/LAVIS/tree/main/projects/blip2)を組み合わせた追加学習により、テキストと画像のマルチモーダル入力からのテキスト生成を実現している。

・事前学習済みのモデルは、Hugging Faceに商用利用可能なMITライセンスで公開されている。オープンソースモデルであるため、ダウンロードすればローカル環境で実行することができる。

・利用目的に合わせて追加学習することにより、モデルをカスタマイズすることが可能。日英バイリンガルモデルであるため、追加学習にはデータが充実している英語のデータセットを利用することもできる。

・40億パラメータは、LLMとしては少量のパラメータ数であるため、推論や追加学習(QLoRA等)を一般コンシューマー向けGPUでも実行することがでる。

・日本語と英語のLLMベンチマークテストにより、これまでにrinnaが公開した日本語特化モデルの能力を維持しながら英語の能力を獲得できたことが示された。


対話言語モデルの出力例(緑がユーザー入力、白がモデル出力)

画像対話モデルの出力例(画像とオレンジがユーザー入力、グレーがモデル出力)


今後の展開

ChatGPTの登場によりテキスト生成の技術は気軽に利用できるようになったが、目的のタスクを実現するテキスト生成・低コスト化・セキュリティ強化等のためには、利用目的に則したモデルの開発が重要となる。

これまでにrinnaでは、基盤モデルを用いた様々な研究・実験により、いくつもの独自モデルを開発してきた。その知見を活かし、今回開発したモデルの大規模化や、画像入力のマルチモーダルモデルだけでなく音声を入力とするマルチモーダルモデルについての研究・開発を行っていくとしており、さらに、AIの社会実装を進めるためにパートナーを広く募り、rinnaの技術を活用するとのことだ。

関連サイト
rinna株式会社

ABOUT THE AUTHOR / 

ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

PR

連載・コラム