rinnaが日本語LLM「Llama 3 Youko」を公開 継続事前学習と指示学習で使いやすく高性能な大規模言語モデルを実現

rinnaは、Metaが公開した「Llama 3」に対して日本語データで追加学習と指示学習を行った「Llama 3 Youko」シリーズを開発し、Meta Llama 3 Community Licenseで公開した。

rinnaのモデル公開活動

最近のAI技術は、世界中の研究・開発者が切磋琢磨し、成果を共有・公開することで劇的に進化を遂げている。Microsoft、Google、Apple、Meta、NVIDIAなどのビッグ・テックも高いテキスト生成能力を持った大規模言語モデル(LLM)を、利用しやすいライセンスで盛んに公開している。
しかし、これらのモデルは英語が学習データの大多数を占め、日本語のテキスト生成は可能であるものの、英語と比較すると十分な性能を発揮できない場合もある。

rinnaは、日本のAI技術の貢献のために、日本語のタスクに適したGPT・BERT・HuBERT・CLIP・Stable Diffusionなど、テキスト・音声・画像に関する事前学習済み基盤モデルを公開してきた。

2021年4月からHugging Faceに公開してきたrinnaのモデルは累計600万ダウンロード・1100Likesを超え、多くの研究・開発者に利用されている。2024年5月にはMeta社のLlama 3 8Bに対して日本語データで継続事前学習を行った「Llama 3 Youko 8B」を開発し、公開した。

今回より使いやすく高性能な日本語LLMを目指して、Llama 3 Youko 8Bに指示を遂行するように追加学習(指示学習)した「Llama 3 Youko 8B Instruct」と、Llama 8 70Bに対して日本語継続事前学習と指示学習した「Llama 3 Youko 70B」「Llama 3 Youko 70B Instruct」を開発し、公開した。

「Llama 3 Youko」シリーズの特徴

Llama 3 Youkoシリーズは、Llama 3 8Bと70Bに対して、日本語と英語の学習データで継続事前学習と指示学習をしたモデル (Built with Meta Llama 3) 。また、各モデルを使用メモリ削減のために16bitから4bitに量子化したモデルも公開している。モデル名の由来は、妖怪の「妖狐」からきている。Meta Llama 3 Community License (https://llama.meta.com/llama3/license/) を継承しており、このライセンスに従い利用することが可能となっている。

Llama 3 Youko 8B Instructは、Llama 3 Youko 8Bに対してSFT・Chat Vector・DPOという手法を用いて指示学習したモデル。こちらのモデルは、Hugging FaceのSpaces (https://huggingface.co/spaces/rinna/llama-3-youko-8b-instruct) で気軽に試すことができる。Llama 3 Youko 70Bは、Llama 3 70Bに対して日本語と英語の学習データ50億トークンを用いて継続事前学習したモデル。またLlama 3 Youko 70B Instructは、Llama 3 Youko 70BにSFTという手法で指示学習したモデルとなっている。

Llama 3に関連するモデルの日本語LLMベンチマークJapanese LM Evaluation HarnessとJapanese MT-Benchの結果より、Llama 3 Youkoシリーズは高い性能であることが示された。


Llama 3関連モデルのJapanese LM Evaluation Harnessスコア

Llama 3関連モデルのJapanese MT-Benchスコア


今後の展開

ChatGPTの登場によりテキスト生成の技術は気軽に利用できるようになったが、目的のタスクを実現するためのテキスト生成や低コスト化・セキュリティ強化等のためには、利用目的に則したモデルの開発・運用が重要となる。これまでにrinnaでは、LLMを用いた多くの研究・開発・運用により、知見を十分に蓄えており、LLMの導入を検討している法人顧客様に対して、ビジネスや事業目的に適したLLMのカスタマイズソリューション「Tamashiru Custom」を提供している。本モデルの開発を通して、これまで以上に顧客の目的に適したカスタムLLMを提供することが可能となった。

今後も、AIの社会実装を進めるために研究開発を続け、研究成果の公開や製品への導入を行っていくとしている。

関連サイト
rinna株式会社

ABOUT THE AUTHOR / 

ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

PR

連載・コラム