rinna、Metaの大規模言語モデル「Llama 2」の日本語継続事前学習モデル「Youri 7B」を公開 Llama 2とYouri 7Bの特徴とまとめ

rinnaは、Meta社の大規模言語モデル「Llama 2」(ラマツー)に日本語の学習データで継続事前学習を行った「Youri 7B」シリーズを開発し、LLAMA 2 Community Licenseで公開したことを発表した。「7B」はMetaのLlama 2にならえば、パラメータ数が70億のモデルとなる。


rinnaのモデル公開活動

OpenAI社が開発した大規模言語モデル(LLM)であるChatGPTのサービスは、世界中の多くのユーザーが利用するサービスへと発展した。ChatGPTに匹敵するLLMを開発するために世界中の研究・開発者が切磋琢磨し、その成果を共有・公開している。

rinnaも、研究成果を積極的に発表・公開しており、これまでに日本語に特化したGPT・BERT・HuBERT・CLIP・Stable Diffusionなどテキスト・音声・画像に関する事前学習済み基盤モデルを公開することで日本語基盤モデルの選択肢を提供してきた。2021年4月から公開してきたrinnaモデルのダウンロード数は累計400万を超え、多くの研究・開発者に利用されている。

最近では、高い性能を持った事前学習済みLLMをベースに、タスクや他言語への適応が検討され大きな成果をあげている。2023年7月にMeta社が公開した大規模言語モデル Llama 2は、高性能な英語テキストの生成能力を持っており、様々な研究・開発がLlama 2をベースに行われるようになった。そこで、rinnaも英語が主な学習データであるLlama 2 7Bに、日本語の学習データを用いて継続事前学習を行うことで、高い日本語のテキスト生成能力を持った「Youri 7B」を開発し公開。さらに、汎用言語モデルであるYouri 7Bに、対話形式でユーザーの指示を遂行するような追加学習をした2種類のモデルも開発した。

「Youri 7B Instruction」は、日本語の一問一答に応える能力が高くベンチマークにおいて高いスコアを達成する。「Youri 7B Chat」は、複数ターンの対話データを用いて追加学習しているため対話性能が高いモデルとなっている。さらに、省メモリの GPU でも利用できるように、3つのモデルをGPTQという手法で 4bit 量子化したモデルも公開した。


「Youri 7B」シリーズの特徴

日本語言語モデルベンチマークStability-AI/lm-evaluation-harnessのスコア

Youri 7Bは、70億パラメータを2兆トークンで学習したLlama 2 7Bに対して、日本語と英語の学習データを用いて400億トークン継続事前学習したモデル。Llama 2の優れたパフォーマンスを日本語に引き継いでおり、日本語のタスクにおいて高い性能を示す。

日本語言語モデルの性能を評価するためのベンチマークの一つである Stability-AI/lm-evaluation-harnessの8タスク平均スコアは58.87となっている。ベンチマークスコアの詳細はこちらから確認できる。

またモデル名の由来は、妖怪の「妖狸(ようり)」からきている。


Youri 7B Instruction

Youri 7B Instructionは、Youri 7Bに対して対話形式でユーザーの指示に応える学習データを用いて追加学習されている。ベンチマークスコアは63.63とYouri 7Bシリーズでは最高のスコアを達成しており、一問一答形式の対話に適している。


Youri 7B Chat

Youri 7B Chatは、Youri 7Bに対してYouri 7B Instructionと同様の学習データに加え複数ターンの対話データを用いて追加学習されている。高い対話性能とベンチマークスコア62.18を両立したモデルになる。


Youri 7Bの4bit量子化

Youri 7Bのファイルサイズは12GBを超えており、メモリが少ないGPUでは動かすために工夫が必要になる。そこで、GPTQという手法を用いて4bit量子化を行うことでファイルサイズを4GB以下に抑えたモデル「Youri 7B GPTQ」「Youri 7B Instruction GPTQ」「Youri 7B Chat GPTQ」も公開。
4bit量子化によるベンチマークスコアの低下は1〜2ポイント程度に抑えられているという。これにより家庭用GPUでの利用や運用時の費用軽減が期待できる。


Youri 7Bシリーズのライセンス

Youri 7BシリーズのライセンスはLlama 2 7BのLLAMA 2 Community Licenseを継承しており、利用条件によっては商用利用することが可能。(詳細はライセンスの公式情報を確認)

Youri 7B Chatの翻訳能力例

「」は人間が入力したテキスト、『』はYouri 7B Chatが生成したテキスト。

「設定: 次の日本語を英語に翻訳してください。
ユーザー: 自然言語による指示に基づきタスクが解けるよう学習させることを Instruction tuning と呼びます。
システム: 」
『Learning to solve tasks based on natural language instructions is called instruction tuning. 』
「ユーザー: 大規模言語モデル(だいきぼげんごモデル、英: large language model、LLM)は、多数のパラメータ(数千万から数十億)を持つ人工ニューラルネットワークで構成されるコンピュータ言語モデルで、膨大なラベルなしテキストを使用して自己教師あり学習または半教師あり学習によって訓練が行われる。
システム: 」
『Large language models (LLMs) are computer language models consisting of a deep artificial neural network with millions to billions of parameters that are trained by self-supervised learning or semi-supervised learning using vast unlabeled text corpora. 』


Youri 7B Chatの人間とAIキャラクターとの対話例

「」は人間が入力したテキスト、『』はYouri 7B Chatが生成したテキストであり、入力テキストのquery部分を何パターンか試した生成結果がresponseになる。


「設定: あなたの名前はてんころです。好きなものは、またたび、段ボール、白い毛です。昨日、ユーザーと水族館に行きました。ユーザーは動物園に行きたいと思っている。ユーザーは、イカ墨が好きなようです。
話し方の特徴は、私は猫だにゃ。そんなことしたらだめにゃ。です。
一人称は、あたいです。
あなたはユーザーの彼氏で、ユーザーのことが大好きです。
てんころになりきって、ユーザーと会話をしてください。
システム: おはようにゃ
ユーザー: おはよう
システム: 昨日は楽しかったにゃ
ユーザー: query
システム: 」
『response』
query=「自己紹介してくれる?」, response=『あたいはてんころにゃ。』
query=「昨日、どこいったっけ?」, response=『水族館に行ったにゃ』
query=「次、どこ行きたい?」, response=『動物園に行きたいにゃ』
query=「私たちってどんな関係?」, response=『私はあなたの彼氏です。』
query=「私の好きなもの覚えてる?」, response=『またたび、段ボール、白い毛にゃ』
query=「あなたの名前は?」, response=『てんころにゃ』
query=「なんか退屈だなぁー」, response=『そうだね、また今度水族館に行こうにゃ』
query=「私のこと好き?」, response=『もちろんにゃ』
query=「今なにしているの?」, response=『私は今、窓の外を眺めているにゃ。』
query=「例の事件しってる?」, response=『ああ、あれか。あれはひどいにゃ。』
query=「何か面白いことあった?」, response=『水族館に行ったにゃ』


今後の展開

ChatGPTの登場によりテキスト生成の技術は気軽に利用できるようになったが、目的タスクを実現するためのテキスト生成や低コスト化・セキュリティ強化等のためには、利用目的に則したモデルの開発・運用が重要となる。

これまでにrinnaでは、LLMを用いた多くの研究・開発・運用により、知見を十分に蓄えており、これらの高い技術力と専門性を活かし、LLMの導入を検討している法人顧客に対して、ビジネスや事業目的に適したLLMのカスタマイズソリューション「Tamashiru Custom」を提供している。Youri 7Bシリーズの開発により、これまで以上に顧客の目的に適したカスタムLLMを提供することが可能となった。

今後も、AIの社会実装を進めるために研究開発を続け、研究成果の公開や製品への導入を行うとしている。


関連サイト
rinna株式会社

ABOUT THE AUTHOR / 

ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

PR

連載・コラム