東京工業大学 学術国際情報センターの横田理央教授の研究チームと東北大学 大学院情報科学研究科の坂口慶祐准教授、富士通 人工知能研究所の白幡晃一シニアプロジェクトディレクター、理化学研究所のMohamed Wahibチームリーダー、名古屋大学 大学院工学研究科の西口浩司准教授、サイバーエージェント AI事業本部AI Labの佐々木翔大リサーチサイエンティスト、Kotoba Technologies Inc.の小島熙之CEOは、理化学研究所のスーパーコンピュータ「富岳」を用いて学習した日本語能力に優れた大規模言語モデル「Fugaku-LLM」を2024年5月10日に公開した。
概要
今回、深層学習フレームワークを「富岳」に移植してTransformerの性能を「富岳」上で最適化するとともに、並列分散学習手法を開発し適用することで、「富岳」を用いて大規模言語モデルの学習を行う際の演算速度を6倍(COOL Chips 27発表「Implementation of Batch Matrix Multiplication for Large Language Model Training on A64FX CPUs」と比較)に高速化した。さらに、「富岳」向けにTofuインターコネクトD上での集団通信の最適化を行うことにより、通信速度を3倍高速化(第193回HPC研究発表会発表「富岳上の大規模機械学習におけるAll-reduce通信の高速化」と比較)することに成功した。これにより「富岳」のCPUを用いて、現実的な時間内で大規模言語モデルを学習することが可能になった。
Fugaku-LLMは国内で多く開発されている70億パラメータより一般に高性能、かつ現在の計算機環境下で扱いやすい130億パラメータのモデルとなっている。今回の学習では、サイバーエージェントが収集した独自の日本語学習データと英語のデータなどを用いているため、透明性と安全性を確保しつつ日本語性能にも優れている。国産かつ独自のデータで学習を行っているオープンなモデルの中では日本語ベンチマークJapanese MT-Benchで最高性能を達成し、特に人文社会系のタスクでは高いベンチマーク性能を発揮する。
Fugaku-LLMは、GitHubやHugging Faceを通じ公開しており、ライセンスに従う限りにおいては、研究および商業目的での利用が可能。
今後、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、さらに効率的な学習方法が創出され、科学シミュレーションと生成AIの連携や、数千のAIによるバーチャルコミュニティの社会シミュレーションなど、次世代の革新的な研究やビジネスでの応用につながることが期待される。
背景
近年、米国を中心に大規模言語モデル(LLM)の開発が活発に行われ、研究開発、経済社会、安全保障などあらゆる場面において大きな変革が起きている。
米国以外の国々においても、自国でLLMを開発するために莫大な人的資源や計算資源を投入しており、日本においても、AI研究のための計算資源として、日本のスーパーコンピュータのフラッグシップシステムである「富岳」に寄せられる期待は大きく、「富岳」における大規模な分散並列計算を実施するための環境整備が求められていた。
そこで、東京工業大学、東北大学、富士通、理化学研究所は、2023年5月より大規模言語モデルの共同研究開発を開始し、2023年8月からは、名古屋大学、サイバーエージェント、Kotoba Technologiesが参加した。
研究成果
1:「富岳」における大規模言語モデル学習の計算性能を大幅に向上
本研究では、「富岳」を用いることで、大規模言語モデルを学習する際の演算速度を既存技術の6倍、通信速度を3倍に高速化することに成功した。演算高速化についてはTransformerの性能を「富岳」上で最適化するため、深層学習フレームワークMegatron-DeepSpeedを「富岳」へ移植、密行列積ライブラリのTransformer向け高速化を行った。通信高速化については3種類の並列化を組み合わせた「富岳」向け通信性能最適化とTofuインターコネクトD上での集団通信の高速化を行った。
通常、大規模言語モデルの学習にはGPUが用いられるが、大規模言語モデルの学習のために世界中でGPU不足が起きており、最新のGPUを大量に入手することは困難となっている。そのような中、GPUではなく富士通製の国産CPUを中央演算処理装置とした「富岳」を用いて大規模言語モデルを学習できたことは、日本の半導体技術の活用や、経済安全保障の観点からも重要な成果である。
また、今回の取り組みで得られた知見は「富岳」の後の次世代計算基盤の設計に活かされうるものであり、AI分野における日本の優位性確立に寄与していく。
2:透明性と安全性を担保し、使いやすく日本語性能に優れた130億パラメータの大規模言語モデル
2023年には国内の企業で多くの大規模言語モデルが開発されたが、その多くは70億パラメータのモデルとなっている。大規模言語モデルは一般にパラメータ数が増えるに従ってその性能も向上するため、今回開発した130億パラメータのFugaku-LLMは高性能なモデルと言える。国外ではさらに大規模なモデルも開発されているが、大規模な言語モデルでは、使用する際にも大規模な計算資源が必要になるため、あまりにもパラメータ数が大きいものは使用しにくい。2024年現在の計算機環境と照らし合わせ、Fugaku-LLMでは高性能かつバランスの取れた130億パラメータとした。
また、日本語が扱える多くのモデルは、国外で開発されたオープンなモデルに対してさらに日本語データを学習させる継続学習の方法を採っている。それに対し、今回開発したFugaku-LLMは一から独自のデータを用い学習を行っているため、学習の全学習工程を把握でき、透明性と安全性の観点から優れている。
「富岳」の13,824台の計算ノードを用いて、約4,000億トークンを学習したが、学習データの約60%が日本語コンテンツであり、その他英語、数学、コードと組み合わせて学習した。他言語での学習をベースに日本語を継続学習するのではなく、元から多くの情報を日本語で学習したFugaku-LLMは、Japanese MT-Benchで平均スコア5.5と、国産で独自のデータで学習を行っているオープンなモデルの中では最高性能を達成した。特に人文社会系のタスクでは9.18と高いベンチマーク性能を発揮しており、敬語など日本語の特徴を踏まえた自然な対話を行えることなどが期待される。
今後の展開
研究者やエンジニアが大規模言語モデルの開発に活用できるよう、今回の取り組みで得られた研究成果をGitHubやHugging Faceを通じ公開している。ライセンスで定めた条件下で、誰もが研究および商業目的での利用が可能である。さらに、富士通はFugaku-LLMを、富士通の先端技術を無償で試せる「Fujitsu Research Portal」を通じて2024年5月10日より提供開始した。
公開されたモデルを用い、多くの研究者や技術者が基盤モデルの改善や新たな応用研究に参画することで、効率的な学習方法や言語モデルが創出され、科学シミュレーションと生成AIの連携による科学研究サイクルの自動化のようにAI基盤モデルを科学研究に活用する「AI for Science」、数千を超すAIによるバーチャルコミュニティの社会シミュレーションなど、次世代の革新的な研究やビジネスの成果につながることが期待される。
オルツとStability AIが連携を発表 共同で音声・画像・映像分野で生成AIの新たなユースケースの創出を目指す
NTT【世界初】連合学習においてAIモデルに異常や悪意がある場合でも高精度に学習できるモメンタムスクリーニング技術手法を発表
NTT【世界初】AIモデルの再学習に有効な「学習転移」を発表 「tsuzumi」など大規模基盤モデルの更新時に過去の学習過程を再利用
【速報】NTT版 大規模言語モデル(LLM)「tsuzumi」(つづみ)の商用サービスを開始 2027年に1千億円の売上を目指す
楽天が日本語に最適化したオープンかつ高性能な大規模言語モデルを公開 楽天の公式「Hugging Face」リポジトリからDL可能
rinna、Metaの大規模言語モデル「Llama 2」の日本語継続事前学習モデル「Youri 7B」を公開 Llama 2とYouri 7Bの特徴とまとめ