NTT【世界初】AIモデルの再学習に有効な「学習転移」を発表 「tsuzumi」など大規模基盤モデルの更新時に過去の学習過程を再利用

日本電信電話株式会社(NTT)は、深層学習において過去の学習過程をモデル間で再利用する全く新たな仕組みとして「学習転移」技術を実現した。

基盤のAIモデル(下図の赤文字A)に対して追加学習(チューニング)や転移学習を行って(下図のB)、カスタマイズしたAIモデルを生成した場合(C)、後日、基盤のAIモデルに変更やアップデートが行われた際(D)、従来は最新の基盤モデル(E)に対して再度、追加学習(チューニング)や転移学習を行って(F)、カスタマイズしたAIモデルを生成し直す(G)必要があった。この作業を効率化し、コストを削減することが、今回の技術の目的となる。


今回発表の技術を活用すると、ニューラルネットワークのパラメータ空間における高い対称性を活用して、「過去の学習過程のパラメータ列を適切に変換」することによって、新たなモデルの学習結果を短時間・低コストで求めることができる、というもの。


「生成AI」など大規模な基盤モデルを用途毎に追加学習(チューニング)して利用する場合にも、基盤モデルの定期的な更新の度に、それに伴って「再チューニング」するコストを大幅に削減でき、生成AIの運用を容易にしたり、適用する領域を拡大したり、再チューニングの演算に伴う消費電力を削減したり、等に貢献することが期待できる。


なお、この成果は2024年5月7日から11日まで、オーストリア・ウイーンで開催される機械学習分野における最難関の国際会議「International Conference on Learning Representations 2024」 (ICLR 2024)で発表される。

この発表に先がけて、報道関係者向けの説明会が行われ、NTTコンピュータ&データサイエンス研究所 革新的コンピューティングアーキテクチャ研究プロジェクト 主幹研究員の竹内 亨氏(冒頭の画像の右下)と、同プロジェクトの研究員の千々和 大輝氏(冒頭の画像の右上)が登壇した。


発表のポイント
・深層学習において、過去の学習過程をモデル間で再利用する全く新たな仕組みとして「学習転移」技術を実現した。
・この技術を使うと、深層学習におけるパラメータ空間の高い対称性を活用し、実際に学習することなく、低コストな変換により数秒~数分程度で一定の精度でモデルの再作成を実現できる。そのため、モデルの再学習コストを抜本的に削減できることを示した。
・これにより、NTTが研究開発を進める大規模言語モデル(LLM) 「tsuzumi」をはじめとした多様な基盤モデルの運用コスト削減し、消費電力の削減や、多数のAIで議論することで多様な解の創出をめざした「AIコンステレーション」の構想を具現化するなど、次世代の AI技術開発に貢献する。


生成AIなど大規模な基盤モデルの更新にかかる膨大なコストが課題に

近年、生成AIとして多様かつ大規模な基盤モデルが利用されているが、実用上、各企業や組織内の独自の要件に対応するために、個々のデータセットでの追加学習により基盤モデルをチューニングして活用することが一般的となっている。しかし、このチューニングによって生成された個々にカスタマイズされたモデルは、基盤モデルの更新や異なる基盤モデルへの変更が必要となった際には、再学習が必要となる。基盤モデルが膨大だと、この作業にも多大な計算コストが生じるため、今後ますます大きな課題となることが予想される。

例えば、基礎性能の改善や著作権・プライバシー問題など脆弱性への対応により、基盤モデル自体が更新されると、それをチューニングして得られていたモデルすべてに対して、再度チューニングを実施する必要がある。また、市中で多様な基盤モデルが利用可能となってきているが、性能向上やコスト削減のために基盤モデルを変更する際には、移行先の基盤モデルで再度チューニングを行う必要がある。
生成AIを活用していく上で、これらチューニングコストは無視できないものであり、将来の生成AIの普及に対しても大きな障壁となることが予想される。


ニューロンの入れ替えに関する対称性「置換変換」を活用した「学習転移」

一般に深層学習では、与えられた訓練用のデータセットに対して、ニューラルネットワークモデルのパラメータを逐次的に最適化することで学習が行われる。学習中のパラメータの変化に関する履歴はモデルの学習過程と呼ばれ、学習の初期値やランダム性に大きく影響されることが知られている。一方で、初期値やランダム性の異なるモデル間の学習過程がどのように相違・類似しているかは解明されておらず、活用されてこなかったという。


「置換変換」とは

NTTでは、ニューラルネットワークのパラメータ空間にある高い対称性に着目し、とくに「置換変換」と呼ばれるニューロンの入れ替えに関する対称性(図1)の下で、異なるモデル間の学習過程同士を、近似的に同一視できることを発見した。

図1. 置換変換による対称性


「学習転移」技術を世界で初めて提唱

この発見に基づき、過去の学習過程を適切な置換対称性(ニューロンの入れ替えによりパラメータが変わっても、全体の出力は変わらないという性質)によって変換することで、新たなモデルの学習過程として再利用できる「学習転移」技術を世界で初めて提唱し、それを実証した(図2)。

図2. 学習転移の概要 学習転移の最適化アルゴリズム(イメージ図)

「学習転移」では、高コストな学習を行うことなく、低コストな変換のみによって、一定の精度のモデルを達成することができる。学習転移した後で、さらに追加の学習を行うことで、目標精度に早く収束することも示した(図3)。

図3. 基盤モデル更新時の学習高速化


「学習転移」技術のポイント


1. 学習転移の定式化

学習転移は、2つのパラメータ初期値が与えられたときに、一方の初期値に対する学習過程(ソース)を変換したときにもう一方の初期値の学習過程(ターゲット)との距離を最小化するような「置換変換」を求める、最適化問題として定式化された。このように2つの学習過程間の変換を最適化するという枠組み自体が、この研究により、世界で初めて提案されたものになる。


2. 高速なアルゴリズムの導出

上記の最適化問題に現れるターゲットの学習過程は、そもそも学習転移によって求めたかったものであり、事前には未知であるため、そのままでは実際の計算機上で扱うことはできなかった。そこで、学習過程の各ステップが勾配で近似できるという仮定を置くことで、実際に計算機で扱える非線形最適化問題を導出した。また非線形性のために、そのままでは効率的に解くことができなかったが、学習過程の部分的な転移と線形最適化とを交互に行うことで、高速に解くことが可能となった。


3. 理論的分析

今回NTTは、2層ニューラルネットワークの数理モデルにおいて、ネットワークサイズが大きくなればなるほど、最適な置換変換が高い確率で存在し、ソースの初期学習過程を変換することでターゲットの初期学習過程にいくらでも近づけられることを証明した。この結果は「ニューラルネットワークが大規模になるほど、実際に学習転移が可能となる」ことを理論的に示している、としている。



今後の予定や展開

この成果は、深層学習における新たな学習手法の基礎理論を確立し、その応用として基盤モデル更新・変更時のチューニングコストを大幅に低減できる可能性を明らかしている。これにより、NTTが研究開発を進める大規模言語モデル(LLM) 「tsuzumi」をはじめとした多様な基盤モデルの運用コスト削減・環境負荷軽減が期待できる。


また、多数のAIで議論することで、多様な解の創出をめざした「AIコンステレーション」の構想具現化など、次世代のAI技術開発に貢献していくことも期待できる。



発表について:
この成果は、2024年5月7日~11日に開催される機械学習分野における最難関国際会議「ICLR2024」にて、下記のタイトル及び著者で発表される。
タイトル: Transferring Learning Trajectories of Neural Networks
著者: 千々和 大輝 (コンピュータ&データサイエンス研究所)
URL: https://openreview.net/forum?id=bWNJFD1l8M
(敬称略)

ABOUT THE AUTHOR / 

神崎 洋治

神崎洋治(こうざきようじ) TRISEC International,Inc.代表 「Pepperの衝撃! パーソナルロボットが変える社会とビジネス」(日経BP社)や「人工知能がよ~くわかる本」(秀和システム)の著者。 デジタルカメラ、ロボット、AI、インターネット、セキュリティなどに詳しいテクニカルライター兼コンサルタント。教員免許所有。PC周辺機器メーカーで商品企画、広告、販促、イベント等の責任者を担当。インターネット黎明期に独立してシリコンバレーに渡米。アスキー特派員として海外のベンチャー企業や新製品、各種イベントを取材。日経パソコンや日経ベストPC、月刊アスキー等で連載を執筆したほか、新聞等にも数多く寄稿。IT関連の著書多数(アマゾンの著者ページ)。

PR

連載・コラム