最新の論文のなかで、話題になっているものを紹介します。
【事前学習に強化学習を組み込む「自己改善型」LLM開発】大規模言語モデル(LLM)の開発現場では、事前学習で獲得した膨大な知識を、ファインチューニングやアライメントと呼ばれる後工程で「安全」かつ「正確」に仕上げる手法が主流となっています。