生成AIの誤出力の発生を発見可能に オルツがLLMハルシネーションの自動評価エンジンを開発

「ハルシネーション」とは、大規模言語モデル(LLM)がまるで幻覚を見ているかのように、正当性がなく、事実に基づかない虚偽の回答をしてしまう現象だ。

このようにLLMが誤った情報を出力することは、企業や個人にとって深刻な信頼問題を引き起こす可能性があるだけでなく、LLMの今後の応用にも大きな障壁となっている。

P.A.I.(パーソナル人工知能)をはじめ、AIクローン技術でつくり出すパーソナルAIの開発および実用化を行う株式会社オルツは、以前から独自の大規模言語モデルを開発・提供しており、この開発の経験を活かし、ハルシネーション問題を解決する研究開発を続け、2024年5月9日、大規模言語モデル(LLM)におけるハルシネーションをスコアリングする手法の開発に成功したことを発表した。



同社の開発した手法について

今回、同社は、ハルシネーションを解決する方法の一つとして、ハルシネーションが発生するか否かを判定し、その発生確率(ハルシネーション・スコア)を自動的に評価できる手法を独自に発明し、「ハルシネーション自動評価エンジン」を開発した。同エンジンは、JcommonsenseQAデータセットから作成した擬似評価セットにおいて72%の正解率でハルシネーションの判定を実現。オルツが独自に開発してきた軽量型大規模言語モデル「LHTM-OPT」だけではなく、GPT-3.5、Llama2など、様々なLLMのハルシネーションのスコアリングが可能になる。なお、同エンジンは、同社の「alt developer」のAPIサービスを通じて提供開始した。


一貫性を重視してハルシネーションの評価を行う

同エンジンは、同じ入力データに基づいて複数の生成プロセスを行い、これらの結果を比較する。このアプローチにより、生成された内容における不一致や矛盾を特定し、それに基づいて「ハルシネーション」、すなわち、学習データや事実に基づかない不正確な生成物が生じているかどうかを確率的に評価する。

■【動画】ハルシネーションスコア計測アプリケーション デモ動画


関連サイト
株式会社オルツ

ABOUT THE AUTHOR / 

ロボスタ編集部

ロボスタ編集部では、ロボット業界の最新ニュースや最新レポートなどをお届けします。是非ご注目ください。

PR

連載・コラム