← 用語集一覧に戻る
RLHF(アールエルエイチエフ:Reinforcement Learning from Human Feedback)
ソフト・AIRLHF(アールエルエイチエフ:Reinforcement Learning from Human Feedback)は、人間が「この回答は良い/悪い」と評価したデータをもとに、AIの出力を望ましい方向に調整する技術です。
ChatGPTが自然な会話を返せるようになった鍵もこの仕組み。
AIを人間の意図に沿わせる代表的な手法として、生成AI各社で広く使われています。
関連動画を見る