ゆるサイバーダイン
← 用語集一覧に戻る

RLHFアールエルエイチエフ:Reinforcement Learning from Human Feedback

ソフト・AI
RLHF(アールエルエイチエフ:Reinforcement Learning from Human Feedback)は、人間が「この回答は良い/悪い」と評価したデータをもとに、AIの出力を望ましい方向に調整する技術です。 ChatGPTが自然な会話を返せるようになった鍵もこの仕組み。 AIを人間の意図に沿わせる代表的な手法として、生成AI各社で広く使われています。
関連動画を見る