RLHF（アールエルエイチエフ：Reinforcement Learning from Human Feedback）

ソフト・AI

RLHF（アールエルエイチエフ：Reinforcement Learning from Human Feedback）は、人間が「この回答は良い／悪い」と評価したデータをもとに、AIの出力を望ましい方向に調整する技術です。 ChatGPTが自然な会話を返せるようになった鍵もこの仕組み。 AIを人間の意図に沿わせる代表的な手法として、生成AI各社で広く使われています。

RLHF（アールエルエイチエフ：Reinforcement Learning from Human Feedback）

関連用語