文章预览
2024-11-05 17:27
本条微博链接
#大模型# 【让大模型在自博弈中不断进化,与人类偏好对齐,Deepmind联合芝加哥大学团队提出开放式RLHF框架eva】 #大语言模型# (Large Language Model,LLM)能自己对自己进行优化,与人类的偏好进行对齐吗? 此前,LLM 对齐的主流方法还是通过人类反馈 #强化学习# (Reinforcement Learning from Human Feedback,RLHF)对模型进行微调,但这种方法通常依赖于静态的人工提示分布。随着语言模型的能力不断增强
………………………………