专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

ICML 2024 | DPO是否比PPO更适合LLM?清华吴翼团队最新揭秘

PaperWeekly  · 公众号  · 科研  · 2024-07-25 14:19

文章预览

©作者 |  吴翼 单位 |  清华大学助理教授 来源 |  机器之心 如何让大模型更好的遵从人类指令和意图?如何让大模型有更好的推理能力?如何让大模型避免幻觉?能否解决这些问题,是让大模型真正广泛可用,甚至实现超级智能(Super Intelligence)最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点,大模型对齐技术(Alignment)所要攻克的难题。 对齐技术中,最重要的算法框架就是根据人类反馈的强化学习(RLHF, Reinforcement Learning from Human Feedback)。RLHF 根据人类对大模型输出的偏好反馈,来学习基于人类反馈的奖励函数(Reward Model),并进一步对大模型进行强化学习训练,让大模型在反复迭代中学会辨别回复的好坏,并实现模型能力提升。 目前世界上最强的语言模型,比如 OpenAI 的 GPT 模型和 Anthropic 的 Claude 模型,都极其强 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览