专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

ICML 2024 | DPO是否比PPO更适合LLM？清华吴翼团队最新揭秘

PaperWeekly · 公众号 · 科研 · 2024-07-25 14:19

文章预览

©作者 | 吴翼单位 | 清华大学助理教授来源 | 机器之心如何让大模型更好的遵从人类指令和意图？如何让大模型有更好的推理能力？如何让大模型避免幻觉？能否解决这些问题，是让大模型真正广泛可用，甚至实现超级智能（Super Intelligence）最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点，大模型对齐技术（Alignment）所要攻克的难题。对齐技术中，最重要的算法框架就是根据人类反馈的强化学习（RLHF, Reinforcement Learning from Human Feedback）。RLHF 根据人类对大模型输出的偏好反馈，来学习基于人类反馈的奖励函数（Reward Model），并进一步对大模型进行强化学习训练，让大模型在反复迭代中学会辨别回复的好坏，并实现模型能力提升。目前世界上最强的语言模型，比如 OpenAI 的 GPT 模型和 Anthropic 的 Claude 模型，都极其强 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

实验万事屋 · 硕士就共一发了11.4分的SCI，这中山大学合作的文章，做了tsRNA的m7G修饰和翻译调控，终于看到了点新东西……

2 天前

国际科学 · 研究发现：和一味追求瘦相比，胖的稳定可能会更好！

2 天前

国际科学 · 研究发现：和一味追求瘦相比，胖的稳定可能会更好！

2 天前

科研大匠 · 国家杰青，任南京大学新院长！

5 天前

PaperWeekly · AAAI投稿结果可查！听说一轮拒了一半？

6 天前

实验万事屋 · 夏老师给你一对一课题指导，点亮你的学术之路~

1 周前