专栏名称: FightingCV
一个专注于分享计算机视觉、多模态机器学习方向前沿论文,解答常见科研问题,分享好用科研工具的公众号。努力努力再努力,瑞思拜!
今天看啥  ›  专栏  ›  FightingCV

ICML 2024 Oral | DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘

FightingCV  · 公众号  ·  · 2024-07-22 15:00

文章预览

关注“ FightingCV ”公众号 回复“ AI ”即可获得超100G人工智能的 教程 点击进入→   FightingCV交流群 吴翼,清华大学交叉信息院助理教授,曾任 OpenAI 全职研究员,研究领域为强化学习,大模型对齐,人机交互,机器人学习等。2019 年在美国加州大学伯克利分校获得博士学位,师从  Stuart Russell  教授;2014 年本科毕业于清华大学交叉信息院(姚班)。其代表作包括:NIPS2016 最佳论文,Value Iteration Network;多智能体深度强化学习领域最高引用论文,MADDPG 算法;OpenAI hide-and-seek 项目等。 如何让大模型更好的遵从人类指令和意图?如何让大模型有更好的推理能力?如何让大模型避免幻觉?能否解决这些问题,是让大模型真正广泛可用,甚至实现超级智能(Super Intelligence)最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点,大模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览