ICML 2024 Oral | DPO是否比PPO更适合LLM，清华吴翼团队最新揭秘

FightingCV · 公众号 · · 2024-07-22 15:00

文章预览

关注“ FightingCV ”公众号回复“ AI ”即可获得超100G人工智能的教程点击进入→ FightingCV交流群吴翼，清华大学交叉信息院助理教授，曾任 OpenAI 全职研究员，研究领域为强化学习，大模型对齐，人机交互，机器人学习等。2019 年在美国加州大学伯克利分校获得博士学位，师从 Stuart Russell 教授；2014 年本科毕业于清华大学交叉信息院（姚班）。其代表作包括：NIPS2016 最佳论文，Value Iteration Network；多智能体深度强化学习领域最高引用论文，MADDPG 算法；OpenAI hide-and-seek 项目等。如何让大模型更好的遵从人类指令和意图？如何让大模型有更好的推理能力？如何让大模型避免幻觉？能否解决这些问题，是让大模型真正广泛可用，甚至实现超级智能（Super Intelligence）最为关键的技术挑战。这些最困难的挑战也是吴翼团队长期以来的研究重点，大模型 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

时代财经APP · “疯狂小杨哥”及三只羊被起诉，涉产品销售者责任纠纷

昨天

时代财经APP · “疯狂小杨哥”及三只羊被起诉，涉产品销售者责任纠纷

昨天

石油地质学 · ESR|早侏罗有机质保存

2 天前

石油地质学 · ESR|早侏罗有机质保存

2 天前

数据何规 · Telegram交出数千个用户数据，隐私政策转变引发关注

2 天前

数据何规 · Telegram交出数千个用户数据，隐私政策转变引发关注

2 天前

逻辑挖掘社 · 共振反弹新题材！

2 天前

逻辑挖掘社 · 共振反弹新题材！

2 天前

金错刀 · 2025开年最大赢家，除了雷军还有他

2 天前

医学影像沙龙 · 颅脑常见病的MRI诊断...

5 月前

首席品牌观察 · “复出”的刘翔，赢麻了!

4 月前

泰度煤炭 · 【民生能源周泰团队】煤炭日报：2024年1-11月，印度煤炭总产量（包括褐煤）累计为9.83亿吨，同比增长7.5%

3 周前