专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
今天看啥  ›  专栏  ›  数据派THU

ICML 2024 Oral | DPO是否比PPO更适合LLM,清华吴翼团队最新揭秘

数据派THU  · 公众号  · 大数据  · 2024-08-09 17:00
    

文章预览

来源:机器之心 本文 约2500字 ,建议阅读 9 分钟 如何让大模型更好的遵从人类指令和意图?如何让大模型有更好的推理能力?如何让大模型避免幻觉? 吴翼,清华大学交叉信息院助理教授,曾任 OpenAI 全职研究员,研究领域为强化学习,大模型对齐,人机交互,机器人学习等。2019 年在美国加州大学伯克利分校获得博士学位,师从 Stuart Russell 教授;2014 年本科毕业于清华大学交叉信息院(姚班)。其代表作包括:NIPS2016 最佳论文,Value Iteration Network;多智能体深度强化学习领域最高引用论文,MADDPG 算法;OpenAI hide-and-seek 项目等。 如何让大模型更好的遵从人类指令和意图?如何让大模型有更好的推理能力?如何让大模型避免幻觉?能否解决这些问题,是让大模型真正广泛可用,甚至实现超级智能(Super Intelligence)最为关键的技术挑战。这些最困难 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章