前OpenAI联创、ChatGPT负责人John Schulman：大模型的升级秘诀

OneFlow · 公众号 · · 2024-08-08 18:01

文章预览

8月6日，OpenAI联合创始人、ChatGPT架构师John Schulman宣布离职，将加入另一家由前OpenAI员工Dario Amodei创办的大模型公司Anthropic。近9年前，Schulman在研究生毕业后加入OpenAI，成为创始团队的一员。他是深度强化学习的早期先驱之一，很多人不知道的是，他也是ChatGPT项目的负责人，是他领导了ChatGPT的秘密武器RLHF（人类反馈的强化学习）技术的研究与开发。在负责ChatGPT之前，他发明了广泛应用的近端策略优化算法（PPO），这实际上也是ChatGPT训练的一部分。他还发明了信任区域策略优化（TRPO），对OpenAI Gym、OpenAI Benchmark以及现代深度学习时代的许多元学习算法作出了重要贡献。值得一提的是，其博士导师是强化学习领域开拓者、加州大学伯克利分校教授Pieter Abbeel。 Schulman兼具研究视野，又有丰富的工程实践基础。从硕士阶段开始，他就开始研究强化 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

上观新闻 · 上海市政府决定：聘任3位同志为市政府参事

15 小时前

上观新闻 · 上海市政府决定：聘任3位同志为市政府参事

15 小时前

舰大官人 · 震惊啊，自己买军服-20250117183416

18 小时前

视觉志 · 刘强东：回家撒钱，3000万

昨天

beebee星球 · 不吐不快，酒后和大家说几句实话

3 天前

舰大官人 · 虽然说保险就是“对自己的看跌期权 put option”，但在本-20250115183609

2 天前

生信技能树 · 你的肿瘤单细胞肿瘤数据能区分这7种巨噬细胞吧

6 月前

管理智慧 · 数智化时代，给新组织的6条建议

5 月前

廖信忠 · 中国最后的铁路市集

2 月前