OpenAI联创：RLHF是超级智能的秘密武器

海外独角兽 · 公众号 · 科技公司 · 2024-05-30 20:47

文章预览

编译：Lavida 编辑：Siqi 排版：Doro 本文编译自 Dwarkesh Patel 对 John Schulman 的访谈。John Schulman 是 OpenAI 联合创始人、研究科学家，他领导了 ChatGPT 项目，在 OpenAI 内部长期负责模型 post-traning ，在 Ilya 和 Jan Leike 离开 OpenAI 后，下一代模型安全性风险相关的研究也会由 John Schulman 来接替负责。John Schulman 的研究主要集中在 RLHF 相关领域，他曾提出 RLHF 是 ChatGPT 成功的秘密武器。本次访谈中，John Schulman 主要分享了自己关于模型训练的最新认知。John 认为 post-training 是模型变得越来越聪明的重要原因，GPT-4 的 Elo 分数之所以能比第一代 GPT 高出 100 分也和 post-traning 的提升相关，在未来的模型训练中，post-traning 需要被分配到更多的计算资源。对于下一阶段模型训练的问题上。John Schulman 认为模型能力的提升应该集中在如何处理连续任务上，今天的模型还只能解 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博