专栏名称: 夕小瑶科技说
这里有自然语言处理、机器学习、算法的入门指导、科普与深度干货,有小夕的回忆与日常,还有最重要的:萌!气!
今天看啥  ›  专栏  ›  夕小瑶科技说

Andrej Karpathy后悔放弃语言模型,却搞了多年强化学习,称是研究生涯最大的错误

夕小瑶科技说  · 公众号  ·  · 2024-11-18 14:52

文章预览

 夕小瑶科技说 分享  来源 | 机器之心 「这是有史以来最大、最令人困惑的研究生涯错误,」Andrej Karpathy 感叹道。 上个周末,OpenAI 创始成员、研究科学家、原特斯拉前 AI 高级总监、AI 领域的大神 Andrej Karpathy 一直在后悔。后悔自己没有早点带领 OpenAI 开创大模型时代。 是怎么一回事?看起来 Karpathy 认为当年早已认识到自回归语言模型的强大潜力,但却在很长一段时间里「误入歧途」,随大溜一起搞强化学习。 2013 年的 Atari RL 论文被认为是深度强化学习的开山之作:一个通用学习算法就发现了 Breakout 和许多其他游戏的最佳策略,看起来,在很多任务上我们只需要对其进行足够的改进和扩展,就可以构建出强大的 AI 模型了。 我们也还记得,在 Karpathy 跳槽去到特斯拉一年后,2018 年 OpenAI 推出了 OpenAI Five,利用强化学习的方法在 Dota 2 游戏上开 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览