强化学习正在引领AI跨越LLM之谷 | 笔记

未尽研究 · 公众号 · · 2024-09-17 22:46

文章预览

OpenAI的研究科学家布朗（Noam Brown），这两天在他的自我介绍中，加上了一条：OpanAI o1的共同缔造者。他在OpenAI主要研究多步推理、自我对弈和多智能体人工智能。之前布朗已经取得成就可谓辉煌：他和FAIR（Meta）的团队开发了CICERO，这是第一个在策略游戏《外交》中达到人类水平表现的人工智能。在卡内基梅隆大学期间，他与导师一起开发了Libratus和Pluribus，在人机对抗赛中击败了顶级人类扑克职业选手。他早期的职业，其实是金融交易员。布朗在美联储的国际金融市场部门工作，研究金融市场的算法交易，之前是华尔街上一名从事算法交易的工程师。 2012年，深度学习开始进入黄金时代，他进入卡内基梅隆大学计算机系，硕士和博士的专业分别是机器人和计算机科学。2017年，布朗在Deepmind实习，参与了AlphaGO Zero项目。早在大模型兴起之前，DeepMin ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博