文章预览
Datawhale干货 作者: Shunyu yao,OpenAI 链接:https://ysymyth.github.io/The-Second-Half 来自:「深度学习自然语言处理」公众号润色 摘要 :我们正处于人工智能的中场。 数十年来,人工智能主要致力于开发新的训练方法和模型。这一策略成效显著:从国际象棋和围棋击败世界冠军,到在 SAT 和律师资格考试中超越大多数人类,再到在国际数学奥林匹克竞赛(IMO)和国际信息学奥林匹克竞赛(IOI)中获得金牌。在这些载入史册的里程碑背后——深蓝(DeepBlue)、阿尔法狗(AlphaGo)、GPT-4 以及一系列以“o”开头的模型——是人工智能方法的根本性创新:搜索、深度强化学习(RL)、扩展和推理。随着时间的推移,事情不断变得更好。 那么,现在有什么突然不同了呢? 用三个词来说:强化学习(RL)终于奏效了。更准确地说:强化学习终于实现了泛化。经过几
………………………………