竞赛白热化

信息平权 · 公众号 · · 2025-01-22 22:10

文章预览

今天最重磅的话，可能就是Anthropic CEO Dario说的 “2027年会看到模型在绝大多数领域超过人类”。 Sam Altman因为太多次“狼来了”信誉有点受损...但Dario的形象一直比较克制理性和真诚，他的话很多人会听。而Dario还提到另一件事：即将看到的变革，就是大规模使用强化学习。不必区分RL和测试时计算，而应该是连续的过程，模型能够思考并反思自己的思维，并最终给出结果。这和最近DeepSeek-r1传达的信息貌似一致：让模型在RL环境中自我探索，最终涌现出了所谓“啊哈”时刻，似乎具备了自我验证和反思能力。以上说明，强化学习训练方式依然有巨大潜力，RL is so back...但从Q-star传闻、到草莓、再到今天的r1，已经一年多了，RL这件事的重要性尤其是天花板一直有分歧。时至今日，全球的前沿实验室集体押注RL，甚至中美在这一点上几乎没有认知和 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博