专栏名称: 信息平权
理性 客观 朴素
目录
相关文章推荐
设计先锋队  ·  ThePentagon,比利时 ·  23 小时前  
3系飞行员  ·  A320的偏航操纵 ·  昨天  
今天看啥  ›  专栏  ›  信息平权

竞赛白热化

信息平权  · 公众号  ·  · 2025-01-22 22:10
    

文章预览

今天最重磅的话,可能就是Anthropic CEO Dario说的 “2027年会看到模型在绝大多数领域超过人类”。 Sam Altman因为太多次“狼来了”信誉有点受损...但Dario的形象一直比较克制理性和真诚,他的话很多人会听。而Dario还提到另一件事:即将看到的变革, 就是 大规模使用强化学习 。不必区分RL和测试时计算,而应该是连续的过程,模型能够思考并反思自己的思维,并最终给出结果 。 这和最近DeepSeek-r1传达的信息貌似一致: 让模型在RL环境中自我探索,最终涌现出了所谓“啊哈”时刻,似乎具备了自我验证和反思能力。 以上说明,强化学习训练方式依然有巨大潜力,RL is so back...但 从Q-star传闻、到草莓、再到今天的r1,已经一年多了,RL这件事的重要性尤其是天花板一直有分歧。时至今日,全球的前沿实验室集体押注RL,甚至中美在这一点上几乎没有认知和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览