DeepSeek憋了个大招，人类脑回路根本追不上

非凡油条 · 公众号 · · 2025-02-05 19:00

文章预览

春节期间大家体验了DeepSeek-R1（图1），从最开始的新鲜劲儿，到现在也感觉它有套路了。动不动“当”字开头写小作文，似乎也就三板斧。不过官方论文（图5知识星球里有）里藏着个更强的版本——DeepSeek-R1-Zero（图2）。这货有多离谱？简单说，传统AI训练像虎妈带娃：做对给糖，做错挨揍（专业术语叫“监督微调”）。但R1-Zero直接掀了这桌——“老子自学成才，人类别哔哔”。它玩的是纯强化学习，不靠人类标注数据，自己琢磨解题逻辑，甚至能搞出思维链自嗨一条龙：自我验证、反思、推理，活脱脱AI界的“闭关修炼”（图3）。最骚的是，论文说这是全球首次证明大模型不用人类教，也能觉醒推理能力。懂的都懂，这剧情和AlphaZero一毛一样。当年AlphaGo靠人类棋谱暴打李世石，已经很厉害了。结果进阶版AlphaZero直接删了人类教材，自己左 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

哈尔滨日报 · 这位出生于哈尔滨的“国医大师”逝世，享年97岁

昨天

新闻夜航 · 明天起，吃饭请调整一下！

2 天前

军情D7处 · 【10.6日午1时】黎巴嫩首都再遭钻地炸弹轰炸，以媒称伊朗革命卫队圣城旅指挥官卡尼将军受伤或阵亡；以军称发现拉德万部队地道；特朗普与马斯克同台演讲；

4 月前

海峡导报 · 厦门一双外三大名校“家族”集结！“嫡系”“旁系”，你分得清吗？

1 月前

当代广西 · 2025年广西公务员招考公告发布，明日报名！附职位表下载→

1 周前