今天看啥  ›  专栏  ›  Z Potentials

Z Tech|前DeepSeek科学家万字大揭秘,RL与MoE如何点燃大模型革命

Z Potentials  · 公众号  ·  · 2025-02-08 11:22
    

文章预览

图片来源:Unsplash Z Highlights 在 LoRA 中,每一个专家 都会被训练;而 ESFT 会优先 微调适合做某个任务的专家,其他专家不会被过拟合 ,因此相比 LoRA 会有更强的泛化能力 —— 让专业 的人做专业的事。 林纳斯说过, Talk is cheap, show me the code 。  DeepSeek 并不是第一个把 RL 引入大模型的,但 DeepSeek 能做出来是因为里面人的极客思维比较强,他们会看你代码的每一行 ,把事情做成 。不是像有些公司领导层 可能不太关心代码 ,梁老板是会看代码的。公司里每一个人的功底都非常强,他们对代码细节的掌控已经到了令人发指的地步。 冷启动的必要条件是模型要很大,只有很大才有充足的可能性去探索到 Aha Moment 这条路,因为模型也在 “ 找路 ” 。 根据 R1 的报告, 小模型做 RL 其实不如 SFT ,要用大模型去蒸馏它 ; 当模型大到一定程度就会有 Aha Moment ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览