Z Tech｜前DeepSeek科学家万字大揭秘，RL与MoE如何点燃大模型革命

Z Potentials · 公众号 · · 2025-02-08 11:22

文章预览

图片来源：Unsplash Z Highlights 在 LoRA 中，每一个专家都会被训练；而 ESFT 会优先微调适合做某个任务的专家，其他专家不会被过拟合，因此相比 LoRA 会有更强的泛化能力 —— 让专业的人做专业的事。林纳斯说过， Talk is cheap, show me the code 。 DeepSeek 并不是第一个把 RL 引入大模型的，但 DeepSeek 能做出来是因为里面人的极客思维比较强，他们会看你代码的每一行，把事情做成。不是像有些公司领导层可能不太关心代码，梁老板是会看代码的。公司里每一个人的功底都非常强，他们对代码细节的掌控已经到了令人发指的地步。冷启动的必要条件是模型要很大，只有很大才有充足的可能性去探索到 Aha Moment 这条路，因为模型也在 “ 找路 ” 。根据 R1 的报告，小模型做 RL 其实不如 SFT ，要用大模型去蒸馏它；当模型大到一定程度就会有 Aha Moment ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

纯银V · 事实上，如果遇到一个看对眼的，往往会自觉删除其中几项对方不符合的-20250219215327

7 小时前

界面新闻 · 孕妇被行李箱砸中致早产，12306回应：在处理中

13 小时前

界面新闻 · 渣打香港将和香港电讯等成立合资公司，拟发行港元稳定币

2 天前

界面新闻 · 什么是“馒化修复”？它是真需求还是医美二次消费陷阱？

2 天前

半佛仙人 · 《美国队长4》给小学生看傻眼了

3 天前

句读 · Vol.3013 今天需要这句话

6 月前

绿色青浦 · 预防冬季呼吸道疾病，这些你做到了吗

1 月前