今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

Qwen架构改造成Deepseek,再复现R1计划

机器学习算法与自然语言处理  · 公众号  ·  · 2025-02-15 00:00
    

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 来源 | 知乎 作者|孟繁续 Deepseek使用更低的成本追赶OpenAI的效果 关注Deepseek也有一年多了,当时Mixtral-8x7B模型刚出来,我写了一篇分析其MoE架构的文章。Deepseek不久后推出了他们第一版Deepseek MoE模型,他们的工作人员看到文章加了我的微信; Mixtral-8x7B 模型挖坑: https://zhuanlan.zhihu.com/p/674751021 在做Paiss的时候,我就将Deepseek MoE视为主流模型进行了实验对比; 在Deepseek V2出来后,MLA架构巧妙地设计吸引了我。启发我做出CLOVER这篇文章。MLA中存在一个absorb操作,能将Key Weight吸收到Query Weight中,Value Weight吸收到Outpu ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览