专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

Qwen架构改造成Deepseek,再复现R1计划

AINLP  · 公众号  ·  · 2025-02-14 22:11
    

文章预览

作者:孟繁续 链接:https://zhuanlan.zhihu.com/p/23355620415 Deepseek使用更低的成本追赶OpenAI的效果 关注Deepseek也有一年多了,当时Mixtral-8x7B模型刚出来,我写了一篇分析其MoE架构的文章。Deepseek不久后推出了他们第一版Deepseek MoE模型,他们的工作人员看到文章加了我的微信; Mixtral-8x7B 模型挖坑: https://zhuanlan.zhihu.com/p/674751021 在做Paiss的时候,我就将Deepseek MoE视为主流模型进行了实验对比; 在Deepseek V2出来后,MLA架构巧妙地设计吸引了我。启发我做出CLOVER这篇文章。MLA中存在一个absorb操作,能将Key Weight吸收到Query Weight中,Value Weight吸收到Output Weight中,缺点是合并后参数量会变大。CLOVER先合并再分解,不改变模型结构就能得到正交的注意力头,对剪枝和微调都有很大的好处; 随着Deepseek V3/R1彻底爆火,我也来添一把火: TransMLA: Multi-head Latent Attention Is All ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览