注册登录

专栏名称: 机器学习算法与自然语言处理

一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

环保人 · 究竟如何理解名录中“复配”或“混合、分装”？ ... · 19 小时前

生态环境部 · DeepSeek如何紧密结合环保工作？这些地 ... · 昨天

生态环境部 · DeepSeek如何紧密结合环保工作？这些地 ... · 昨天

科学家庭育儿 · 又一批危险童装被曝光！网上十几块一件的衣服， ... · 昨天

环保人 · 环评大气预测资料2000，一键智能填报排污许 ... · 2 天前

今天看啥 › 专栏 › 机器学习算法与自然语言处理

Qwen架构改造成Deepseek，再复现R1计划

机器学习算法与自然语言处理 · 公众号 · · 2025-02-15 00:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。来源 | 知乎作者｜孟繁续 Deepseek使用更低的成本追赶OpenAI的效果关注Deepseek也有一年多了，当时Mixtral-8x7B模型刚出来，我写了一篇分析其MoE架构的文章。Deepseek不久后推出了他们第一版Deepseek MoE模型，他们的工作人员看到文章加了我的微信； Mixtral-8x7B 模型挖坑: https://zhuanlan.zhihu.com/p/674751021 在做Paiss的时候，我就将Deepseek MoE视为主流模型进行了实验对比；在Deepseek V2出来后，MLA架构巧妙地设计吸引了我。启发我做出CLOVER这篇文章。MLA中存在一个absorb操作，能将Key Weight吸收到Query Weight中，Value Weight吸收到Outpu ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

环保人 · 究竟如何理解名录中“复配”或“混合、分装”？干燥、熔化等都不能有？请看环境部文件资料明确依据

19 小时前

生态环境部 · DeepSeek如何紧密结合环保工作？这些地方已本地化部署｜智能监测篇

昨天

生态环境部 · DeepSeek如何紧密结合环保工作？这些地方已本地化部署｜智能监测篇

昨天

科学家庭育儿 · 又一批危险童装被曝光！网上十几块一件的衣服，还能给孩子穿吗？

昨天

环保人 · 环评大气预测资料2000，一键智能填报排污许可季报、自行监测、执行报告等

2 天前

毕马威KPMG · 【邀请函】洞见新局 | 毕马威董事会智领峰会（上海）

7 月前

咚咚找房 · 华富北片区棚改最后一栋拆除，建设提速，将提供住房约2800套

6 月前

芯片超人 · 芯片贸易商转型之路：从偷菜到种田

5 月前

起点锂电 · 11月6-7日，超2000+企业嘉宾邀您齐聚第十届起点锂电行业年会暨起点金鼎奖颁奖典礼！

4 月前

安泰职发 · 招聘资讯 | 中国银河金控2025年“新苗计划” 校园招聘公告

3 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号