定期分享机器学习领域原创文章,公众号内容涵盖了机器学习算法和python数据分析等文章,目前监督学习方法的文章应有尽有,非监督学习的原创文章一直在更新,欢迎机器学习爱好者和从业者的加入,互相学习,共同成长。
目录
相关文章推荐
今天看啥  ›  专栏  ›  机器学习算法那些事

deepseek技术解读(1)-彻底理解MLA(Multi-Head Latent Attention)

机器学习算法那些事  · 公众号  ·  · 2025-03-18 11:42
    

文章预览

知乎 :姜富春(已授权) 链接 :https://zhuanlan.zhihu.com/p/16730036197 编辑 :「深度学习自然语言处理」公众号 引言 deepseek最近比较出圈,本人也一直关注deepseek发布的一些技术报告。在模型训练、推理性能和计算成本上一直能给大家惊喜。读了deepseek的技术报告,我个人有两个比较强的感受。第一:deepseek在模型细节上扣的比较极致,魔改了一些模型框架(比如模型优化方面: MLA, GRPO,MTP);第二:工程能力上确实比较强,对于主流的一些框架和技术点能敏捷地整合到自己的系统内(比如:在Infra方面,能看到deepspeed, Megatron,DistServer、vLLM等框架的核心技术点)。后面准备用几篇笔记学习和整理下deepseek的技术。 本文重点讲解下MLA(Multi-Head Latent Attention) 注:我在学习的过程中,通常会有些知识盲点,或掌握不精确的地方,我会递归学习一些扩展的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览