文章预览
点击上方“光大证券研究”可以订阅哦 点击注册小程序 查看完整报告 特别申明: 本订阅号中所涉及的证券研究信息由光大证券研究所编写,仅面向光大证券专业投资者客户,用作新媒体形势下研究信息和研究观点的沟通交流。非光大证券专业投资者客户,请勿订阅、接收或使用本订阅号中的任何信息。本订阅号难以设置访问权限,若给您造成不便,敬请谅解。光大证券研究所不会因关注、收到或阅读本订阅号推送内容而视相关人员为光大证券的客户。 报告摘要 2025年1月20日,DeepSeek发布开源推理模型DeepSeek-R1 大模型架构层面:DeepSeek在Transformer架构的基础上也做了很多创新,主要包括两个方面:(1)多头潜在注意力即MLA;(2)混合专家模型即MoE。 工程优化层面:分别从计算、存储、通信等多个层面实施了软硬协同的工程优化策略:比如混合
………………………………