2025年DeepSeek技术全景解析

架构师技术联盟 · 公众号 · · 2025-03-08 08:10

文章预览

本文来自“ 2025年DeepSeek技术全景解析 ”，回顾其发展历史，2024年1月，发布第一版大模型—-DeepSeek LLM,这个版本使用传统的Transformer架构，但在训练方面，已经明显体现出DeepSeek团队通过不断优化训练策略，达到节约成本，提高效率的思想，这点也在后续的模型迭代中被发扬光大。 2024年5月，DeepSeek-V2发布，从这一代开始，DeepSeek模型开始使用混合专家(MoE)架构，这是传统Transformer架构的一种改进和扩展，该架构使DeepSeek模型能以更低的计算成本进行更复杂的推理，极大提升了模型的性能。 2024年12月，DeepSeek-V3上线并开源，V3版本对MoE架构进行了进一步优化，在维持低训练成本的同时，稳定性与多方面性能表现都达到了与领先闭源模型相当的水平。 2025年1月，DeepSeek-R1正式发布，R1模型的推理能力得到极大加强，与OpenAl-o1模型不相上下，且推理过程完全 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博