文章预览
封面图来自《后翼弃兵》, 一个天才少女通过弃掉强大棋子,最终用一个小兵完成了将军胜利。 最近 DeepSeek-v3 不要太火,这是他们最新的 V 系列模型,里面还内嵌了 R1,一个深度思考模型,总之都是大模型界的多快好省。 文章写得有点快, 我将从 「零技术门槛」的角度 ,大致讲解 DeepSeek-V 系列的4篇论文。 本篇文章你将收获: 有效装杯,迅速理解贯穿4篇论文的技术逻辑; 欣赏 DeepSeek 如何怼人,它打了全球大模型的脸…… 对技术崇拜、规则制定者的祛魅,世界永远等待屠龙少年。 4篇论文都可免费查询 & 下载, 《2401-DeepSeek LLM Scaling Open-Source Language Models with Longtermism(DeepSeek LLM:以长期主义视角扩展开源语言模型)》;《2405-DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model(DeepSeek-V2:一种强大、经济且高效的混合专家语言模型
………………………………