文章预览
过去一周技术圈最热门的话题是DeepSeek,在国内新年放假期间美股“风起云涌”,欧美主流媒体“莫名惊诧”,各大社交平台大V们纷纷“深度解读”。我不能免俗,借机聊几个个人观点。 开放生态和商业成功 这次DeepSeek出现在聚光灯下,主要是它的R1模型被技术圈之外的媒体关注到并引发了股市的相关行情,所以对已经在关注他们工作的人来说意外的是突然的出圈热度,而对于更广泛的公众来说又好像他们横空出世。 从技术的角度,个人感觉DeepSeek的工作是一个大亮点和很多小亮点组成。部分小亮点有multi-head latent attention (MLA),multi-token prediction (MTP),FP8训练,group relative policy optimization (GRPO),这些小亮点都是DeepSeek团队一步步逐渐做出的,体现了工作的系统性和踏实的风格,非常赞。尤其是在PTX而不是CUDA层面优化以解决H800/H20的带宽问题,能想到
………………………………