发论文亲自上？创业十多年，DeepSeek梁文峰的“技术男”属性从没改变

AI前线 · 公众号 · AI · 2025-02-19 14:47

主要观点总结

DeepSeek发布新论文，提出了一种新的注意力机制NSA。创始人梁文锋参与编写并上传了论文。DeepSeek团队结合算法创新与硬件适配优化，实现超快速长文本训练。梁文锋的管理风格以及DeepSeek的运营模式受到关注。此外，文章还涉及梁文锋的个人经历、创业历程以及DeepSeek团队成员的构成和特点。

关键观点总结

关键观点1: DeepSeek发布新论文提出NSA注意力机制

论文介绍DeepSeek团队结合算法创新与硬件适配优化，实现超快速长文本训练。NSA采用动态分层稀疏策略，兼顾全局上下文感知和局部精度。

关键观点2: DeepSeek创始人梁文锋的管理风格

梁文锋采用扁平化管理方式，给予团队成员充分自由和信任，倡导开放、协作的文化，鼓励跨部门、跨领域的知识共享。他的管理风格从实习期延续至今。

关键观点3: DeepSeek团队成员构成及特点

DeepSeek招聘高端人才，包括数学竞赛一等奖、拿过国际金牌的算法人才。团队中研究员对技术充满热情，春节期间也在忙碌。

文章预览

作者 | 褚杏娟 2 月 18 日，DeepSeek 发布了一篇新论文，提出了一种新的注意力机制——NSA。值得注意的是，创始人梁文锋参与编写并亲自上传了该论文。根据论文介绍，DeepSeek 团队将算法创新与硬件适配优化相结合，以实现超快速长文本训练。NSA 采用动态分层稀疏策略，将粗粒度的标记压缩与细粒度的标记选择相结合，以兼顾全局上下文感知和局部精度。NSA 针对现代硬件进行了优化设计，可以在不牺牲性能的情况下加速推理并降低预训练成本。在通用基准测试、长文本任务和基于指令的推理中，NSA 与全注意力的模型水平相当甚至超过其性能。这其实是梁文锋的常规操作，有着很大影响力的 DeepSeek-R1 论文、DeepSeek-V3 论文都是他参与编写和亲自提交的。但由于梁文锋一直非常低调，近期除了在央视镜头中，我们很难在其他场合看到他的身影。这 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

机器之心 · 出人意料！DeepSeek-R1用的GRPO其实没必要？规模化强化学习训练用PPO就够了

6 小时前

爱可可-爱生活 · 高效树搜索（ETS）：优化推理时的计算扩展查看图片-20250221073838

10 小时前

黄建同学 · 刚刚成立的 Thinking Machine Lab 堪称Ope-20250220222322

19 小时前

新智元 · 微软20年精炼，全球首个拓扑量子芯片出炉！巴掌大芯片碾压全球超算

昨天

爱可可-爱生活 · 《爱可可微博热门分享(2.19)》爱可可微博热门分享(2.1-20250219224218

昨天

中钢国际 · 中钢国际ESG报告摘五星，受邀做客央视频《ESG大讲堂》

8 月前

灌云教育发布 · 连云港市幼小科学衔接专题研讨活动在灌云县六一幼儿园成功举办

8 月前

健康鄂尔多斯官方 · 保密微课堂丨新《保密法》谨防13种保密违规行为

8 月前

数码闲聊站 · 6.3x英寸1.5K小直屏新机，现在加上了无线充，高密度硅电池设-20240805090534

6 月前

壹点灵心理 · 人生真的改变，从学会这6个字开始

1 月前