专栏名称: 程序员头条
10:24 一起看程序员热点新闻。把握行业热点,紧跟行业脚步
今天看啥  ›  专栏  ›  程序员头条

DeepSeek发布最新技术论文,梁文锋参与署名;官方回应AI公务员上岗;腾讯张军否认AI搜索植入广告;Grok 3 模型发布

程序员头条  · 公众号  ·  · 2025-02-19 10:25
    

文章预览

0、DeepSeek 团队发布注意力新机制新论文,梁文锋是共创之一 由 DeepSeek 联合创始人梁文锋亲自挂名的研究团队发布了一篇新论文(https://arxiv.org/pdf/2502.11089v1),提出了一种名为 NSA 的新型注意力机制,专为超快长上下文训练和推断设计,具有硬件对齐的特点。 NSA 通过分层 token 建模减少计算量,并通过硬件对齐的系统和训练感知的设计实现高效的部署和端到端训练。实验表明,NSA 在多个评估中表现优异,与 Full Attention 相比,在解码、前向和后向阶段提供了显著的加速,且加速比随着序列长度的增加而增加。这项研究验证了分层稀疏注意力设计在平衡模型能力和计算效率方面的有效性。 科技头条 1 、 官方回应“深圳AI公务员上岗”:仅为公务员助手,由监护人负责 据羊城派,近日,深圳市福田区上线福田区政务大模型2.0,率先推出基于DeepSeek开发 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览