专栏名称: 中国经营报
《中国经营报》由《中国经营报》社有限公司出版,与中国企业同步成长,对话商业领袖,传播商业理想,服务商业人群,掌控中国商界绝对话语权。
目录
相关文章推荐
算法爱好者  ·  ​200 ... ·  9 小时前  
今天看啥  ›  专栏  ›  中国经营报

OpenAI继续“暴力计算”,中国团队拿出算法“手术刀”

中国经营报  · 公众号  ·  · 2025-03-02 09:10
    

文章预览

本报记者 李玉洋 上海报道 就在埃隆·马斯克在X平台直播Grok 3的“万亿参数”狂欢前,中国AI大模型圈正上演着更隐秘的技术革命。 近期, 深度求索(DeepSeek)和月之暗面(MoonShot)同日发布了新论文 ,且两家明星公司的创始人也都有署名, 双方不约而同剑指Transformer架构最核心的注意力机制(Attention Mechanism),让大模型能更高效处理更长的上下文。 前者提出原生稀疏注意力(NSA,Native Sparse Attention),宣称处理64K(用来描述文本的长度,64K就是6.4万)长文本速度 提升1 1.6倍 ;后者祭出块注意力混合架构(MoBA,Mixture of Block Attention),在10M token场景 提速16倍 。 《中国经营报》记者注意到,就在一个月前,国内“AI大模型六小虎”之一的MiniMax也在其首个开源模型MiniMax-01中大规模引入了一种新的注意力机制—— 闪电注意力(Lightning Attention) ,核 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览