Kimi新论文再次“撞车”DeepSeek，都谈到了长文注意力机制

量子位 · 公众号 · AI · 2025-02-19 13:19

文章预览

一水发自凹非寺量子位 | 公众号 QbitAI Kimi背后的长上下文处理机制曝光了！这项名为 MoBA 的新型注意力机制，能将处理 1M 长文本的速度一下子提升 6.5倍，而且还是经过Kimi平台实际验证的那种。概括而言，这项耗时一年半的工作主要看点在：把完整上下文划分成块，让每个查询token自动去关注最相关的KV块，这样就能高效处理长序列数据；提出一种新的参数无关的top-k门控机制，它能给每个查询token挑选出最相关的块，保证模型只聚焦在最有用信息的块上；支持在全注意力和稀疏注意力模式之间轻松切换；一言以蔽之，MoBA将MoE （专家混合）应用于注意力机制，通过遵循一种“less structure” 原则，允许模型自主决定关注哪些区域或位置。最终结果是，在保持模型性能不变的前提下，将处理 1M 和 10M 长文本的速度分别提升了 6.5倍和 16倍。而 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 回复@子小三水:这个场景确实太复杂了，垫图比较好评论配图 //-20250428035513

昨天

爱可可-爱生活 · 【[536星]VoltAgent/voltagent：开源Typ-20250427150949

昨天

爱可可-爱生活 · 【[245星]100-days-of-gpu：挑战GPU开发极限-20250427151645

昨天

机器之心 · 人形机器人半马跑，技术要领 GET 没？

昨天

黄建同学 · 确实，AI让我们获得答案变得非常简单，而大部分不会去想答案是如何-20250426151223

2 天前

东莞本地宝 · 明天上午9:00，广东消费券准时开抢！

8 月前

常岩CY · 外媒：明年所有的 iPhone 17 机型终于都会配备 120H-20240922185223

7 月前

设计先锋队 · Liberty House，土耳其艾瓦勒克

5 月前

抗体圈 · 诡异的临床数据，FDA居然认可了！

4 月前

丁香医生 · 吃「风干牛肉」吧，好处真的太多啦！

4 月前