【源头活水】MIT韩松团队新作DuoAttention：大模型高效推理框架

人工智能前沿讲习 · 公众号 · · 2024-10-29 18:00

文章预览

在科学研究中，从方法论上来讲，都应 “ 先见森林，再见树木 ” 。当前，人工智能学术研究方兴未艾，技术迅猛发展，可谓万木争荣，日新月异。对于 A I 从业者来说，在广袤的知识森林中，系统梳理脉络，才能更好地把握趋势。为此，我们精选国内外优秀的综述文章，开辟 “ 综述专栏 ” ，敬请关注。前言 DuoAttention 通过将大语言模型的注意力头分为检索头（Retrieval Heads，需要完整 KV 缓存）和流式头（Streaming Heads，只需固定量 KV 缓存），大幅提升了长上下文推理的效率，显著减少内存消耗、同时提高解码（Decoding）和预填充（Pre-filling）速度，同时在长短上下文任务中保持了准确率。论文链接：https://arxiv.org/abs/2410.10819 项目主页及代码：https://github.com ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博