专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

MIT韩松团队提出DuoAttention框架:单GPU实现330万Token上下文推理

PaperWeekly  · 公众号  · 科研  · 2024-10-25 22:21

文章预览

©作者 |  肖光烜 单位 |  麻省理工学院博士生 研究方向 |  深度学习加速 TL;DR: DuoAttention 通过将大语言模型的注意力头分为检索头(Retrieval Heads,需要完整 KV 缓存)和流式头(Streaming Heads,只需固定量 KV 缓存),大幅提升了长上下文推理的效率,显著减少内存消耗、同时提高解码(Decoding)和预填充(Pre-filling)速度,同时在长短上下文任务中保持了准确率。 论文标题: DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads 论文链接: https://arxiv.org/abs/2410.10819 Github地址: https://github.com/mit-han-lab/duo-attention 单 GPU 实现 330 万 Token 上下文推理演示视频: 随着大语言模型(Large Language Models,LLMs)在各类任务中的广泛应用,尤其是在长上下文(Long-Context)场景中处理海量文本信息,如何在保证模型性能的同时减少内存和计算成本,成为了一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览