文章预览
©作者 | 肖光烜 单位 | 麻省理工学院博士生 研究方向 | 深度学习加速 TL;DR: DuoAttention 通过将大语言模型的注意力头分为检索头(Retrieval Heads,需要完整 KV 缓存)和流式头(Streaming Heads,只需固定量 KV 缓存),大幅提升了长上下文推理的效率,显著减少内存消耗、同时提高解码(Decoding)和预填充(Pre-filling)速度,同时在长短上下文任务中保持了准确率。 论文标题: DuoAttention: Efficient Long-Context LLM Inference with Retrieval and Streaming Heads 论文链接: https://arxiv.org/abs/2410.10819 Github地址: https://github.com/mit-han-lab/duo-attention 单 GPU 实现 330 万 Token 上下文推理演示视频: 随着大语言模型(Large Language Models,LLMs)在各类任务中的广泛应用,尤其是在长上下文(Long-Context)场景中处理海量文本信息,如何在保证模型性能的同时减少内存和计算成本,成为了一
………………………………