MIT韩松 | DuoAttention：单GPU实现330万Token上下文推理

自动驾驶之心 · 公众号 · · 2024-10-26 00:00

文章预览

编辑 | 机器之心点击下方卡片，关注“ 自动驾驶之心 ”公众号戳我-> 领取自动驾驶近15个方向学习路线 >> 点击进入→ 自动驾驶之心『大语言模型』技术交流群本文只做学术分享，如有侵权，联系删文本文第一作者肖光烜是麻省理工学院电子工程与计算机科学系（MIT EECS）的三年级博士生，师从韩松教授，研究方向为深度学习加速，尤其是大型语言模型（LLM）的加速算法设计。他在清华大学计算机科学与技术系获得本科学位。他的研究工作广受关注，GitHub上的项目累计获得超过9000颗星，并对业界产生了重要影响。他的主要贡献包括SmoothQuant和StreamingLLM，这些技术和理念已被广泛应用，集成到NVIDIA TensorRT-LLM、HuggingFace及Intel Neural Compressor等平台中。本文的指导老师为韩松教授（https://songhan.mit.edu/） TL;DR：DuoAttention 通过将大语言模型的注意 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博