文章预览
主题 如何加速大语言模型推理?万字长文综述大语言模型高效推理技术 论文 :A Survey on Efficient Inference for Large Language Models 地址 :https://arxiv.org/pdf/2404.14294 解读: 3万字详细解析清华大学最新综述工作:大模型高效推理综述 嘉宾 周紫轩,硕士就读于清华大学深圳国际研究生院,目前博0(硕士刚毕业),硕士导师为汪玉教授和董宇涵副教授,博士导师为汪玉教授和张晓平教授,本人研究兴趣主要为模型压缩、大模型高效推理等领域。 内容 研究背景与基础概念介绍 分层、分领域综述高效推理领域的技术 2.1: 数据层 2.2: 模型层 2.3: 系统层(简略) 未来方向讨论与结论 QA 研究背景 大语言模型(Large Language Models, LLMs)在近些年受到了学术界和工业界的广泛关注,得益于其在各种语言任务上的突出表现,大语言模型推动了各种人工智能应用(如ChatGPT、Co
………………………………