文章预览
↑ 点击 蓝字 关注极市平台 作者丨fanmetasy 来源丨深度学习自然语言处理 编辑丨极市平台 极市导读 本文对现有的关于高效大模型推理的文献进行了全面的综述总结。 >> 加入极市CV技术交流群,走在计算机视觉的最前沿 大模型由于其在各种任务中的出色表现而引起了广泛的关注。然而,大模型推理的大量计算和内存需求对其在资源受限场景的部署提出了挑战。业内一直在努力开发旨在提高大模型推理效率的技术。本文对现有的关于高效大模型推理的文献进行了全面的综述总结。首先分析了大模型推理效率低下的主要原因,即大模型参数规模、注意力计算操的二次复杂度作和自回归解码方法。然后,引入了一个全面的分类法,将现有优化工作划分为数据级别、模型级别和系统级别的优化。此外,本文还对关键子领域的代表性方法进行了对比实
………………………………