讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

大语言模型高效推理技术

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-06-18 00:01
    

文章预览

24年6月来自无问芯穹、清华大学和上海交大的论文“A Survey on Efficient Inference for Large Language Models”。 大语言模型 (LLM) 因其在各种任务中的出色表现而受到广泛关注。然而,LLM 推理对计算和内存的大量要求对在资源受限的情况下的部署带来了挑战。如何提高 LLM 推理效率?本文对现有的高效 LLM 推理进行了全面调查。首先分析 LLM 推理效率低下的主要原因,即模型规模大、二次复杂度的注意操作和自回归解码方法。采用一个全面的分类法,即数据级、模型级和系统级的优化。此外,对关键子领域内代表性方法做比较实验,提供定量见解。最后,提供了一些总结并讨论未来的研究方向。 最流行的 LLM,即仅解码器的 LLM,通常采用自回归方法来生成输出句子。具体而言,自回归方法逐个生成tokens。在每个生成步骤中,LLM 将整个token序列(包括输入tokens和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览