今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Transformer推理的全栈优化:综述 (上)

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-05-22 01:04
    

文章预览

23年2月论文“Full Stack Optimization of Transformer Inference: a Survey“, 来自伯克利分校和Nvidia。 1 摘要 最先进神经网络架构设计的最新进展已经朝着Transformer模型的方向发展。这些模型在计算机视觉、自然语言处理和语音识别的广泛应用中实现了卓越的准确性。自从最初引入Transformer模型以来,这一趋势在过去几年中一直保持一致。然而,最近的Transformer模型推理所需的计算量和带宽正在以显著的速度增长,这使得它们在延迟敏感应用程序中的部署具有挑战性。因此,人们越来越关注提高Transformer模型的效率,方法从改变架构设计到开发专用的特定域加速器。这项工作调查高效Transformer推理的不同方法,包括:(i)分析和概述现有Transformer架构中的瓶颈及其与以前卷积模型的异同;(ii)Transformer架构对硬件的影响,包括非线性操作(如层归一化、Softmax和GELU ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览