专栏名称: 集智书童
书童带你领略视觉前沿之美,精选科研前沿、工业实用的知识供你我进步与学习!
今天看啥  ›  专栏  ›  集智书童

解密长上下文Transformer:降低部署成本的关键挑战与应对策略

集智书童  · 公众号  ·  · 2024-05-25 09:00
    

文章预览

Abstract 基于Transformer的长上下文生成模型为新兴的人工智能应用提供了动力,如小时 Level 的视频理解和项目 Level 的编码代理。与短上下文(例如4K Token )模型版本相比,部署长上下文Transformer(例如,10万到100万个 Token )的成本高得令人望而却步。从2024年开始,降低长上下文Transformer的成本成为迫切的研究和工程挑战。本文描述了一个并发编程框架,用于定量分析在有限的GPU高带宽内存(HBM)环境下服务多个长上下文请求的效率挑战。作者详细分析了与4K上下文相比, 所有额外计算成本的根源:单一来源,即KV缓存的大尺寸。 作者以一个34B GPT-3.5 Level 的50K上下文模型在A100 NVLink上的运行为例,描述了其大型KV缓存如何导致四种部署挑战: (1)预填充长输入比短输入需要更长的计算时间和GPU内存; (2)预填充后,驻留在GPU HBM上的大型KV缓存大大限制了可 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览