解密长上下文Transformer：降低部署成本的关键挑战与应对策略

集智书童 · 公众号 · · 2024-05-25 09:00

文章预览

Abstract 基于Transformer的长上下文生成模型为新兴的人工智能应用提供了动力，如小时 Level 的视频理解和项目 Level 的编码代理。与短上下文（例如4K Token ）模型版本相比，部署长上下文Transformer（例如，10万到100万个 Token ）的成本高得令人望而却步。从2024年开始，降低长上下文Transformer的成本成为迫切的研究和工程挑战。本文描述了一个并发编程框架，用于定量分析在有限的GPU高带宽内存（HBM）环境下服务多个长上下文请求的效率挑战。作者详细分析了与4K上下文相比，所有额外计算成本的根源：单一来源，即KV缓存的大尺寸。作者以一个34B GPT-3.5 Level 的50K上下文模型在A100 NVLink上的运行为例，描述了其大型KV缓存如何导致四种部署挑战： (1)预填充长输入比短输入需要更长的计算时间和GPU内存； (2)预填充后，驻留在GPU HBM上的大型KV缓存大大限制了可 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博