讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

vLLM:采用PagedAttention的大语言模型高效内存管理

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-05-22 01:04
    

文章预览

关于vLLM的技术论文“Efficient Memory Management for Large Language Model Serving with PagedAttention“,发表在23年9月,来自加州伯克利分校、斯坦福大学和UCSD分校等。 大语言模型(LLM)的高吞吐量服务需要一次批处理足够多的请求。然而,现有系统这样很困难,因为每个请求的Key- Value缓存(KV缓存)的内存占用很大,而且会动态地增长和缩小。当管理效率低下时,碎片和冗余复制可能会严重浪费这些内存,从而限制批处理大小。为了解决这个问题,提出 PagedAttention ,一种受操作系统中经典虚拟内存和分页技术启发的注意算法。除此之外,还构建了 vLLM ,一个开源的LLM推理加速系统,它实现了两点(1)KV缓存的内存几乎零浪费,以及(2)在请求内和各请求之间灵活共享KV缓存,进一步减少内存使用。评估结果表明,与最先进的系统(如FasterTransformer和Orca)相比,v ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览