文章预览
关于vLLM的技术论文“Efficient Memory Management for Large Language Model Serving with PagedAttention“,发表在23年9月,来自加州伯克利分校、斯坦福大学和UCSD分校等。 大语言模型(LLM)的高吞吐量服务需要一次批处理足够多的请求。然而,现有系统这样很困难,因为每个请求的Key- Value缓存(KV缓存)的内存占用很大,而且会动态地增长和缩小。当管理效率低下时,碎片和冗余复制可能会严重浪费这些内存,从而限制批处理大小。为了解决这个问题,提出 PagedAttention ,一种受操作系统中经典虚拟内存和分页技术启发的注意算法。除此之外,还构建了 vLLM ,一个开源的LLM推理加速系统,它实现了两点(1)KV缓存的内存几乎零浪费,以及(2)在请求内和各请求之间灵活共享KV缓存,进一步减少内存使用。评估结果表明,与最先进的系统(如FasterTransformer和Orca)相比,v
………………………………