vLLM：采用PagedAttention的大语言模型高效内存管理

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-05-22 01:04

文章预览

关于vLLM的技术论文“Efficient Memory Management for Large Language Model Serving with PagedAttention“，发表在23年9月，来自加州伯克利分校、斯坦福大学和UCSD分校等。大语言模型（LLM）的高吞吐量服务需要一次批处理足够多的请求。然而，现有系统这样很困难，因为每个请求的Key- Value缓存（KV缓存）的内存占用很大，而且会动态地增长和缩小。当管理效率低下时，碎片和冗余复制可能会严重浪费这些内存，从而限制批处理大小。为了解决这个问题，提出 PagedAttention ，一种受操作系统中经典虚拟内存和分页技术启发的注意算法。除此之外，还构建了 vLLM ，一个开源的LLM推理加速系统，它实现了两点（1）KV缓存的内存几乎零浪费，以及（2）在请求内和各请求之间灵活共享KV缓存，进一步减少内存使用。评估结果表明，与最先进的系统（如FasterTransformer和Orca）相比，v ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

传媒招聘那些事儿 · 【简历提升】挖掘亮点：提升眼界思路，优化简历！

昨天

知道创宇 · 主流中文大模型评测：谁的内容最符合核心价值观？（附深度报告）

8 月前

芯海科技 · 芯品速递|芯海科技CS32F061：集成12位DAC高性价比信号链MCU

6 月前

我的印象笔记 · 这套令我上瘾的高效笔记法，已经坚持900多天

6 月前

参考消息 · 斯洛伐克两机场遭炸弹威胁

5 月前

企名片 · 31省份GDP出炉

3 月前