专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
今天看啥  ›  专栏  ›  学姐带你玩AI

如何轻松、快速且低成本地部署LLM服务?

学姐带你玩AI  · 公众号  ·  · 2024-10-30 18:30
    

文章预览

来源:投稿  作者:175 编辑:学姐 今天带来vLLM的论文Efficient Memory Management for Large Language Model Serving with PagedAttention笔记。作者还发布了一篇技术博客:https://blog.vllm.ai/2023/06/20/vllm.html ,本文的动图来自该博客。 高吞吐量的服务大语言模型需要同时批处理足够多的请求。然而,现有系统由于每个请求的kv-cache内存非常大且是动态扩缩的,当管理不当时,这种内存可能由于碎片化和冗余重复而浪费大量,从而限制了批处理大小。 作者提出了PagedAttention,这是一种受到传统虚拟内存和操作系统中分页技术启发的注意力算法。并在此基础上构建了vLLM,这是一种LLM服务系统,能够实现: kv-cache内存的几乎零浪费; 在请求之间和请求内部灵活共享kv-cache,以进一步减少内存使用。 vLLM在与当前最先进系统相比时,能够在保持相同延迟的情况下,将流行LLM的吞 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览