专栏名称: 瓦力算法学研所
我们是一个致力于分享人工智能、机器学习和数据科学方面理论与应用知识的公众号。我们将分享最新的人工智能和数据科学技术、案例、研究成果、新闻和趋势,以及如何应用这些技术来解决实际问题,探索每一项技术落地的可行性方案。
目录
相关文章推荐
CHINADAILY  ·  World丨Pleas for aid ... ·  2 小时前  
CHINADAILY  ·  Business丨Solar power ... ·  2 小时前  
CHINADAILY  ·  太好了,是China ... ·  4 天前  
今天看啥  ›  专栏  ›  瓦力算法学研所

vLLM,一个好用的大模型加速工具

瓦力算法学研所  · 公众号  ·  · 2024-07-14 13:07
    

文章预览

技术总结专栏 本文对vLLM大模型推理加速库进行介绍。 vLLM 是一个专注于 LLM(大型语言模型)的推理和部署库,它整合了 iterative-level schedule 调度策略和 PagedAttention 注意力机制,旨在优化处理能力。其中,iterative-level schedule 通过连续批次处理(continuous batching),即在生成一个 token 后立即安排下一批请求,来提升效率。而 PagedAttention 则借鉴了操作系统的分页管理概念,将连续的键值缓存分散存储,以减少显存的不必要占用,提高整体性能。 有兴趣小伙伴可去看看官方的项目: https://blog.vllm.ai/2023/06/20/vllm.html vLLM 架构 上图展示了 vLLM 的架构,其中 LLMEngine 类是核心组件。外部接口类 LLM 和 AsyncLLMEngine 是对 LLMEngine 的封装。 LLMEngine 包含两个关键组件:Scheduler 负责调度请求,Worker 负责执行模型推理。Scheduler 从等待队列中选择下一个要处理的请求,而 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览