专栏名称: CV技术指南
长期更新:深度学习、计算机视觉相关技术的总结;图像处理相关知识;最新论文;经典论文;论文综述、tensorflow和pytorch等内容总结。涉及领域 :神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。
今天看啥  ›  专栏  ›  CV技术指南

LLM推理引擎怎么选?TensorRT vs vLLM vs LMDeploy vs MLC-LLM

CV技术指南  · 公众号  · 科技自媒体  · 2024-07-09 16:40

主要观点总结

本文介绍了关于LLM推理引擎的多个方面的比较,包括TensorRT-LLM、vLLM、LMDeploy和MLC-LLM。文章描述了各引擎的安装步骤、模型转换、性能基准测试以及推理过程。文章还提到了网上辅导机构的教学方式及其优缺点,并提出了小班指导的优势。最后,提供了报名信息。

关键观点总结

关键观点1: TensorRT-LLM

使用Nvidia容器工具包安装Nvidia-container-toolkit,下载并安装TensorRT-LLM。将模型转换为TensorRT-LLM格式并构建模型。在摘要任务上测试性能,结果显示TensorRT模型在总结任务上表现更好,ROUGE得分最高。

关键观点2: vLLM

安装vLLM并提供加载模型的步骤。在数据集上生成输出并计算吞吐量。使用ShareGPT数据集对模型进行基准测试。

关键观点3: LMDeploy

介绍LMDeploy的功能,包括压缩、部署和服务LLM,高效的推理和量化。使用PyTorch引擎进行推理,并报告令牌延迟和吞吐量。

关键观点4: MLC-LLM

介绍MLC-LLM和其高性能的部署和推理引擎MLCEngine。详细描述了转换模型权重到MLC格式的过程,并加载到MLC引擎中进行测试。

关键观点5: 网上辅导机构与小班指导的比较

分析了网上辅导机构的教学方式及其不足,强调小班指导的优势,如学习效果反馈、学员个性化指导等。提供了报名信息。


文章预览

前言   LLM擅长文本生成应用程序,如聊天和代码完成模型,能够高度理解和流畅。但是它们的大尺寸也给推理带来了挑战。有很多个框架和包可以优化LLM推理和服务,所以本文将整理一些常用的推理引擎并进行比较。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班 全面上线!! 来源: Deephub Imba 仅用于学术分享,若侵权请联系删除 TensorRT-LLM TensorRT-LLM是NV发布的一个推理引擎。llm被编译成TensorRT后与triton服务器一起部署并支持多GPU-多节点推理和FP8。 我们将比较HF模型、tensorrt模型和TensorRT-INT8模型(量化)的执行时间、ROUGE分数、延迟和吞吐量。 我这里在Linux上安装Nvidia-container-toolkit,初始化Git LFS(用于下载HF Models),并下载所需的软件包如下:   !curl -fsSL https://nvidia.github.io/li ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览