专栏名称: GiantPandaLLM

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

TensorRT-LLM初探（三）最佳部署实践

GiantPandaLLM · 公众号 · 3D · 2024-08-18 23:34

主要观点总结

本文介绍了NVIDIA AI技术开放日关于TRT-LLM最佳部署实践的讲座内容，包括TensorRT-LLM的介绍、端到端workflow、如何debug、如何添加新的模型、安装过程、转换权重等关键点。文章还涵盖了调试方法、编译加速、模型精度测试以及新模型的添加流程等。

关键观点总结

关键观点1: TensorRT-LLM介绍

介绍TensorRT-LLM的功能和定位，包括大模型推理支持，模型结构，runtime调度，kernels优化，量化技术等。

关键观点2: 端到端workflow

描述使用TRT-LLM进行大模型推理的完整流程，包括转换权重格式、搭建网络结构、build engine、测试和运行等步骤。

关键观点3: 如何debug

介绍调试TRT-LLM的两种logger，可通过设置环境变量或传入参数开启，帮助定位错误位置。

关键观点4: 安装过程

说明TRT-LLM的安装方式，包括利用docker自行编译源码、通过pip安装、借用NVIDIA NGC提供的镜像等方式。

关键观点5: 转换权重

介绍TRT-LLM统一了convert接口的好处，以及权重转换后需要把权重塞到模型中的过程。

关键观点6: 如何添加新的模型

介绍添加新模型的流程，包括仿照llama的实现，实现convert权重相关的地方，以及如果官方提供的例子没有模型中某些层的实现时的处理方法。

文章预览

本篇文章根据 NVIDIA AI技术开放日 2024 夏 [1] 中 TRT-LLM 最佳部署实践 [2] 的演讲，结合自己的一些经验整理成本篇文章，算是TensorRT-LLM初探第三篇——最佳部署实践。下文图片PPT部分皆来源于 TRT-LLM 最佳部署实践 [3] 。之前两篇的传送门： TensorRT-LLM初探（一）基于最新commit运行llama，以及triton-tensorrt-llm-backend [4] TensorRT-LLM初探（二）简析了结构，用的更明白 [5] 本篇根据讲座的内容也大概分为以下几点： TensorRT-LLM介绍端到端workflow 如何debug 如何添加新的模型 TRT-LLM简单再介绍 TensorRT-LLM的介绍前几篇中已提到，就不过多赘述了。这里列一个TensorRT-LLM的功能和定位： trt-llm 功能与架构 TRT-LLM和vllm、lmdeploy、 sglang [6] 一样，提供大模型的推理支持，包含了大模型推理的：模型结构，提前定义好的模型结构 runtime调度（inflight batching、kv cache reuse） kernels（M ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博