专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

TensorRT-LLM初探(三)最佳部署实践

oldpan博客  · 公众号  ·  · 2024-08-13 23:06
    

文章预览

  本篇文章根据 NVIDIA AI技术开放日 2024 夏 [1] 中 TRT-LLM 最佳部署实践 [2] 的演讲,结合自己的一些经验整理成本篇文章,算是TensorRT-LLM初探第三篇——最佳部署实践。 下文图片PPT部分皆来源于 TRT-LLM 最佳部署实践 [3] 。 之前两篇的传送门: TensorRT-LLM初探(一)基于最新commit运行llama,以及triton-tensorrt-llm-backend [4] TensorRT-LLM初探(二)简析了结构,用的更明白 [5] 本篇根据讲座的内容也大概分为以下几点: TensorRT-LLM介绍 端到端workflow 如何debug 如何添加新的模型 TRT-LLM简单再介绍 TensorRT-LLM的介绍前几篇中已提到,就不过多赘述了。 这里列一个TensorRT-LLM的功能和定位: trt-llm 功能与架构 TRT-LLM和vllm、lmdeploy、 sglang [6] 一样,提供大模型的推理支持,包含了大模型推理的: 模型结构,提前定义好的模型结构 runtime调度(inflight batching、kv cache reuse) kernels(M ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览