TensorRT-LLM初探（三）最佳部署实践

oldpan博客 · 公众号 · · 2024-08-13 23:06

文章预览

本篇文章根据 NVIDIA AI技术开放日 2024 夏 [1] 中 TRT-LLM 最佳部署实践 [2] 的演讲，结合自己的一些经验整理成本篇文章，算是TensorRT-LLM初探第三篇——最佳部署实践。下文图片PPT部分皆来源于 TRT-LLM 最佳部署实践 [3] 。之前两篇的传送门： TensorRT-LLM初探（一）基于最新commit运行llama，以及triton-tensorrt-llm-backend [4] TensorRT-LLM初探（二）简析了结构，用的更明白 [5] 本篇根据讲座的内容也大概分为以下几点： TensorRT-LLM介绍端到端workflow 如何debug 如何添加新的模型 TRT-LLM简单再介绍 TensorRT-LLM的介绍前几篇中已提到，就不过多赘述了。这里列一个TensorRT-LLM的功能和定位： trt-llm 功能与架构 TRT-LLM和vllm、lmdeploy、 sglang [6] 一样，提供大模型的推理支持，包含了大模型推理的：模型结构，提前定义好的模型结构 runtime调度（inflight batching、kv cache reuse） kernels（M ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

知食观 · 一图读懂 | 《食品安全国家标准预包装食品营养标签通则》（GB 28050-2025）

2 天前

知食观 · 一图读懂 | 《食品安全国家标准预包装食品营养标签通则》（GB 28050-2025）

2 天前

直播海南 · 冲上热搜！李美越被央视打码，本人道歉

2 天前

直播海南 · 刚刚，小米汽车时隔5天发博

2 天前

草原云北方新报 · 严查外卖！呼和浩特下线餐饮商户497户

2 天前

草原云北方新报 · 严查外卖！呼和浩特下线餐饮商户497户

2 天前

劳动法库 · 司法裁判视角下新就业形态中劳动关系的认定与要素识别 | 劳动法库

1 月前

许斐 · 早！科技园的花都开了给大家看看园区里的「春天」🌸 -20250326071000

2 周前