专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
目录
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

TensorRT-LLM保姆级教程(三)-使用Triton推理服务框架部署模型

吃果冻不吐果冻皮  · 公众号  ·  · 2024-10-17 12:49

文章预览

随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。因此,市面上也出现了很多的推理框架,用于降低模型推理延迟以及提升模型吞吐量。 本系列将针对 TensorRT-LLM 推理框架进行讲解。 TensorRT-LLM保姆级教程(一)-快速入门 TensorRT-LLM保姆级教程(二)-离线环境搭建、模型量化及推理 TensorRT-LLM保姆级教程(三)-使用Triton推理服务框架部署模型 之前讲述过模型推理服务化框架Triton。 模型推理服务化框架Triton保姆式教程(一):快速入门 模型推理服务化框架Triton保姆式教程(二):架构解析 模型推理服务化框架Triton保姆式教程(三):开发实践 本文将结合 TensorRT-LLM (作为后端推理引擎)与 Triton Inference Server 完成 LLM 服务部署工作。 另外,我撰写的 大模型 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览