专栏名称: Ai fighting
本公众号主要分享自动驾驶感知实战,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
今天看啥  ›  专栏  ›  Ai fighting

TensorRT-LLM保姆级教程(三)-使用Triton推理服务框架部署模型

Ai fighting  · 公众号  ·  · 2024-09-06 23:34

文章预览

【点击】 加入大模型技术交流群 随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。因此,市面上也出现了很多的推理框架,用于降低模型推理延迟以及提升模型吞吐量。 本系列将针对 TensorRT-LLM 推理框架进行讲解。 TensorRT-LLM保姆级教程(一)-快速入门 TensorRT-LLM保姆级教程(二)-离线环境搭建、模型量化及推理 TensorRT-LLM保姆级教程(三)-使用Triton推理服务框架部署模型 之前讲述过模型推理服务化框架Triton。 模型推理服务化框架Triton保姆式教程(一):快速入门 模型推理服务化框架Triton保姆式教程(二):架构解析 模型推理服务化框架Triton保姆式教程(三):开发实践 本文将结合 TensorRT-LLM (作为后端推理引擎)与 Triton Inference Server 完成 LLM 服务部 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览