专栏名称: Ai fighting

本公众号主要分享自动驾驶感知实战，从算法训练到模型部署。主要致力于3D目标检测，3D目标追踪，多传感器融合，Transform，BEV，OCC，模型量化，模型部署等方向的实战。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

TensorRT-LLM保姆级教程（三）-使用Triton推理服务框架部署模型

Ai fighting · 公众号 · · 2024-09-06 23:34

文章预览

【点击】加入大模型技术交流群随着大模型的爆火，投入到生产环境的模型参数量规模也变得越来越大（从数十亿参数到千亿参数规模），从而导致大模型的推理成本急剧增加。因此，市面上也出现了很多的推理框架，用于降低模型推理延迟以及提升模型吞吐量。本系列将针对 TensorRT-LLM 推理框架进行讲解。 TensorRT-LLM保姆级教程（一）-快速入门 TensorRT-LLM保姆级教程（二）-离线环境搭建、模型量化及推理 TensorRT-LLM保姆级教程（三）-使用Triton推理服务框架部署模型之前讲述过模型推理服务化框架Triton。模型推理服务化框架Triton保姆式教程（一）：快速入门模型推理服务化框架Triton保姆式教程（二）：架构解析模型推理服务化框架Triton保姆式教程（三）：开发实践本文将结合 TensorRT-LLM （作为后端推理引擎）与 Triton Inference Server 完成 LLM 服务部 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博