文章预览
【点击】 加入大模型技术交流群 随着大模型的爆火,投入到生产环境的模型参数量规模也变得越来越大(从数十亿参数到千亿参数规模),从而导致大模型的推理成本急剧增加。因此,市面上也出现了很多的推理框架,用于降低模型推理延迟以及提升模型吞吐量。 本系列将针对 TensorRT-LLM 推理框架进行讲解。 TensorRT-LLM保姆级教程(一)-快速入门 TensorRT-LLM保姆级教程(二)-离线环境搭建、模型量化及推理 TensorRT-LLM保姆级教程(三)-使用Triton推理服务框架部署模型 之前讲述过模型推理服务化框架Triton。 模型推理服务化框架Triton保姆式教程(一):快速入门 模型推理服务化框架Triton保姆式教程(二):架构解析 模型推理服务化框架Triton保姆式教程(三):开发实践 本文将结合 TensorRT-LLM (作为后端推理引擎)与 Triton Inference Server 完成 LLM 服务部
………………………………