专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
今天看啥  ›  专栏  ›  GiantPandaCV

[LLM推理优化][4w字] TensorRT-LLM部署调优-指北

GiantPandaCV  · 公众号  · 3D  · 2024-07-02 18:18
作者丨DefTruth来源丨https://zhuanlan.zhihu.com/p/699333691编辑丨GiantPandaCV0x00 前言注意是“部署”调优,不是“性能”调优!因此本文与底层Kernel如果优化等无关,主要关注应用层面。本文记录一些使用TensorRT-LLM过程中,对性能有影响的参数的理解以及一些工具的用法。如果理解有误,欢迎指正。本文内容包括:0x01 入门学习路线推荐(进行中)0x02 Batch size相关的设置0x03 影响首Token时延的配置0x04 是否使用custom_all_reduce0x05 影响Decode时延的配置0x06 fp8/int8 KV Cache相关的设置0x07 In-Flight Batching相关的设置0x08 bls模式相关的设置0x09 如何开启debug模式0x0a tensorrtllm_backend使用问题0x0b tensorrt_llm离线推理0x0c 源码编译及benchmark工具使用0x0d FP8/SQ/AWQ量化校准使用0x0e 自定义FP8量化校准数据(进行中)0x0f triton server镜像编译和使用0x10 总结好记性,不如烂笔头,本文长期更新,内容随 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照