文章预览
作者丨DefTruth 来源丨https://zhuanlan.zhihu.com/p/699333691 编辑丨GiantPandaCV 0x00 前言 注意 是“部署”调优,不是“性能”调优 !因此本文与底层Kernel如果优化等无关, 主要关注应用层面 。本文记录一些使用TensorRT-LLM过程中,对性能有影响的参数的理解以及一些工具的用法。如果理解有误,欢迎指正。本文内容包括: 0x01 入门学习路线推荐(进行中) 0x02 Batch size相关的设置 0x03 影响首Token时延的配置 0x04 是否使用custom_all_reduce 0x05 影响Decode时延的配置 0x06 fp8/int8 KV Cache相关的设置 0x07 In-Flight Batching相关的设置 0x08 bls模式相关的设置 0x09 如何开启debug模式 0x0a tensorrtllm_backend使用问题 0x0b tensorrt_llm离线推理 0x0c 源码编译及benchmark工具使用 0x0d FP8/SQ/AWQ量化校准使用 0x0e 自定义FP8量化校准数据(进行中) 0x0f triton server镜像编译和使用 0x10 总结 好记性,不如烂笔头,本文
………………………………