文章预览
原文:https://zhuanlan.zhihu.com/p/699333691 0x00 前言 TensorRT-LLM部署调优-指北 注意 是“部署”调优,不是“性能”调优 !因此本文与底层Kernel如果优化等无关, 主要关注应用层面 。本文记录一些使用TensorRT-LLM过程中,对性能有影响的参数的理解。如果理解有误,欢迎指正。本文内容包括: 0x01 Batch size相关的设置 0x02 影响首Token时延的配置 0x03 是否使用custom_all_reduce 0x04 影响Decode时延的配置 0x05 fp8/int8 KV Cache相关的设置 0x06 In-Flight Batching相关的设置 0x07 bls模式相关的设置 0x08 如何开启debug模式 0x09 总结 好记性,不如烂笔头,本文长期更新,内容随缘( 就看最近踩到了什么坑~ ) 0x01 Batch size相关的设置 max_batch_size 指允许进入engine的并行跑的最大请求数。对于显存足够的情况下,比如72B模型部署在总显存640G的机器,如果设置地太小,比如8,则会影响服务的
………………………………