[LLM推理优化][万字]TensorRT-LLM部署调优-指北

oldpan博客 · 公众号 · · 2024-06-24 09:14

文章预览

原文：https://zhuanlan.zhihu.com/p/699333691 0x00 前言 TensorRT-LLM部署调优-指北注意是“部署”调优，不是“性能”调优！因此本文与底层Kernel如果优化等无关，主要关注应用层面。本文记录一些使用TensorRT-LLM过程中，对性能有影响的参数的理解。如果理解有误，欢迎指正。本文内容包括： 0x01 Batch size相关的设置 0x02 影响首Token时延的配置 0x03 是否使用custom_all_reduce 0x04 影响Decode时延的配置 0x05 fp8/int8 KV Cache相关的设置 0x06 In-Flight Batching相关的设置 0x07 bls模式相关的设置 0x08 如何开启debug模式 0x09 总结好记性，不如烂笔头，本文长期更新，内容随缘（就看最近踩到了什么坑~ ） 0x01 Batch size相关的设置 max_batch_size 指允许进入engine的并行跑的最大请求数。对于显存足够的情况下，比如72B模型部署在总显存640G的机器，如果设置地太小，比如8，则会影响服务的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博