专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

[LLM推理优化][万字]TensorRT-LLM部署调优-指北

oldpan博客  · 公众号  ·  · 2024-06-24 09:14
    

文章预览

原文:https://zhuanlan.zhihu.com/p/699333691 0x00 前言 TensorRT-LLM部署调优-指北 注意 是“部署”调优,不是“性能”调优 !因此本文与底层Kernel如果优化等无关, 主要关注应用层面 。本文记录一些使用TensorRT-LLM过程中,对性能有影响的参数的理解。如果理解有误,欢迎指正。本文内容包括: 0x01 Batch size相关的设置 0x02 影响首Token时延的配置 0x03 是否使用custom_all_reduce 0x04 影响Decode时延的配置 0x05 fp8/int8 KV Cache相关的设置 0x06 In-Flight Batching相关的设置 0x07 bls模式相关的设置 0x08 如何开启debug模式 0x09 总结 好记性,不如烂笔头,本文长期更新,内容随缘( 就看最近踩到了什么坑~ ) 0x01 Batch size相关的设置 max_batch_size 指允许进入engine的并行跑的最大请求数。对于显存足够的情况下,比如72B模型部署在总显存640G的机器,如果设置地太小,比如8,则会影响服务的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览