文章预览
借着诺贝尔物理学奖和化学奖颁给AI领域的热浪,我今天也来写一篇文章助助兴! tensorRT-LLM前身为fastertransformer,和tensorRT相结合之后,融合了二者的feature,就叫tensorRT-LLM了(后文简称trtllm),对于fastertransformer,可以认为我的课程三是一个简易版的fastertransformer,对于tensorRT,这是一个半开源的NV GPU sota推理引擎,主要得益于NV 几千个library的极致kernel性能优化,以及high-level的图优化加上low-level的runtime优化。 本文主要聚焦于trtllm在编译期和运行时的优化部分,trt构图部分省略。 TensorRT myelin compiler compile的过程发生在trtllm build期间,TensorRT myelin compiler可以遍历模型整图,为每个op选择最佳kernel以及识别潜在的fusion pattern做kernel fusion,这个过程叫做pattern match。此外 TensorRT 还将图编译成一个 CUDA graph,减少kernel launch开销。但是,我要说但是, TensorRT comp
………………………………