专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

深入解读tensorRT-LLM的关键技术 (未完待续)

oldpan博客  · 公众号  ·  · 2024-10-14 19:14
    

文章预览

借着诺贝尔物理学奖和化学奖颁给AI领域的热浪,我今天也来写一篇文章助助兴! tensorRT-LLM前身为fastertransformer,和tensorRT相结合之后,融合了二者的feature,就叫tensorRT-LLM了(后文简称trtllm),对于fastertransformer,可以认为我的课程三是一个简易版的fastertransformer,对于tensorRT,这是一个半开源的NV GPU sota推理引擎,主要得益于NV 几千个library的极致kernel性能优化,以及high-level的图优化加上low-level的runtime优化。 本文主要聚焦于trtllm在编译期和运行时的优化部分,trt构图部分省略。 TensorRT myelin compiler compile的过程发生在trtllm build期间,TensorRT myelin  compiler可以遍历模型整图,为每个op选择最佳kernel以及识别潜在的fusion pattern做kernel fusion,这个过程叫做pattern match。此外 TensorRT 还将图编译成一个 CUDA graph,减少kernel launch开销。但是,我要说但是, TensorRT comp ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览