专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

一起理解下LLM的推理流程

oldpan博客  · 公众号  ·  · 2024-10-23 08:57
    

文章预览

  本文来源自Pytorch Conference 2024的talking —— Understanding the LLM Inference Workload ,由NVIDIA的高级解决方案架构师讲述,感兴趣的可以看原演讲视频: https://www.youtube.com/watch?v=z2M8gKGYws4 =PL_lsbAsL_o2B_znuvm-pDtV_cRhpqZb8l =23 [1] 本文总结和整理下其描述的基于TRT-LLM的LLM推理流程。 0x10 推理 以下是简单的LLM推理流程(下图中输入 Write me a presentation... ),注意两个事儿: 我们的输入prompt是放在GPU中的, 然后output的时候,是 一个一个 出来的:LLM inference is hard,而且每次输出一个token都会这个将这个token之前的输入(也是tokens)全送进GPU再吐下一个token 根据上述的LLM推理流程,很容易推理出: 输入的prompt token数越多,LLM反应越慢,因为LLM要处理你输入的prompt,这是要在GPU上算的,越多计算的时间越长 因为输入的prompt token和后续输出的token都存在GPU中,这些是要占显存 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览