今天看啥  ›  专栏  ›  oldpan博客

一起理解下LLM的推理流程

oldpan博客  · 公众号  · 科技自媒体  · 2024-10-23 08:57
    

主要观点总结

本文总结了基于TRT-LLM的LLM推理流程的关键点,包括推理流程、推理两阶段、推理评测指标和推理运行时的情况。

关键观点总结

关键观点1: LLM推理流程

输入的prompt是放在GPU中处理的,输出时是一个一个出来的。LLM推理分为两个阶段:prefill阶段和decode阶段。prefill阶段处理输入的所有token,而decode阶段则自回归地生成每一个token。

关键观点2: 推理两阶段

prefill阶段会并行处理输入的所有token,而decode阶段是自回归的,每次只生成一个token。两个阶段在资源需求和效率上有显著不同。

关键观点3: 推理评测指标

评估LLM推理性能的指标包括TTFT(Time to First Token)、TPOP(每秒钟能生成的token数)和ITL(Inter-token Latency)。ITL提供了更细粒度的性能视图,能够反映出生成过程中的变化和波动。

关键观点4: 推理运行时

LLM推理运行时的显存利用与普通小模型有很大不同。大模型的显存主要在prefill和decode阶段占用,而模型权重一般只存一份。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照