一起理解下LLM的推理流程

oldpan博客 · 公众号 · 科技自媒体 · 2024-10-23 08:57

主要观点总结

本文总结了基于TRT-LLM的LLM推理流程的关键点，包括推理流程、推理两阶段、推理评测指标和推理运行时的情况。

输入的prompt是放在GPU中处理的，输出时是一个一个出来的。LLM推理分为两个阶段：prefill阶段和decode阶段。prefill阶段处理输入的所有token，而decode阶段则自回归地生成每一个token。

prefill阶段会并行处理输入的所有token，而decode阶段是自回归的，每次只生成一个token。两个阶段在资源需求和效率上有显著不同。

评估LLM推理性能的指标包括TTFT（Time to First Token）、TPOP（每秒钟能生成的token数）和ITL（Inter-token Latency）。ITL提供了更细粒度的性能视图，能够反映出生成过程中的变化和波动。

LLM推理运行时的显存利用与普通小模型有很大不同。大模型的显存主要在prefill和decode阶段占用，而模型权重一般只存一份。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

科技日报 · 全球首艘，首航成功！

8 小时前

独角兽早知道 · 石头科技冲击港股IPO，智能扫地机器人全球量额双第一，海外主营收入已超过境内部分

16 小时前

腾讯视频Post · 腾讯视频6部制播作品斩获第30届上海电视节白玉兰奖8项荣誉

23 小时前

HarmonyOS开发者技术 · 推荐9个伙伴共建的场景化能力，更多能力等你来共建

昨天

浙江经信 · 浙江省“十链百场万企”系列对接活动之智能物联产业链专场在杭州桐庐举行

昨天

生信塔 · 服务器租赁续费不涨价还倒送你时间？是的，快来！

10 月前

凤凰网 · 全国“普通话羞耻症”第一省份，在老家忘说方言就要挨骂

5 月前

数据法盟 · 特朗普决定暂停对等关税90 天！对中国关税立即加到125%！

2 月前

大江网 · 深中通道深中大桥一货车起火，无人员伤亡，交通已恢复正常

1 月前

海西晨报 · 日本巨头宣布：全球大裁员！

1 月前