专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
今天看啥  ›  专栏  ›  江大白

深入浅出,一文理解LLM的推理流程

江大白  · 公众号  ·  · 2024-10-25 08:00
    

文章预览

以下文章来源于微信公众号: oldpan博客 作者: oldpan博客 链接: https://mp.weixin.qq.com/s/Qu2K0ZhhnOhOPE60pRfMug 本文仅用于学术分享,如有侵权,请联系后台作删文处理 导读 自 ChatGPT 发布以来,LLM 领域迅速发展。本文解析 NVIDIA 在 Pytorch Conference 2024 演讲中的 LLM 推理流程,特别是 TRT-LLM 的应用,探讨 prefill 和 decode 阶段对资源的影响,并介绍 Chunked Prefill 技术的优化效果,为实际部署提供实用见解。 本文来源自Pytorch Conference 2024的talking —— Understanding the LLM Inference Workload ,由NVIDIA的高级解决方案架构师讲述,感兴趣的可以看原演讲视频: https://www.youtube.com/watch?v=z2M8gKGYws4 =PL_lsbAsL_o2B_znuvm-pDtV_cRhpqZb8l =23 [1] 本文总结和整理下其描述的基于TRT-LLM的LLM推理流程。 0x10 推理 以下是简单的LLM推理流程(下图中输入 Write me a presentation... ),注意两个事儿: 我们的输 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览