专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
今天看啥  ›  专栏  ›  GiantPandaCV

【ml-engineering 翻译系列】大模型推理

GiantPandaCV  · 公众号  · 3D  · 2024-10-24 23:55
    

文章预览

我的课程笔记,欢迎关注:https://github.com/BBuf/how-to-optim-algorithm-in-cuda/tree/master/cuda-mode 来源:https://github.com/stas00/ml-engineering 。这个笔记介绍了大型语言模型推理的各个方面。它首先解释了推理的基本概念,如预填充和解码阶段、在线和离线推理、基础(Grounding)等。然后详细讨论了推理性能的关键指标,包括延迟、吞吐量、第一个Token的时间(TTFT)和每个输出Token的时间(TPOT)。后面还深入探讨了模型内存使用情况,特别是KV Cache的重要性和计算方法。此外,它还详细介绍了多种推理框架和选择框架的考虑因素,如功能、许可证、社区活跃度等。文档还涉及了推理芯片、基准测试方法、加速模型加载时间等话题。这篇文档是了解大模型推理的一个还不错的基础入门文档,感兴趣的小伙伴推荐阅读。 推理 XXX: 本章正在建设中 - 一些部分已经完成,一 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览