LLM推理的极限速度

OneFlow · 公众号 · · 2024-04-09 08:03

本文作者Arseny Kapoulkine从零开始开发了语言大模型推理的一种实现方式calm（https://github.com/zeux/calm），旨在以最少的实现和无依赖性的方式为LLM架构获得最大的单 GPU 单批次硬件利用率，该项目的其中一个关键考虑因素是确定推理的极限速度，并根据该极限来衡量相对进展。他在本文中探讨这一理论极限及其影响。如果你对进一步的推导和图表感兴趣，他在这份笔记(https://github.com/zeux/calm/blob/main/tools/sol.ipynb）中用Python做了建模。（Arseny Kapoulkine是pugixml、meshoptimizer、volk、calm等开源项目的作者。本文经授权后OneFlow编译发布，转载请联系授权。原文：https://zeux.io/2024/03/15/llm-inference-sol/）作者 | Arseny KapoulkineOneFlow编译翻译｜宛子琳1推理机制语言模型[1]生成词元的过程是逐个进行的。可以把语言模型（具体来说，是仅解码器文本Transformer模型，但本文其 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博