今天看啥  ›  专栏  ›  OneFlow

LLM推理的极限速度

OneFlow  · 公众号  ·  · 2024-04-09 08:03
本文作者Arseny Kapoulkine从零开始开发了语言大模型推理的一种实现方式calm(https://github.com/zeux/calm),旨在以最少的实现和无依赖性的方式为LLM架构获得最大的单 GPU 单批次硬件利用率,该项目的其中一个关键考虑因素是确定推理的极限速度,并根据该极限来衡量相对进展。他在本文中探讨这一理论极限及其影响。如果你对进一步的推导和图表感兴趣,他在这份笔记(https://github.com/zeux/calm/blob/main/tools/sol.ipynb)中用Python做了建模。(Arseny Kapoulkine是pugixml、meshoptimizer、volk、calm等开源项目的作者。本文经授权后OneFlow编译发布,转载请联系授权。原文:https://zeux.io/2024/03/15/llm-inference-sol/)作者 | Arseny KapoulkineOneFlow编译翻译|宛子琳1推理机制语言模型[1]生成词元的过程是逐个进行的。可以把语言模型(具体来说,是仅解码器文本Transformer模型,但本文其 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照