今天看啥  ›  专栏  ›  深蓝AI

Transformer模型的基础演算

深蓝AI  · 公众号  ·  · 2023-05-16 19:12
作者 | Quentin Anthony、Stella Biderman、Hailey SchoelkopfOneFlow编译翻译 | 贾川、徐佳渝、杨婷1引言Transformer语言模型的许多基本重要信息可以通过简单计算得出。不幸的是,这些计算公式在自然语言处理(NLP)社区中并不广为人知。AI非营利研究组织EleutherAI收集整理这些公式,并介绍这些公式的来源和重要性。注:本文主要关注显存(VRAM)主导的训练成本。(原文:https://blog.eleuther.ai/transformer-math/)2计算需求Transformer模型的训练成本可通过以下基本公式计算得出:其中: C表示训练Transformer模型所需的计算量,以总浮点运算数为单位。        表示硬件设置的总吞吐量(  =(No.GPUs)x(Actual FLOPs/GPU)),以FLOPs为单位。 T表示训练模型所需的时间,以秒为单位。 P表示Transformer模型中的参数数量。 D表示数据集大小,以token为单位。这些公式由OpenAI的论文《S ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照