Transformer模型的基础演算

深蓝AI · 公众号 · · 2023-05-16 19:12

作者 | Quentin Anthony、Stella Biderman、Hailey SchoelkopfOneFlow编译翻译 | 贾川、徐佳渝、杨婷1引言Transformer语言模型的许多基本重要信息可以通过简单计算得出。不幸的是，这些计算公式在自然语言处理（NLP）社区中并不广为人知。AI非营利研究组织EleutherAI收集整理这些公式，并介绍这些公式的来源和重要性。注：本文主要关注显存（VRAM）主导的训练成本。（原文：https://blog.eleuther.ai/transformer-math/）2计算需求Transformer模型的训练成本可通过以下基本公式计算得出：其中： C表示训练Transformer模型所需的计算量，以总浮点运算数为单位。表示硬件设置的总吞吐量（ =(No.GPUs)x（Actual FLOPs/GPU)），以FLOPs为单位。 T表示训练模型所需的时间，以秒为单位。 P表示Transformer模型中的参数数量。 D表示数据集大小，以token为单位。这些公式由OpenAI的论文《S ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博