大模型训练烧钱还能烧多久

Dots机构投资者社区 · 公众号 · · 2024-08-09 08:15

文章预览

我们对未来大模型训练的算力需求进行了测算，结论是大模型训练每升级一代，对算力的需求是倍数级增加，后续如果没有商业的正向循环，将越来越难跟进。参考MS测算，我们把参数调整为自己的理解，计算不同情形下每一代大模型训练需要的算力。核心的变量是大模型参数，训练天数，卡性能和单价。至少从目前看，大模型升级的过程还是伴随着参数量的倍数级增加，那么可以通过模型参数量，推导训练的tokens量，按照每token所需算力计算总算力需求，假设每一代模型训练天数适当延长的情况下，计算出每代模型训练需要多少投入多少GPU Capex。下表对A、H、B、”R”卡价格分别假设是1.1万、2.5万、3.5万和6万美金。在MS测算的基础上，根据NVDA目前爆料的路线图，我们调整了一下假设，以下是我们测算的Bull、Base和Bear case：结论是：训练GPT4，参数 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博