五年后的今天，训练GPT-2只需不到700刀、24小时，Karpathy又整新活

机器之心 · 公众号 · AI · 2024-07-12 12:10

文章预览

机器之心报道编辑：杜伟、泽南论老黄卖铲子的技术含量。 2019 年 2 月， OpenAI 发布了 GPT-2 ，因为在文本生成上的优异表现，以及对于预训练 Transformer 架构的充分运用，被认为是如今大预言模型的「始祖」。五年后的今天，训练 GPT-2 这样 15 亿参数的大模型，只需要花费 672 美元，在一个 8XH100 的 GPU 节点上跑 24 个小时就可以搞定了。本周四，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 在他纯 C 语言复现 GPT-2 大模型的项目「llm.c」的最新进展中分享了他的训练心得：令人难以置信的是，由于计算硬件（英伟达 H100 GPU）、软件（CUDA、cuBLAS、cuDNN、FlashAttention 等）和数据质量（例如 FineWeb-Edu 数据集）的改进，过去 5 年间，大语言模型的训练成本大幅下降。Karpathy 表示，对于此次实践，算法遵循 GPT-2/3 论文基本保持原样不变。当年 OpenAI 训 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博