专栏名称: 3D视觉之心
3D视觉与SLAM、点云相关内容分享
今天看啥  ›  专栏  ›  3D视觉之心

五年后的今天,训练GPT-2只需不到700刀、24小时,Karpathy又整新活

3D视觉之心  · 公众号  ·  · 2024-07-14 07:00
    

文章预览

作者 | 机器之心  编辑 | 机器之心 点击下方 卡片 ,关注“ 3D视觉之心 ”公众号 第一时间获取 3D视觉干货 >> 点击进入→ 3D视觉之心技术交流群 2019 年 2 月,OpenAI 发布了 GPT-2,因为在文本生成上的优异表现,以及对于预训练 Transformer 架构的充分运用,被认为是如今大预言模型的「始祖」。 五年后的今天,训练 GPT-2 这样 15 亿参数的大模型,只需要花费 672 美元,在一个 8XH100 的 GPU 节点上跑 24 个小时就可以搞定了。 本周四,前特斯拉 Autopilot 负责人、OpenAI 科学家  Andrej Karpathy  在他纯 C 语言 复现 GPT-2 大模型的项目「llm.c」 的最新进展中分享了他的训练心得: 令人难以置信的是,由于计算硬件(英伟达 H100 GPU)、软件(CUDA、cuBLAS、cuDNN、 FlashAttention  等)和数据质量(例如 FineWeb-Edu 数据集)的改进,过去 5 年间,大语言模型的训练成本大幅下降 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览