Karpathy 推荐的神级项目，5 分钟训练 GPT-2

AI工程化 · 公众号 · · 2024-11-21 17:32

文章预览

日前，AI 大牛 Andrej Karpathy 在社交媒体上力荐了一个超棒开源项目—— Modded-NanoGPT [1] ，该项目是由 KellerJordan 精心打造，对 Karpathy 自己的教学项目 llm.c [2] 中 PyTorch GPT-2 训练器的颠覆性升级，取得的成绩令人震撼：仅仅使用 8 块 H100 GPU，惊人的训练效率使 124M 参数模型的训练时间缩减至 5 分钟，不仅完美复现了原始模型的验证损失，更将机器学习训练效率推向了一个令人难以置信的新高度。并且，按照作者的迭代速度，这一纪录可能还会被打破。 Modded-NanoGPT 的成功源于其巧妙整合了多项尖端技术和优化策略。项目核心采用了现代化的架构，包括旋转嵌入（（Rotary Embeddings））、 QK-Norm 和 ReLU^2 激活函数，这些改进显著提升了模型性能和训练稳定性。一个关键创新是引入了 Muon 优化器。这种基于牛顿-舒尔茨迭代正交化动量的新型优化算法比传统方 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博