文章预览
日前,AI 大牛 Andrej Karpathy 在社交媒体上力荐了一个超棒开源项目—— Modded-NanoGPT [1] ,该项目是由 KellerJordan 精心打造,对 Karpathy 自己的教学项目 llm.c [2] 中 PyTorch GPT-2 训练器的颠覆性升级,取得的成绩令人震撼:仅仅使用 8 块 H100 GPU,惊人的训练效率使 124M 参数模型的训练时间缩减至 5 分钟,不仅完美复现了原始模型的验证损失,更将机器学习训练效率推向了一个令人难以置信的新高度。并且,按照作者的迭代速度,这一纪录可能还会被打破。 Modded-NanoGPT 的成功源于其巧妙整合了多项尖端技术和优化策略。项目核心采用了现代化的架构,包括旋转嵌入((Rotary Embeddings))、 QK-Norm 和 ReLU^2 激活函数,这些改进显著提升了模型性能和训练稳定性。 一个关键创新是引入了 Muon 优化器。这种基于牛顿-舒尔茨迭代正交化动量的新型优化算法比传统方
………………………………