专栏名称: AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
目录
相关文章推荐
今天看啥  ›  专栏  ›  AI工程化

Karpathy 推荐的神级项目,5 分钟训练 GPT-2

AI工程化  · 公众号  ·  · 2024-11-21 17:32

文章预览

日前,AI 大牛 Andrej Karpathy 在社交媒体上力荐了一个超棒开源项目—— Modded-NanoGPT [1] ,该项目是由 KellerJordan 精心打造,对 Karpathy 自己的教学项目  llm.c [2] 中 PyTorch GPT-2 训练器的颠覆性升级,取得的成绩令人震撼:仅仅使用 8 块 H100 GPU,惊人的训练效率使 124M 参数模型的训练时间缩减至 5 分钟,不仅完美复现了原始模型的验证损失,更将机器学习训练效率推向了一个令人难以置信的新高度。并且,按照作者的迭代速度,这一纪录可能还会被打破。 Modded-NanoGPT 的成功源于其巧妙整合了多项尖端技术和优化策略。项目核心采用了现代化的架构,包括旋转嵌入((Rotary Embeddings))、 QK-Norm 和 ReLU^2 激活函数,这些改进显著提升了模型性能和训练稳定性。 一个关键创新是引入了 Muon 优化器。这种基于牛顿-舒尔茨迭代正交化动量的新型优化算法比传统方 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览