文章预览
2024-07-28 06:37
本条微博链接
网页链接 在训练完 GPT-2(2.7B)之后,我通过使用 @karpathy 的 llm.c 🌠训练了一个 7.3B 模型,对缩放定律进行了更“深入”的研究 扩展模型很简单,主要是堆叠更多转换器层(使模型更深)。在仅使用 1000 亿个 token 进行训练后,该模型在 HellaSwag 上的准确率达到 68.2%,超过了 GPT-3(6.7 亿)在其论文中的 67.4% 准确率,该论文使用 3000 亿个 token(3 倍以上的 token)进行训练。 培训详情: - 模型配置
………………………………