网页链接在训练完 GPT-2（2.7B）之后，我通过使用@kar-20240728063751

斌叔OKmath · 微博 · · 2024-07-28 06:37

文章预览

2024-07-28 06:37 本条微博链接网页链接在训练完 GPT-2（2.7B）之后，我通过使用 @karpathy 的 llm.c 🌠训练了一个 7.3B 模型，对缩放定律进行了更“深入”的研究扩展模型很简单，主要是堆叠更多转换器层（使模型更深）。在仅使用 1000 亿个 token 进行训练后，该模型在 HellaSwag 上的准确率达到 68.2%，超过了 GPT-3（6.7 亿）在其论文中的 67.4% 准确率，该论文使用 3000 亿个 token（3 倍以上的 token）进行训练。培训详情： - 模型配置 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博