专栏名称: 斌叔OKmath
橙旭园CEO 教育博主 教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。
目录
相关文章推荐
今天看啥  ›  专栏  ›  斌叔OKmath

网页链接在训练完 GPT-2(2.7B)之后,我通过使用@kar-20240728063751

斌叔OKmath  · 微博  ·  · 2024-07-28 06:37
    

文章预览

2024-07-28 06:37 本条微博链接 网页链接 在训练完 GPT-2(2.7B)之后,我通过使用 @karpathy 的 llm.c 🌠训练了一个 7.3B 模型,对缩放定律进行了更“深入”的研究 扩展模型很简单,主要是堆叠更多转换器层(使模型更深)。在仅使用 1000 亿个 token 进行训练后,该模型在 HellaSwag 上的准确率达到 68.2%,超过了 GPT-3(6.7 亿)在其论文中的 67.4% 准确率,该论文使用 3000 亿个 token(3 倍以上的 token)进行训练。 培训详情: - 模型配置 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览