专栏名称: 魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
今天看啥  ›  专栏  ›  魔搭ModelScope社区

社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估

魔搭ModelScope社区  · 公众号  ·  · 2024-10-31 20:51

文章预览

01 前言 今年二月份,机缘巧合,朋友搞到了一台A100 80G SXM,机器放着也是怪浪费的,便萌生了从零预训练一个LLM的想法。一台机器不算多,并且最多可能也就用个3-4个月,掐指一算,训个1B左右的模型,1T左右的数据应该差不多。好景不长,机器用了一个多月吧,就被收回了,当时模型才训到了20k step(预计要训练100k step)。天无绝人之路,真的非常感谢某top 3老师的资助,支持了一个多月的一台H系列机器,才得以让我们的项目顺利完成。 打工的牛马,工作日10点到家,亦或是周末,靠着兴趣,每天弄点,拖拖拉拉,转眼已经到了10月了,才弄出来一个自己觉得差不多还说的过去的模型。和其他模型不太一样,我们的模型预训练时以中文语料为主,大概只有20%左右的英文数据,因此就不在英文榜单上现眼了。微调以后,最终在CEVAL上获得了38分,CMMLU ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览