注册
登录
专栏名称:
魔搭ModelScope社区
阿里巴巴达摩院模型开源社区ModelScope官方账号
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
程序员的那些事
·
趣图:Bug11 又被黑了
·
2 天前
沉默王二
·
真的建议赶紧搞个软考证书!(红利期)
·
3 天前
程序猿
·
17年不更新,世界上最简陋的网站,收割了全世 ...
·
6 天前
今天看啥
›
专栏
›
魔搭ModelScope社区
社区供稿 |【8卡从零训练Steel-LLM】微调探索与评估
魔搭ModelScope社区
·
公众号
· · 2024-10-31 20:51
文章预览
01 前言 今年二月份,机缘巧合,朋友搞到了一台A100 80G SXM,机器放着也是怪浪费的,便萌生了从零预训练一个LLM的想法。一台机器不算多,并且最多可能也就用个3-4个月,掐指一算,训个1B左右的模型,1T左右的数据应该差不多。好景不长,机器用了一个多月吧,就被收回了,当时模型才训到了20k step(预计要训练100k step)。天无绝人之路,真的非常感谢某top 3老师的资助,支持了一个多月的一台H系列机器,才得以让我们的项目顺利完成。 打工的牛马,工作日10点到家,亦或是周末,靠着兴趣,每天弄点,拖拖拉拉,转眼已经到了10月了,才弄出来一个自己觉得差不多还说的过去的模型。和其他模型不太一样,我们的模型预训练时以中文语料为主,大概只有20%左右的英文数据,因此就不在英文榜单上现眼了。微调以后,最终在CEVAL上获得了38分,CMMLU ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
程序员的那些事
·
趣图:Bug11 又被黑了
2 天前
沉默王二
·
真的建议赶紧搞个软考证书!(红利期)
3 天前
程序猿
·
17年不更新,世界上最简陋的网站,收割了全世界的程序员
6 天前
智见AGI
·
比红杉还猛!7个月投资8家AI公司,智谱为什么投得这么凶?
3 月前
GetJoB超新星
·
Wekan:一款助力团队高效协作的看板工具, Trello 的完美开源替代!
2 月前