文章预览
这是从零训练Steel-LLM的第三篇文章,于24年7月9日首发于我的zhi hu帐号:“战士金”,略有修改。目前正在进行模型微调和评估的相关工作,近期已经将训练过程中的多个checkpoint上传到HuggingFace,最终一共训练了1060k个step,1.1T个token(2个epoch)。 1 从零训练Steel-LLM目录 【从零训练Steel-LLM】预训练数据收集与处理 【从零训练Steel-LLM】预训练代码讲解、改进与测试 【从零训练Steel-LLM】模型设计 2 前言 我们的目标是从0预训练一个1B左右的LLM,使用T级别的数据,模型被称为Steel-LLM。我们会分享预训练过程中的关于数据收集、清洗、模型设计、训练程序等内容的所有细节和代码,更详细的项目介绍请见本系列的第一篇文章。相关资源链接如下: github链接:https: //github.com/zhanshijinwat/Steel-LLM/tree/main huggingface链接:https: //huggingface.co/gqszhanshijin/Steel-LLM 本
………………………………