专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
爱否科技  ·  疑似 iPhone 17 ... ·  4 天前  
今天看啥  ›  专栏  ›  AINLP

【从零训练Steel-LLM】模型设计

AINLP  · 公众号  ·  · 2024-12-18 10:10
    

文章预览

这是从零训练Steel-LLM的第三篇文章,于24年7月9日首发于我的zhi hu帐号:“战士金”,略有修改。目前正在进行模型微调和评估的相关工作,近期已经将训练过程中的多个checkpoint上传到HuggingFace,最终一共训练了1060k个step,1.1T个token(2个epoch)。 1 从零训练Steel-LLM目录 【从零训练Steel-LLM】预训练数据收集与处理 【从零训练Steel-LLM】预训练代码讲解、改进与测试 【从零训练Steel-LLM】模型设计 2 前言     我们的目标是从0预训练一个1B左右的LLM,使用T级别的数据,模型被称为Steel-LLM。我们会分享预训练过程中的关于数据收集、清洗、模型设计、训练程序等内容的所有细节和代码,更详细的项目介绍请见本系列的第一篇文章。相关资源链接如下: github链接:https: //github.com/zhanshijinwat/Steel-LLM/tree/main huggingface链接:https: //huggingface.co/gqszhanshijin/Steel-LLM 本 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览