专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

【从零训练Steel-LLM】预训练代码讲解、改进与测试

AINLP  · 公众号  ·  · 2024-11-28 20:35
    

文章预览

此篇文章24年5月5日首发于我的zhi hu帐号“战士金”,内容有略微改动。预训练工作已经做完,后续还会做一些sft和评测的工作。 1 前言     我们的目标是从0预训练一个1B左右的LLM,使用T级别的数据,模型被称为Steel-LLM。我们会分享预训练过程中的关于数据收集、清洗、模型设计、训练程序等内容的所有细节和代码,更详细的项目介绍请见本系列的第一篇文章: 【从零训练Steel-LLM】 ‍ 预训练数据收集与处理 。 github:https: //github.com/zhanshijinwat/Steel-LLM/tree/main     本篇文章是该系列的第二篇文章,主要讲解预训练代码的改进与测试。我们选择在TinyLlama预训练代码的基础上进行改进,主要有如下两点考虑: 代码封装简单:TinyLlama的代码很简洁,便于阅读学习且易于改造。 基础功能齐全:对于训练1B模型来说,单卡即可训练,使用Transformers库或者 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览