专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

【从零训练Steel-LLM】预训练代码讲解、改进与测试

AINLP · 公众号 · · 2024-11-28 20:35

文章预览

此篇文章24年5月5日首发于我的zhi hu帐号“战士金”，内容有略微改动。预训练工作已经做完，后续还会做一些sft和评测的工作。 1 前言我们的目标是从0预训练一个1B左右的LLM，使用T级别的数据，模型被称为Steel-LLM。我们会分享预训练过程中的关于数据收集、清洗、模型设计、训练程序等内容的所有细节和代码，更详细的项目介绍请见本系列的第一篇文章：【从零训练Steel-LLM】 ‍ 预训练数据收集与处理。 github：https: //github.com/zhanshijinwat/Steel-LLM/tree/main 本篇文章是该系列的第二篇文章，主要讲解预训练代码的改进与测试。我们选择在TinyLlama预训练代码的基础上进行改进，主要有如下两点考虑：代码封装简单：TinyLlama的代码很简洁，便于阅读学习且易于改造。基础功能齐全：对于训练1B模型来说，单卡即可训练，使用Transformers库或者 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博