专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

LLM训练全细节 | 如何从零到一进行 pretrain 工作

AINLP · 公众号 · AI 科技媒体 · 2024-12-23 10:07

主要观点总结

文章主要介绍了从零开始预训练（pretrain）工作的详细流程，包括背景、数据准备、数据清洗、数据去重、数据配比、数据顺序、数据流水线、模型结构、模型参数、训练框架选择、训练技巧、评估以及总结等。文章用朴素的语言描述了预训练大模型的各个环节，涵盖了从数据收集、处理到模型训练、评估的完整流程，并分享了一些避坑技巧和开源做法。

关键观点总结

关键观点1: 背景篇

详细介绍了预训练工作的重要性和意义，以及目前模型开源和自研的优劣势。

关键观点2: 数据篇

讨论了数据爬取、清洗、去重、配比、顺序和流水线等步骤，强调了数据质量的重要性。

关键观点3: 模型结构

建议采用稳健的结构，避免不必要的创新，并提到了模型参数的选择。

关键观点4: 训练篇

讨论了预训练中的Tokenizer、模型参数、训练框架选择、训练技巧等。

关键观点5: 评估篇

介绍了评估预训练模型的方法，包括PPL、Benchmark、概率探针等。

文章预览

整理：NLP工作站知乎：https://zhuanlan.zhihu.com/p/718354385 这篇文章介绍下如何从零到一进行 pretrain 工作。类似的文章应该有很多，不同的地方可能在于，我并不会去分析 pretrain 阶段的核心技术，而是用比较朴素的语言来描述这个大工程的每一块砖瓦。我的介绍偏方法论一些，主要目的是普及每个环节有哪些必须要做的琐碎工作、有哪些坑、以及有哪些避坑技巧。为了避免老板开了我，文中有一些内容的具体做法不会展开细说，请大家见谅。作为替代，我会推荐一些比较好的开源做法。背景篇时至今日，dense 模型有 qwen，MOE 模型有 deepseek，小尺寸模型有 minicpm。无论是个人还是大厂，都很难训出同 size 下更优秀的模型，大模型 pretrain 阶段全面拥抱开源的日子感觉不太远了。那么，在这个时代大背景下，自研 pretrain 模型的意义又有哪些呢？正经答案 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博