主要观点总结
文章主要介绍了从零开始预训练(pretrain)工作的详细流程,包括背景、数据准备、数据清洗、数据去重、数据配比、数据顺序、数据流水线、模型结构、模型参数、训练框架选择、训练技巧、评估以及总结等。文章用朴素的语言描述了预训练大模型的各个环节,涵盖了从数据收集、处理到模型训练、评估的完整流程,并分享了一些避坑技巧和开源做法。
关键观点总结
关键观点1: 背景篇
详细介绍了预训练工作的重要性和意义,以及目前模型开源和自研的优劣势。
关键观点2: 数据篇
讨论了数据爬取、清洗、去重、配比、顺序和流水线等步骤,强调了数据质量的重要性。
关键观点3: 模型结构
建议采用稳健的结构,避免不必要的创新,并提到了模型参数的选择。
关键观点4: 训练篇
讨论了预训练中的Tokenizer、模型参数、训练框架选择、训练技巧等。
关键观点5: 评估篇
介绍了评估预训练模型的方法,包括PPL、Benchmark、概率探针等。
文章预览
整理:NLP工作站 知乎:https://zhuanlan.zhihu.com/p/718354385 这篇文章介绍下如何从零到一进行 pretrain 工作。 类似的文章应该有很多,不同的地方可能在于,我并不会去分析 pretrain 阶段的核心技术,而是用比较朴素的语言来描述这个大工程的每一块砖瓦。我的介绍偏方法论一些,主要目的是普及每个环节有哪些必须要做的琐碎工作、有哪些坑、以及有哪些避坑技巧。为了避免老板开了我,文中有一些内容的具体做法不会展开细说,请大家见谅。作为替代,我会推荐一些比较好的开源做法。 背景篇 时至今日,dense 模型有 qwen,MOE 模型有 deepseek,小尺寸模型有 minicpm。无论是个人还是大厂,都很难训出同 size 下更优秀的模型,大模型 pretrain 阶段全面拥抱开源的日子感觉不太远了。那么,在这个时代大背景下,自研 pretrain 模型的意义又有哪些呢? 正经答案
………………………………