全是细节 | 聊一聊做Pretrain的经验

NLP工作站 · 公众号 · 科技媒体 · 2024-09-24 13:13

主要观点总结

本文介绍了如何从零开始进行预训练工作，包括背景、数据、清洗、去重、配比、顺序、流水线、实验、评估等多个环节。作者详细阐述了每个环节的重要性，以及在预训练工作中需要注意的技巧和坑点。文章强调，预训练是一个成本极高的工作，需要以稳健为主，避免盲目追求创新。同时，文章也推荐了一些开源做法和工具，并鼓励读者通过改造benchmark和概率探针来评估模型的效果。

关键观点总结

关键观点1: 背景篇

介绍了预训练工作的重要性和时代背景，以及开源模型对自研预训练模型的影响。

关键观点2: 数据篇

讨论了数据爬取、清洗、去重、配比、顺序和流水线等关键步骤，强调了数据清洗的重要性，并给出了具体建议。

关键观点3: 实验篇

介绍了在小模型上进行实验、使用scaling_law以及训练框架的选择等，强调了实验阶段的重要性。

关键观点4: 评估篇

讨论了通过PPL、benchmark、概率探针等方式评估模型效果，强调了评估环节的重要性。

关键观点5: 总结篇

总结了预训练工作的全环节，强调了每个环节的重要性，并给出了建议和推荐。

文章预览

今天给大家分享一篇好友@知乎ybq的文章，主要介绍下如何从零到一进行 pretrain 工作。（PS：手快了，名字打错了，ybq哈）知乎：https://zhuanlan.zhihu.com/p/718354385 类似的文章应该有很多，不同的地方可能在于，我并不会去分析 pretrain 阶段的核心技术，而是用比较朴素的语言来描述这个大工程的每一块砖瓦。我的介绍偏方法论一些，主要目的是普及每个环节有哪些必须要做的琐碎工作、有哪些坑、以及有哪些避坑技巧。为了避免老板开了我，文中有一些内容的具体做法不会展开细说，请大家见谅。作为替代，我会推荐一些比较好的开源做法。背景篇时至今日，dense 模型有 qwen，MOE 模型有 deepseek，小尺寸模型有 minicpm。无论是个人还是大厂，都很难训出同 size 下更优秀的模型，大模型 pretrain 阶段全面拥抱开源的日子感觉不太远了。那么，在这个时代大 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博