文章预览
【点击】 加入大模型技术交流群 原文: https://zhuanlan.zhihu.com/p/695130168 这次打算用 Hugging Face 的 API 来写一份预训练大(小)模型的代码,也就是用 Trainer 来做预训练。由于只是想练习一下,因此打算选一个极小模型 + 小数据集。为了贴近主流,于是打算预训练一个 LLaMA 3——不过是超迷你版本,大小仅不到 20M。 想起来曾经看到过的微软的工作 TinyStories,探索的是语言模型在多小的情况下还能流利地讲故事,工作非常直白、有趣,刚好也契合我的练习想法,于是这次来复现一下。 代码放在这里了:GitHub - Mxoder/TinyStories: 从头预训练一只超迷你 LLaMA 3——复现 TinyStories。 https://github.com/Mxoder/TinyStories 1. 前期准备 让我们先来想一想大概需要做什么。 首先是 模型架构 的选择。原工作用的是 GPT Neo 架构(可以看他们的 config),这个算是很老的模型了,最
………………………………