从头预训练一只迷你 LLaMA 3

吃果冻不吐果冻皮 · 公众号 · · 2024-08-08 11:00

文章预览

【点击】加入大模型技术交流群原文： https://zhuanlan.zhihu.com/p/695130168 这次打算用 Hugging Face 的 API 来写一份预训练大（小）模型的代码，也就是用 Trainer 来做预训练。由于只是想练习一下，因此打算选一个极小模型 + 小数据集。为了贴近主流，于是打算预训练一个 LLaMA 3——不过是超迷你版本，大小仅不到 20M。想起来曾经看到过的微软的工作 TinyStories，探索的是语言模型在多小的情况下还能流利地讲故事，工作非常直白、有趣，刚好也契合我的练习想法，于是这次来复现一下。代码放在这里了：GitHub - Mxoder/TinyStories: 从头预训练一只超迷你 LLaMA 3——复现 TinyStories。 https://github.com/Mxoder/TinyStories 1. 前期准备让我们先来想一想大概需要做什么。首先是模型架构的选择。原工作用的是 GPT Neo 架构（可以看他们的 config），这个算是很老的模型了，最 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博