专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

从头预训练一只迷你 LLaMA 3

吃果冻不吐果冻皮  · 公众号  ·  · 2024-08-08 11:00

文章预览

【点击】 加入大模型技术交流群 原文: https://zhuanlan.zhihu.com/p/695130168 这次打算用 Hugging Face 的 API 来写一份预训练大(小)模型的代码,也就是用 Trainer 来做预训练。由于只是想练习一下,因此打算选一个极小模型 + 小数据集。为了贴近主流,于是打算预训练一个 LLaMA 3——不过是超迷你版本,大小仅不到 20M。 想起来曾经看到过的微软的工作 TinyStories,探索的是语言模型在多小的情况下还能流利地讲故事,工作非常直白、有趣,刚好也契合我的练习想法,于是这次来复现一下。 代码放在这里了:GitHub - Mxoder/TinyStories: 从头预训练一只超迷你 LLaMA 3——复现 TinyStories。 https://github.com/Mxoder/TinyStories 1. 前期准备 让我们先来想一想大概需要做什么。 首先是 模型架构 的选择。原工作用的是 GPT Neo 架构(可以看他们的 config),这个算是很老的模型了,最 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览