文章预览
以下 文 章来源于微信公众号: Angry Bugs 作者: Angry Bugs 链接: https://zhuanlan.zhihu.com/p/693252663 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 随着人工智能技术的飞速发展,大语言训练模型作为其中的重要分支,近年来取得了显著的进步。但是在许多资源受限的条件下,需要更小的模型。本文为读者汇总了从零训练的 1B 以下的小模型,以适应不同场景的需求。 最好的学习方式莫过于自己从头做一遍。学习大模型的相关知识以来,一直都想从头自己训练一个 1B 以下的模型,感觉这样才算是真的学过了。不过以手头的资源,也只能玩玩儿迷你的小模型了。最近在网上搜了不少资料,主要是 GitHub 上的仓库和 Arxiv 上的 paper,顺便记录在这里。 https://github.com/karpathy/nanoGPT nanoGPT 是 karpathy 大神写的 GPT-2 最小实现。麻雀虽小,五脏俱全。GPT-
………………………………