从零训练的 1B 以下小模型汇总

包包算法笔记 · 公众号 · · 2024-07-07 10:00

文章预览

知乎：Angry Bugs 链接：https://zhuanlan.zhihu.com/p/693252663 最好的学习方式莫过于自己从头做一遍。学习大模型的相关知识以来，一直都想从头自己训练一个 1B 以下的模型，感觉这样才算是真的学过了。不过以手头的资源，也只能玩玩儿迷你的小模型了。最近在网上搜了不少资料，主要是 GitHub 上的仓库和 Arxiv 上的 paper，顺便记录在这里。 https://github.com/karpathy/nanoGPT nanoGPT 是 karpathy 大神写的 GPT-2 最小实现。麻雀虽小，五脏俱全。GPT-2 是大模型的鼻祖，很多论文都以 nanoGPT 为基础魔改或者作为 baseline。nanoGPT 共有 0.1B 到 1.5B 四个大小不同的版本。训练 GPT-2 的文章有很多，虽然有些比较老的，但是也值得参考，列举一些我觉得不错的： https://www.kaggle.com/code/pritishmishra/gpt-training-on-wikipedia-dataset-from-scratch https://zhuanlan.zhihu.com/p/79714797 https://zhuanlan.zhihu.com/p/606339 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

英国大家谈 · 英国大家谈商务合作及转载须知

5 小时前

郎club · “官二代”大佬一夜消失，涉案2亿美金？

昨天

雪球 · 午后跳水！创指三日跌超9%！超4100股飘绿！逆市爆发，破净股的春天来了？

5 天前

神嘛事儿 · 如果人与劳动产出脱钩，那么人的剩余价值是什么呢，你好好思考下，人-20241117232813

6 天前

TAGChengdu · 10.10 周四｜B2B2B

1 月前

Lacan心理 · 人格障碍专题研讨小组成员招募（第15期）！

1 月前