专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
今天看啥  ›  专栏  ›  江大白

从零训练1B以下小模型,梳理汇总

江大白  · 公众号  ·  · 2024-07-09 08:00

文章预览

以下 文 章来源于微信公众号: Angry Bugs 作者: Angry Bugs 链接: https://zhuanlan.zhihu.com/p/693252663 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 随着人工智能技术的飞速发展,大语言训练模型作为其中的重要分支,近年来取得了显著的进步。但是在许多资源受限的条件下,需要更小的模型。本文为读者汇总了从零训练的 1B 以下的小模型,以适应不同场景的需求。 最好的学习方式莫过于自己从头做一遍。学习大模型的相关知识以来,一直都想从头自己训练一个 1B 以下的模型,感觉这样才算是真的学过了。不过以手头的资源,也只能玩玩儿迷你的小模型了。最近在网上搜了不少资料,主要是 GitHub 上的仓库和 Arxiv 上的 paper,顺便记录在这里。 https://github.com/karpathy/nanoGPT nanoGPT 是 karpathy 大神写的 GPT-2 最小实现。麻雀虽小,五脏俱全。GPT- ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览