专栏名称: 江大白

专业有趣的AI内容平台，关注后回复【算法】，获取45家大厂的《人工智能算法岗江湖武林秘籍》

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

上海科创汇 · 《普陀区支持科技创新实施意见》2025-2026 · 17 小时前

创业家 · 张勇：在抖音上做品牌，一定要取一个响当当的好名字 · 2 天前

春江潮起 · Siri“偷听”风波：苹果公司同意支付950 ... · 2 天前

荔枝新闻 · 南京首发！南京 ⇌ 北京，最快3小时24分钟直达！ · 3 天前

电脑报 · Mini-LED显示器迎白菜价，有必要买一台吗？ · 3 天前

今天看啥 › 专栏 › 江大白

从零训练1B以下小模型，梳理汇总

江大白 · 公众号 · · 2024-07-09 08:00

文章预览

以下文章来源于微信公众号： Angry Bugs 作者： Angry Bugs 链接： https://zhuanlan.zhihu.com/p/693252663 本文仅用于学术分享，如有侵权，请联系后台作删文处理导读随着人工智能技术的飞速发展，大语言训练模型作为其中的重要分支，近年来取得了显著的进步。但是在许多资源受限的条件下，需要更小的模型。本文为读者汇总了从零训练的 1B 以下的小模型，以适应不同场景的需求。最好的学习方式莫过于自己从头做一遍。学习大模型的相关知识以来，一直都想从头自己训练一个 1B 以下的模型，感觉这样才算是真的学过了。不过以手头的资源，也只能玩玩儿迷你的小模型了。最近在网上搜了不少资料，主要是 GitHub 上的仓库和 Arxiv 上的 paper，顺便记录在这里。 https://github.com/karpathy/nanoGPT nanoGPT 是 karpathy 大神写的 GPT-2 最小实现。麻雀虽小，五脏俱全。GPT- ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

上海科创汇 · 《普陀区支持科技创新实施意见》2025-2026

17 小时前

创业家 · 张勇：在抖音上做品牌，一定要取一个响当当的好名字

2 天前

春江潮起 · Siri“偷听”风波：苹果公司同意支付9500万美元

2 天前

春江潮起 · Siri“偷听”风波：苹果公司同意支付9500万美元

2 天前

荔枝新闻 · 南京首发！南京 ⇌ 北京，最快3小时24分钟直达！

3 天前

荔枝新闻 · 南京首发！南京 ⇌ 北京，最快3小时24分钟直达！

3 天前

电脑报 · Mini-LED显示器迎白菜价，有必要买一台吗？

3 天前

电脑报 · Mini-LED显示器迎白菜价，有必要买一台吗？

3 天前

电影山海经 · 从是枝裕和看上海日常影展的贫瘠

4 月前