专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

从零预训练LLAMA3的完整指南：一个文件，探索Scaling Law

AINLP · 公众号 · · 2024-07-15 10:10

文章预览

作者：Mantavers，AGI独角兽声明：本文只做分享，版权归原作者，来源青稞AI 原文：https://zhuanlan.zhihu.com/p/706097271 引言最近，Andrew大神发布了一个全新的视频教程，讲解了从零开始预训练GPT-2的全过程。这个四小时的视频详细介绍了模型的构建、训练数据的加载、评估方法以及在分布式框架下的DDP训练。受到此视频的启发，我决定使用LLaMA3架构，从零开始预训练一个大型语言模型，并对比不同模型参数下模型能力的提升。本文将开源所有相关代码在： https://github.com/hengjiUSTC/learn-llm/tree/main/pretrain 接下来让我们进入正题。模型构建和评估为了能够有一个对照效果，同时保证我们之后自己从零实现的LLaMA模型的正确性，我们首先通过加载Huggingface的官方LLaMA3模型，对模型进行HellaSwag评估。代码开源在： https://github.com/hengjiUSTC/learn-llm/blob/main/pretrain/play_wi ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

有方空间 · 新作｜虚张声势之家 - 废土乐园 / 察社办公室

2 天前

archrace 建筑竞赛 · 结果 | 瑞士洛桑 Vélodrome 学校设计竞赛结果

2 天前

有方空间 · BIG为自己设计的新家，哥本哈根新总部公开

6 天前

大迁世界 · 没人愿意使用这些数组方法

6 天前

大迁世界 · 没人愿意使用这些数组方法

6 天前

互联网的一些事 · 定了！官方认可，主播列入国家新职业；苹果通话录音功能上线；360安全大模型免费开放；每天打卡喊雷军老公；车企高层声讨理想周销量榜

3 月前

广州PLUS+ · 绷不住！广交会首日，我堵在路上，睡在街上

1 月前