专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

万字干货！从零到一进行LLM pretrain的经验

深度学习自然语言处理 · 公众号 · · 2024-09-28 22:36

文章预览

作者: ybq，nlp码农，中国科学院大学信号与信息处理硕士原文: https://zhuanlan.zhihu.com/p/718354385 编辑：青稞AI 这篇文章介绍下如何从零到一进行 pretrain 工作。类似的文章应该有很多，不同的地方可能在于，我并不会去分析 pretrain 阶段的核心技术，而是用比较朴素的语言来描述这个大工程的每一块砖瓦。我的介绍偏方法论一些，主要目的是普及每个环节有哪些必须要做的琐碎工作、有哪些坑、以及有哪些避坑技巧。为了避免老板开了我，文中有一些内容的具体做法不会展开细说，请大家见谅。作为替代，我会推荐一些比较好的开源做法。背景篇时至今日，dense 模型有 qwen，MOE 模型有 deepseek，小尺寸模型有 minicpm。无论是个人还是大厂，都很难训出同 size 下更优秀的模型，大模型 pretrain 阶段全面拥抱开源的日子感觉不太远了。那么，在这个时代大背 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国基金报 · 销量突然猛增！很多人这几天出手，店员：有人一次性省了3万

1小时前

中国基金报 · 马云、蔡崇信控股基金出手，收购！

昨天

中国基金报 · 中欧基金董事长窦玉明：践行“工业化”投研升级以高质量发展迎接2025新机遇

3 天前

中国基金报 · 一夜之间！全球富豪损失7800亿！

3 天前

中国基金报 · 银华基金总经理王立新：以投资者为本坚持做长期正确的事

3 天前

小齐的公考常识 · （12元—20元）2025常识时政全年合集来啦（含国考、联考考前常识时政冲刺课程）

6 月前

ericwarn丁宁 · 回复@混沌的大卫: 农夫山泉的股息率偏低，港币高息环境下，最好考-20241019105223

3 月前

北美留学生观察 · 【寒假科研】牛剑/藤校教授带你10周搞定推荐信+论文

3 周前