LLM预训练从0到1

包包算法笔记 · 公众号 · · 2024-09-25 16:00

文章预览

Author:ybq Link: https://zhuanlan.zhihu.com/p/718354385 这篇文章介绍下如何从零到一进行 pretrain 工作。类似的文章应该有很多，不同的地方可能在于，我并不会去分析 pretrain 阶段的核心技术，而是用比较朴素的语言来描述这个大工程的每一块砖瓦。我的介绍偏方法论一些，主要目的是普及每个环节有哪些必须要做的琐碎工作、有哪些坑、以及有哪些避坑技巧。为了避免老板开了我，文中有一些内容的具体做法不会展开细说，请大家见谅。作为替代，我会推荐一些比较好的开源做法。背景篇时至今日，dense 模型有 qwen，MOE 模型有 deepseek，小尺寸模型有 minicpm。无论是个人还是大厂，都很难训出同 size 下更优秀的模型，大模型 pretrain 阶段全面拥抱开源的日子感觉不太远了。那么，在这个时代大背景下，自研 pretrain 模型的意义又有哪些呢？正经答案：各公司仅 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

生态梦网 · 网友咨询：海滨大道何时增设挡光板？最新消息来了

昨天

科幻世界SFW · 「蒙面写手」幻迷邀请赛副本第二阶段精彩继续！

3 天前

生态梦网 · 北京⇌滨海！这条城际大隧道贯通啦

3 天前

新京报 · 乒乓球女单决赛后诋毁运动员和教练员，贺某某被刑拘！

3 月前

NS游戏分享 · 曝多款《战神》复刻版开发中，于2025年发售 | 任天堂承诺扩大Alarmo供货量

1 月前