注册
登录
专栏名称:
包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
生态梦网
·
网友咨询:海滨大道何时增设挡光板?最新消息来了
·
昨天
科幻世界SFW
·
「蒙面写手」幻迷邀请赛副本第二阶段精彩继续!
·
3 天前
生态梦网
·
北京⇌滨海!这条城际大隧道贯通啦
·
3 天前
今天看啥
›
专栏
›
包包算法笔记
LLM预训练从0到1
包包算法笔记
·
公众号
· · 2024-09-25 16:00
文章预览
Author:ybq Link: https://zhuanlan.zhihu.com/p/718354385 这篇文章介绍下如何从零到一进行 pretrain 工作。 类似的文章应该有很多,不同的地方可能在于,我并不会去分析 pretrain 阶段的核心技术,而是用比较朴素的语言来描述这个大工程的每一块砖瓦。我的介绍偏方法论一些,主要目的是普及每个环节有哪些必须要做的琐碎工作、有哪些坑、以及有哪些避坑技巧。为了避免老板开了我,文中有一些内容的具体做法不会展开细说,请大家见谅。作为替代,我会推荐一些比较好的开源做法。 背景篇 时至今日,dense 模型有 qwen,MOE 模型有 deepseek,小尺寸模型有 minicpm。无论是个人还是大厂,都很难训出同 size 下更优秀的模型,大模型 pretrain 阶段全面拥抱开源的日子感觉不太远了。那么,在这个时代大背景下,自研 pretrain 模型的意义又有哪些呢? 正经答案: 各公司仅 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
生态梦网
·
网友咨询:海滨大道何时增设挡光板?最新消息来了
昨天
科幻世界SFW
·
「蒙面写手」幻迷邀请赛副本第二阶段精彩继续!
3 天前
生态梦网
·
北京⇌滨海!这条城际大隧道贯通啦
3 天前
新京报
·
乒乓球女单决赛后诋毁运动员和教练员,贺某某被刑拘!
3 月前
NS游戏分享
·
曝多款《战神》复刻版开发中,于2025年发售 | 任天堂承诺扩大Alarmo供货量
1 月前