专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

如何从头训练大语言模型: A simple technical report

AINLP  · 公众号  ·  · 2024-10-16 10:18

文章预览

知乎:涮月亮的谪仙人(已授权) 链接:https://zhuanlan.zhihu.com/p/906819356 写在前面 自8月底训好自己的1.5B的LLM后,一直都没有发布一个完整的技术报告,不少小伙伴私信我催更,千呼万唤始出来。其实也没有太大动力去做,原因有三: 豁然开朗 :搞定全流程之后,对LLM确实豁然开朗不少,不过,发现要学的新东西更多了....尤其是这三个月,qwen, meta, anthropic等等发布的好文章实在太多了,真不想落下,没时间"反刍"当年的剩饭。 Reasoning兴趣 :对reasoning更感兴趣了(其实训1.5B模型的初衷,就是为了给将来从pretrain开始做reason的增强打基础)。 保研季忙碌 :9月保研季,保研的事情忙的焦头烂额,各种预推免与考核....还好现在终于有书读了! 今天来快速捋一下路线,写个简短的technical report,更多是原理介绍性的。按我个人理解,从最简单的部分开始,逐 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览