一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

如何从头训练大语言模型: A simple technical report

深度学习自然语言处理  · 公众号  ·  · 2024-10-15 22:11

文章预览

知乎:涮月亮的谪仙人(已授权) 链接:https://zhuanlan.zhihu.com/p/906819356 写在前面 自8月底训好自己的1.5B的LLM后,一直都没有发布一个完整的技术报告,不少小伙伴私信我催更,千呼万唤始出来。其实也没有太大动力去做,原因有三: 豁然开朗 :搞定全流程之后,对LLM确实豁然开朗不少,不过,发现要学的新东西更多了....尤其是这三个月,qwen, meta, anthropic等等发布的好文章实在太多了,真不想落下,没时间"反刍"当年的剩饭。 Reasoning兴趣 :对reasoning更感兴趣了(其实训1.5B模型的初衷,就是为了给将来从pretrain开始做reason的增强打基础)。 保研季忙碌 :9月保研季,保研的事情忙的焦头烂额,各种预推免与考核....还好现在终于有书读了! 今天来快速捋一下路线,写个简短的technical report,更多是原理介绍性的。按我个人理解,从最简单的部分开始,逐 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览