文章预览
知乎:mc112611(已授权) 链接:https://zhuanlan.zhihu.com/p/1674261485 本篇为: 面向人群:觉得LLM很多复杂的结构和层级,懂很多原理,但是不知道怎么结合到一起 本篇会很长,但是应该不会又臭又长 本篇可能像当头一棒,但是有可能:力度刚刚好,懵逼不伤脑。 逐行拆解LlaMa大模型的所有算子,架构,包括RMSNorm,ROPE,SwiGLU实现 本篇未采用huggingface的库,全程pytorch实现,没有任何预训练模型 起始点为一本《西游记》原文,终点为你自己练的大模型 准备好pytorch,即使没有显卡也没关系,主要是LLM原理的学习,而不是看完这个文章就可以造个新的大模型架构出来。 本篇会竭尽所能,全程用大白话去拆分原理。 引言 本文全部代码已分享至google_colab,有魔法的可以自行查看,代码逐行注释,不想看文章的,可直接去colab上跑一下,不需要GPU资源,直接最低
………………………………