文章预览
今天给大家分享一篇好友知乎@赵俊博 Jake在这段时间搞大模型的心路历程。 作者:@赵俊博 Jake 知乎:https://zhuanlan.zhihu.com/p/716420396 李沐大神最近分享了很多,我来舔着脸跟一笔,写下近段时间研发上面的血泪史。 1.按照目前的发展,大部分实验室在LLM上很难搞到百亿以上的参数量了,对更大模型(dense或者MoE)也只能说望而却步了;我们烧尽个人腰包和经费也只能勉强碰到500多亿的MoE,并且代价是到明年就是穷光蛋一个。 2.实际落地里面,不可能指望单独一个LLM放在那儿完成任务,不论是多强的模型也不行,尊重工程、产业和商业逻辑。 3.模型本身的迭代重度依赖数据,数据的迭代也需要依靠肉眼和拍脑袋。从模型结构上基本上是Transformer(+少量mamba、rmkv等,虽然我们没试过),这个点我们反正没资源去纠结了,然后就是玄学N件套比如调参和babys
………………………………