今天看啥  ›  专栏  ›  NLP工作站

这段时间搞大模型的血和泪

NLP工作站  · 公众号  ·  · 2024-08-26 11:11

文章预览

今天给大家分享一篇好友知乎@赵俊博 Jake在这段时间搞大模型的心路历程。 作者:@赵俊博 Jake 知乎:https://zhuanlan.zhihu.com/p/716420396 李沐大神最近分享了很多,我来舔着脸跟一笔,写下近段时间研发上面的血泪史。 1.按照目前的发展,大部分实验室在LLM上很难搞到百亿以上的参数量了,对更大模型(dense或者MoE)也只能说望而却步了;我们烧尽个人腰包和经费也只能勉强碰到500多亿的MoE,并且代价是到明年就是穷光蛋一个。 2.实际落地里面,不可能指望单独一个LLM放在那儿完成任务,不论是多强的模型也不行,尊重工程、产业和商业逻辑。 3.模型本身的迭代重度依赖数据,数据的迭代也需要依靠肉眼和拍脑袋。从模型结构上基本上是Transformer(+少量mamba、rmkv等,虽然我们没试过),这个点我们反正没资源去纠结了,然后就是玄学N件套比如调参和babys ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览