专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
今天看啥  ›  专栏  ›  大模型智能

这段时间搞大模型的血和泪

大模型智能  · 公众号  ·  · 2024-08-30 09:00

文章预览

大模型智能|分享 来源 | 知乎 作者 | 赵俊博 Jake 李沐大神最近分享了很多,我来舔着脸跟一笔,写下近段时间研发上面的血泪史。 1.按照目前的发展,大部分实验室在LLM上很难搞到百亿以上的参数量了,对更大模型(dense或者MoE)也只能说望而却步了;我们烧尽个人腰包和经费也只能勉强碰到500多亿的MoE,并且代价是到明年就是穷光蛋一个。 2.实际落地里面,不可能指望单独一个LLM放在那儿完成任务,不论是多强的模型也不行,尊重工程、产业和商业逻辑。 3.模型本身的迭代重度依赖数据,数据的迭代也需要依靠肉眼和拍脑袋。从模型结构上基本上是Transformer(+少量mamba、rmkv等,虽然我们没试过),这个点我们反正没资源去纠结了,然后就是玄学N件套比如调参和babysitting。 4.由于单次实验成本过高,半自动化、自动化评测都不能全信,叠加主观评 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览