这段时间搞大模型的血和泪

NLP工作站 · 公众号 · · 2024-08-26 11:11

文章预览

今天给大家分享一篇好友知乎@赵俊博 Jake在这段时间搞大模型的心路历程。作者：@赵俊博 Jake 知乎：https://zhuanlan.zhihu.com/p/716420396 李沐大神最近分享了很多，我来舔着脸跟一笔，写下近段时间研发上面的血泪史。 1.按照目前的发展，大部分实验室在LLM上很难搞到百亿以上的参数量了，对更大模型（dense或者MoE）也只能说望而却步了；我们烧尽个人腰包和经费也只能勉强碰到500多亿的MoE，并且代价是到明年就是穷光蛋一个。 2.实际落地里面，不可能指望单独一个LLM放在那儿完成任务，不论是多强的模型也不行，尊重工程、产业和商业逻辑。 3.模型本身的迭代重度依赖数据，数据的迭代也需要依靠肉眼和拍脑袋。从模型结构上基本上是Transformer（+少量mamba、rmkv等，虽然我们没试过），这个点我们反正没资源去纠结了，然后就是玄学N件套比如调参和babys ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

艾邦高分子 · 不同型号碳纤维在航空航天、压力容器、汽车、海洋等领域应用

3 天前

高分子科学前沿 · 马光辉院士/樊春海院士/顾臻教授 Cell新姊妹刊联合讲座重磅来袭！

4 天前

高分子科学前沿 · 江南大学刘天西/樊玮教授团队《AFM》：冷冻辅助墨水直写技术同时实现气凝胶微观和宏观结构的定制化构筑

6 天前

IPO早知道 · 百利天恒冲刺港交所：6款ADC药物进入临床研究，今年前四个月净利润48亿元

4 月前

债文新说 · 今天14D降了10BP，市场没什么反应

1 月前

电池中国 · 【视频】CBIS2024大咖说 | 电源协会王泽深/中国科学院孙世刚院士/国科新能方建华

2 天前