这段时间搞大模型的血和泪

包包算法笔记 · 公众号 · · 2024-08-27 17:00

文章预览

今天给大家分享一篇好友知乎@赵俊博 Jake在这段时间搞大模型的心路历程。作者：@赵俊博 Jake 知乎：https://zhuanlan.zhihu.com/p/716420396 李沐大神最近分享了很多，我来舔着脸跟一笔，写下近段时间研发上面的血泪史。 1.按照目前的发展，大部分实验室在LLM上很难搞到百亿以上的参数量了，对更大模型（dense或者MoE）也只能说望而却步了；我们烧尽个人腰包和经费也只能勉强碰到500多亿的MoE，并且代价是到明年就是穷光蛋一个。 2.实际落地里面，不可能指望单独一个LLM放在那儿完成任务，不论是多强的模型也不行，尊重工程、产业和商业逻辑。 3.模型本身的迭代重度依赖数据，数据的迭代也需要依靠肉眼和拍脑袋。从模型结构上基本上是Transformer（+少量mamba、rmkv等，虽然我们没试过），这个点我们反正没资源去纠结了，然后就是玄学N件套比如调参和babys ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国教育报 · 每一个爱发脾气的孩子背后，都藏着父母不知道的秘密 | 伴读

昨天

摘星DSE · 25年2月摘星DSE寒假集训班招生！（高一至三）英数摸底测试报名！

17 小时前

摘星DSE · 25年2月摘星DSE寒假集训班招生！（高一至三）英数摸底测试报名！

17 小时前

新浪教育 · 教育部公布：2025考研人数再降50万

2 天前

桦爸聊升学 · 广州前八高中重要信息大盘点！包含入读途径、录取分数等

6 天前

酷玩实验室 · 国外卖疯了的“越野登山鞋"多变态？防撞耐磨，登山如履平地，现百元清仓!

3 周前