今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

现在LLM 的大小为什都设计成6/7B、13B和130B几个档次?

机器学习算法与自然语言处理  · 公众号  ·  · 2024-07-06 00:00
    

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区,受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。 社区的愿景 是促进国内外自然语言处理,机器学习学术界、产业界和广大爱好者之间的交流和进步,特别是初学者同学们的进步。 转载自 | 知乎 知乎:真中合欢 链接:https://www.zhihu.com/question/627258986/answer/3262812950 答案简单,就是匹配显存。 6B模型可以在在12/16/24G显存的消费级显卡部署和训练。如果一个公司的模型不打算在消费级显卡部署,通常不会训6B这个规模。而且通常还会有一个1.4b或者2.8b,这个是比较适合在手机、车载端量化部署的尺寸。 13B模型按照4k长度组织数据,数据并行=2,刚好占满一个8卡机,并且可以量化部署在A10 甚至4090。 下一档也不是130B,目前更大模型有16B、34B、52B、56B、65B、70B、100B、130B、170B、220B这几个规模, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览