文章预览
以下 文 章来源于微信公众号:深度学习自然语言处理 作者:真中合欢 链接:https://mp.weixin.qq.com/s/OfgEoh5UXSqNBTMuTSC12w 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 现在LLM 的大小为什都设计成6/7B、13B和130B几个档次?本文作者从显存匹配角度给出了详细回答。希望对大家有所帮助。 答案简单,就是匹配显存。 6B模型可以在在12/16/24G显存的消费级显卡部署和训练。如果一个公司的模型不打算在消费级显卡部署,通常不会训6B这个规模。而且通常还会有一个1.4b或者2.8b,这个是比较适合在手机、车载端量化部署的尺寸。 13B模型按照4k长度组织数据,数据并行= 2,刚好占满一个8卡机,并且可以量化部署在A10 甚至4090。 下一档也不是130B,目前更大模型有16B、34B、52B、56B、65B、70B、100B、130B、170B、220B这几个规模,基本都是刚好占满某种规格
………………………………