文章预览
大模型在生产和生活中的应用越来越多,这对大模型开发者来说是利好消息。 不过随着应用场景增多,对大模型的需求也多种多样。比如有些场景需要参数量为5B的模型,但是开源模型中正好没有这个规模的;也可能有些场景需要一个“总共5个专家激活其中2个专家”的MoE模型,开源模型中很可能也没有能满足这个设置的。 如果每次需要新的模型参数量,或者遇到某些模型结构维度有特定需求的情况,都从零(随机初始化)开始,对模型进行完整的预训练,成本就太高了。 在当下,训练数据动辄5T、10T,预训练的计算成本起步就是几万甚至几十万的GPU hours,即使是头部大公司也扛不住经常这么做。 因此如何对LLM进行高效的预训练,用较低的计算成本获得我们想要的模型,就是一个很重要的方向。 1.简介 如今开源LLM已经有不少,各个大模型团队内
………………………………