专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

长文详解--LLM高效预训练(一)

AINLP  · 公众号  ·  · 2024-09-05 10:09

文章预览

大模型在生产和生活中的应用越来越多,这对大模型开发者来说是利好消息。 不过随着应用场景增多,对大模型的需求也多种多样。比如有些场景需要参数量为5B的模型,但是开源模型中正好没有这个规模的;也可能有些场景需要一个“总共5个专家激活其中2个专家”的MoE模型,开源模型中很可能也没有能满足这个设置的。 如果每次需要新的模型参数量,或者遇到某些模型结构维度有特定需求的情况,都从零(随机初始化)开始,对模型进行完整的预训练,成本就太高了。 在当下,训练数据动辄5T、10T,预训练的计算成本起步就是几万甚至几十万的GPU hours,即使是头部大公司也扛不住经常这么做。 因此如何对LLM进行高效的预训练,用较低的计算成本获得我们想要的模型,就是一个很重要的方向。 1.简介 如今开源LLM已经有不少,各个大模型团队内 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览