专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

长文详解--LLM高效预训练(一)

AINLP · 公众号 · · 2024-09-05 10:09

文章预览

大模型在生产和生活中的应用越来越多，这对大模型开发者来说是利好消息。不过随着应用场景增多，对大模型的需求也多种多样。比如有些场景需要参数量为5B的模型，但是开源模型中正好没有这个规模的；也可能有些场景需要一个“总共5个专家激活其中2个专家”的MoE模型，开源模型中很可能也没有能满足这个设置的。如果每次需要新的模型参数量，或者遇到某些模型结构维度有特定需求的情况，都从零（随机初始化）开始，对模型进行完整的预训练，成本就太高了。在当下，训练数据动辄5T、10T，预训练的计算成本起步就是几万甚至几十万的GPU hours，即使是头部大公司也扛不住经常这么做。因此如何对LLM进行高效的预训练，用较低的计算成本获得我们想要的模型，就是一个很重要的方向。 1.简介如今开源LLM已经有不少，各个大模型团队内 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博