专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

梳理一下MiniCPM

AINLP  · 公众号  ·  · 2024-06-25 10:10
    

文章预览

MiniCPM是面壁智能和清华开源的模型,MiniCPM开源系列包括非embedding参数为1.2B和2.4B两个规模的模型,以及对应的MiniCPM-DPO,MiniCPM-MoE和MiniCPM-128K模型。 简单梳理一下MiniCPM提到的一些内容。 1.背景 大模型的训练成本很高,而且很多机制还没搞清楚,训出来的大规模模型在很多设备上也跑不起来,因此现在有不少机构对小一点的模型,即SLM,进行更全面的探索,比如Phi系列、TinyLlama、MobileLLM和Gemma等。 MiniCPM也是对SLM的一次探索,从中得到的经验也可以推广到更大的模型上。 2.风洞实验 为了找到好的模型参数和训练参数,MiniCPM做了很多“风洞实验”(Model Wind Tunnel Experiments)。 这些风洞实验主要包括三个部分:(1)搜索模型结构的超参(2)探索batch size的scaling(3)寻找最佳的learning rate。 后续风洞实验所用的模型具体参数如下 2.1.模型超参 预训练资源 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览