专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

phi系列模型

AINLP  · 公众号  ·  · 2024-08-17 22:27
    

文章预览

最近在做端侧模型和数据合成的工作,微软的phi系列是受到关注比较多的一个小规模模型,整理一下细节,看看有什么可以借鉴使用的。 1.phi-1 phi-1包括两个模型:350M参数的phi-1-small和1.3B参数的phi-1-base。 相比其他SLM/LLM,phi-1的特点是所用数据极少,预训练只有7B: 6B从web数据筛选而来 1B使用GPT-3.5生成 训练资源也只用到了A100*8,共训练了4天。 由于模型规模较小,并且为了快速验证方法的有效性,phi-1把关注点放在模型的code能力上(python语言)。phi-1-base和其他通用LM/代码LM在参数量、训练数据量,以及在HumanEval和MBPP上的效果对比如下表: 1.1.模型 phi-1关注点在数据上,因此模型结构上没有特别设计,使用的标准的decoder-only,phi-1两个模型的参数如下: phi-1-base phi-1-small 参数量 1.3B 350M 层数 24 20 hidden size 2048 1024 intermediate size 8192 4096 attention head num 32 16 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览