专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

bilibili的index-1.9B

AINLP  · 公众号  ·  · 2024-07-14 21:29
    

文章预览

bilibili发布的Index-1.9B包含: Index-1.9B base:在2.8T语料训练的基模型 Index-1.9B pure:部分数据和base不同,其他相同 Index-1.9B chat:基于base进行SFT和DPO后的模型 Index-1.9B character:在chat的基础上用RAG+fewshots提供角色扮演的能力 下面看下细节。 1.模型 (1)模型深度 目前业界普遍的认知是模型深度比宽度对效果的影响更大(相同参数下)。对比层数分别为36层和9层,总参数都为1.01B的模型,结果如下图,36层模型(base)效果确实更好。 需要注意的是,相同模型参数量下,层数更多的模型会有更多的activation(与L * hidden size成正比),因此会需要更多显存。 (2)Norm-Head 模型不同层的梯度尺度分布非常不同,最后一层 LM-Head 的梯度,占据了绝大部分的梯度大小。而词表的稀疏性让 LM-Head 层稳定性较低,影 响模型训练稳定性,进而影响模型性能表现,所以稳定的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览