文章预览
bilibili发布的Index-1.9B包含: Index-1.9B base:在2.8T语料训练的基模型 Index-1.9B pure:部分数据和base不同,其他相同 Index-1.9B chat:基于base进行SFT和DPO后的模型 Index-1.9B character:在chat的基础上用RAG+fewshots提供角色扮演的能力 下面看下细节。 1.模型 (1)模型深度 目前业界普遍的认知是模型深度比宽度对效果的影响更大(相同参数下)。对比层数分别为36层和9层,总参数都为1.01B的模型,结果如下图,36层模型(base)效果确实更好。 需要注意的是,相同模型参数量下,层数更多的模型会有更多的activation(与L * hidden size成正比),因此会需要更多显存。 (2)Norm-Head 模型不同层的梯度尺度分布非常不同,最后一层 LM-Head 的梯度,占据了绝大部分的梯度大小。而词表的稀疏性让 LM-Head 层稳定性较低,影
响模型训练稳定性,进而影响模型性能表现,所以稳定的
………………………………