文章预览
引言 在当前的深度学习研究领域,我们见证了一系列卓越的大规模语言模型(LLM)的诞生,包括DeepSeek、MiniCPM、Index、Qwen、ChatGLM、Baichuan等,它们不仅推动了技术的进步,也增强了开源社区的活力。本篇文章旨在梳理这些领先模型以及相关开源报告中明确对比的预训练优化策略,以便提供一个参考,帮助大家根据这些经验,更加高效地训练出性能卓越的语言模型。 文章结构如下: 预训练LLM副本攻略:结构优化与超参数调整 模型结构 稳定的LM-Head层:Norm-Head Index的技术报告称:模型不同层的梯度尺度分布非常不同, 最后一层LM-Head的梯度,占据了绝大部分的梯度大小 。而词表的稀疏性让LM-Head层稳定性较低,影响模型训练稳定性,进而影响模型性能表现,所以稳定的LM-Head层对于训练非常重要。 SlCrUu 粉色的曲线代表全部的梯度 红色曲线代表lm-head的
………………………………