专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
目录
相关文章推荐
今天看啥  ›  专栏  ›  AINLP

预训练LLM副本攻略:结构优化与超参数调整

AINLP  · 公众号  ·  · 2024-07-11 20:00
    

文章预览

引言 在当前的深度学习研究领域,我们见证了一系列卓越的大规模语言模型(LLM)的诞生,包括DeepSeek、MiniCPM、Index、Qwen、ChatGLM、Baichuan等,它们不仅推动了技术的进步,也增强了开源社区的活力。本篇文章旨在梳理这些领先模型以及相关开源报告中明确对比的预训练优化策略,以便提供一个参考,帮助大家根据这些经验,更加高效地训练出性能卓越的语言模型。 文章结构如下: 预训练LLM副本攻略:结构优化与超参数调整 模型结构 稳定的LM-Head层:Norm-Head Index的技术报告称:模型不同层的梯度尺度分布非常不同, 最后一层LM-Head的梯度,占据了绝大部分的梯度大小 。而词表的稀疏性让LM-Head层稳定性较低,影响模型训练稳定性,进而影响模型性能表现,所以稳定的LM-Head层对于训练非常重要。 SlCrUu 粉色的曲线代表全部的梯度 红色曲线代表lm-head的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览