专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

预训练LLM副本攻略：结构优化与超参数调整

AINLP · 公众号 · · 2024-07-11 20:00

文章预览

引言在当前的深度学习研究领域，我们见证了一系列卓越的大规模语言模型（LLM）的诞生，包括DeepSeek、MiniCPM、Index、Qwen、ChatGLM、Baichuan等，它们不仅推动了技术的进步，也增强了开源社区的活力。本篇文章旨在梳理这些领先模型以及相关开源报告中明确对比的预训练优化策略，以便提供一个参考，帮助大家根据这些经验，更加高效地训练出性能卓越的语言模型。文章结构如下：预训练LLM副本攻略：结构优化与超参数调整模型结构稳定的LM-Head层：Norm-Head Index的技术报告称：模型不同层的梯度尺度分布非常不同，最后一层LM-Head的梯度，占据了绝大部分的梯度大小。而词表的稀疏性让LM-Head层稳定性较低，影响模型训练稳定性，进而影响模型性能表现，所以稳定的LM-Head层对于训练非常重要。 SlCrUu 粉色的曲线代表全部的梯度红色曲线代表lm-head的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博