主要观点总结
本文详细介绍了GLM团队如何将预训练模型的上下文扩展至百万量级的相关技术,以GLM4-9B系列模型为例,评测了其在长文本处理方面的效果,并介绍了其训练流程、SFT阶段、RLHF阶段以及训练Infra的挑战和解决方案。
关键观点总结
关键观点1: GLM4-9B系列模型在长文本处理方面的优势
GLM团队通过不断的技术迭代,从最初的仅支持2K上下文的ChatGLM-6B,发展到现在的GLM4-9B-Chat-1M,始终在追求最领先的上下文技术能力。特别是GLM4-9B-Chat-1M,它集成了团队在长文本领域的大量研究成果。
关键观点2: 模型的评测
GLM4-9B在四个评测中取得了良好的效果,包括LongBench-Chat评测、InfiniteBench评测、Ruler评测和大海捞针实验。这些评测证明了模型在长文本处理方面的实力。
关键观点3: 模型的训练流程
模型的训练流程包括继续预训练、SFT和RLHF三个阶段。每个阶段都有特定的数据采样策略、训练方法和目标。特别是继续预训练阶段,采用了分两阶段的策略,第一阶段扩展至128K,第二阶段扩展至1M上下文长度。
关键观点4: 训练Infra的挑战和解决方案
在长文本训练中,Infra层面面临的主要挑战是中间变量Activation的显存占用显著增加。为了解决这一问题,提出了序列并行的方法,包括Ring Attention和DeepSpeed Ulysses两种主流实现方式。在GLM4-9B-Chat-1M的训练中,采用了Context Parallel(Ring Attention)的方式,并结合变长序列并行的解决策略。
文章预览
↓ 推荐关注↓ ↓ 推荐关注↓ 在2023年初,即便是当时最先进的GPT-3.5,其上下文长度也仅限于2k。 然而,时至今日,1M的上下文长度已经成为衡量模型技术先进性的重要标志之一。 如果把 LLM 比作新时代的操作系统,上下文窗口便是它的「内存」。一个现代的操作系统需要足够大的内存才能完成各种各样的复杂任务。与之类似,一个优秀的 LLM 也需要足够长的上下文长度来完成各种复杂的任务。 基于此种观念,GLM 技术团队经过不断的技术迭代,从最初的仅支持2K上下文的ChatGLM-6B,发展到ChatGLM2-6B(32K)、ChatGLM3-6B(128K),直至现在的 GLM4-9B(1M) ,始终在追求最领先的上下文技术能力。特别是GLM4-9B-Chat-1M,它集成了我们在长文本领域的大量研究成果。 本文将以 GLM4-9B 系列模型为例,详细介绍 GLM 团队将预训练模型的上下文扩展至百万量级的相关技术
………………………………