文章预览
为提高大语言模型在长文本训练时的流水线并行效率,我组与北京邮电大学团队共同开源了 Seq1F1B 训练技术 。该技术通过将流水线调度的单元按序列切分,并提出了针对序列维度调度的 1F1B 流水线并行策略和计算高效的序列切分方法,在确保不同序列间处理顺序与原始模式一致的同时,显著降低了流水线对显存的需求,并减少了因空闲气泡导致的性能损失。 论文信息 ➤ 论文地址 🔗 https://arxiv.org/abs/2406.03488 ➤ 开源地址 🔗 https://github.com/thunlp/Seq1F1B Seq1F1B 显存占用和训练吞吐 Seq1F1B 相比传统流水线方法减少 50% 显存占用,最高能支持30B GPT-2 模型的64k长文本训练(不启用重计算显存优化),并在大多数情况下拥有更高的训练吞吐。 实验设置 显存占用对比 ▼ 2.7B模型训练吞吐对比 ▼ 7B模型训练吞吐对比 ▼ 13B模型训
………………………………