专栏名称: TsinghuaNLP
清华大学自然语言处理与社会人文计算实验室,是中国中文信息学会计算语言专业委员会和中国人工智能学会不确定性专业委员会的挂靠单位。负责人为清华大学计算机科学与技术系孙茂松教授,核心骨干为刘洋副教授,刘知远助理教授。
今天看啥  ›  专栏  ›  TsinghuaNLP

成果|Seq1F1B:节省50%显存的长文本模型流水线并行训练技术

TsinghuaNLP  · 公众号  ·  · 2024-06-24 09:27

文章预览

为提高大语言模型在长文本训练时的流水线并行效率,我组与北京邮电大学团队共同开源了 Seq1F1B 训练技术 。该技术通过将流水线调度的单元按序列切分,并提出了针对序列维度调度的 1F1B 流水线并行策略和计算高效的序列切分方法,在确保不同序列间处理顺序与原始模式一致的同时,显著降低了流水线对显存的需求,并减少了因空闲气泡导致的性能损失。 论文信息  ➤   论文地址   🔗 https://arxiv.org/abs/2406.03488  ➤   开源地址   🔗 https://github.com/thunlp/Seq1F1B Seq1F1B 显存占用和训练吞吐 Seq1F1B 相比传统流水线方法减少 50%  显存占用,最高能支持30B GPT-2 模型的64k长文本训练(不启用重计算显存优化),并在大多数情况下拥有更高的训练吞吐。 实验设置 显存占用对比 ▼  2.7B模型训练吞吐对比    ▼   7B模型训练吞吐对比    ▼  13B模型训 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览