专栏名称: TsinghuaNLP

清华大学自然语言处理与社会人文计算实验室，是中国中文信息学会计算语言专业委员会和中国人工智能学会不确定性专业委员会的挂靠单位。负责人为清华大学计算机科学与技术系孙茂松教授，核心骨干为刘洋副教授，刘知远助理教授。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

成果｜Seq1F1B：节省50%显存的长文本模型流水线并行训练技术

TsinghuaNLP · 公众号 · · 2024-06-24 09:27

文章预览

为提高大语言模型在长文本训练时的流水线并行效率，我组与北京邮电大学团队共同开源了 Seq1F1B 训练技术。该技术通过将流水线调度的单元按序列切分，并提出了针对序列维度调度的 1F1B 流水线并行策略和计算高效的序列切分方法，在确保不同序列间处理顺序与原始模式一致的同时，显著降低了流水线对显存的需求，并减少了因空闲气泡导致的性能损失。论文信息 ➤ 论文地址 🔗 https://arxiv.org/abs/2406.03488 ➤ 开源地址 🔗 https://github.com/thunlp/Seq1F1B Seq1F1B 显存占用和训练吞吐 Seq1F1B 相比传统流水线方法减少 50％显存占用，最高能支持30B GPT-2 模型的64k长文本训练（不启用重计算显存优化），并在大多数情况下拥有更高的训练吞吐。实验设置显存占用对比 ▼ 2.7B模型训练吞吐对比 ▼ 7B模型训练吞吐对比 ▼ 13B模型训 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

南京日报 · 南京紫金山下雪了！

5 小时前

南京日报 · 南京紫金山下雪了！

5 小时前

舜网 · 演员刘泳希、李嘉铭官宣离婚！两人曾因“没车没房仍双向奔赴”的宣言引发热议

昨天

舜网 · 演员刘泳希、李嘉铭官宣离婚！两人曾因“没车没房仍双向奔赴”的宣言引发热议

昨天

7分钟理财 · 从亏损50%到盈利3万，我逆风翻盘的经历

2 天前

格上财富 · 芒格：人是自身天赋的囚徒

2 天前

格上财富 · DeepSeek的文采如何炼成？

2 天前

Kevin在纽约 · 豆子好像知道我要远行，今晚就在床边睡，叫他下楼回自己窝就是不听。-20240830001002

5 月前

映维网Nweon · 索尼为AR眼镜发布0.44英寸全新高清MicroOLED显示器

4 月前

仿生材料与界面组织工程 · Circulation：可吸入式外泌体促进心肌梗死后心脏修复

4 月前

央视财经 · 羽绒服别干洗！这样洗，不仅干净还省钱→

昨天