文章预览
DeepSpeed:所有人都能用的超大规模模型训练工具 原文地址:DeepSpeed: Extreme-scale model training for everyone 原文作者:DeepSpeed Team Rangan Majumder、Vice President Junhua Wang、VP、Distinguished Engineer 译文出自:掘金翻译计划 本文永久链接:https://github.com/xitu/gold-miner/blob/master/article/2020/deepspeed-extreme-scale-model-training-for-everyone.md 译者:zhuzilin 校对者:samyu2000、luochen1992、lsvih 我们于今年 2 月份发布了 DeepSpeed。这是一个开源深度学习训练优化库,其中包含的一个新的显存优化技术—— ZeRO(零冗余优化器),通过扩大规模,提升速度,控制成本,提升可用性,极大地推进了大模型训练能力。DeepSpeed 已经帮助研究人员开发了图灵自然语言生成模型( Turing-NLG),其在发表时为世界上最大的语言模型(拥有 170 亿参数),并有着最佳的精度。我们在 5 月份发布了 ZeRO-2——支持有
………………………………