这里是AI领域学习交流的平台!分享人工智能、机器学习、深度学习、计算机视觉、自然语言处理、算法原理、科技前沿、行业动态等,为您提供最有价值的知识和资讯。
今天看啥  ›  专栏  ›  人工智能与算法学习

DeepSpeed:所有人都能用的超大规模模型训练工具

人工智能与算法学习  · 公众号  ·  · 2024-10-22 18:47
    

文章预览

DeepSpeed: 所有人都能用的超大规模模型训练工具 原文地址:DeepSpeed: Extreme-scale model training for everyone 原文作者:DeepSpeed Team Rangan Majumder、Vice President Junhua Wang、VP、Distinguished Engineer 译文出自:掘金翻译计划 本文永久链接:https://github.com/xitu/gold-miner/blob/master/article/2020/deepspeed-extreme-scale-model-training-for-everyone.md 译者:zhuzilin 校对者:samyu2000、luochen1992、lsvih 我们于今年 2 月份发布了 DeepSpeed。这是一个开源深度学习训练优化库,其中包含的一个新的显存优化技术—— ZeRO(零冗余优化器),通过扩大规模,提升速度,控制成本,提升可用性,极大地推进了大模型训练能力。DeepSpeed 已经帮助研究人员开发了图灵自然语言生成模型( Turing-NLG),其在发表时为世界上最大的语言模型(拥有 170 亿参数),并有着最佳的精度。我们在 5 月份发布了 ZeRO-2——支持有 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览