专栏名称: 极市平台

极市平台是由深圳极视角推出的专业的视觉算法开发与分发平台，为视觉开发者提供多领域实景训练数据库等开发工具和规模化销售渠道。本公众号将会分享视觉相关的技术资讯，行业动态，在线分享信息，线下活动等。网站: http://cvmart.net/

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微博RSS订阅方法

即刻RSS订阅方法

图解大模型训练之：数据并行（DP、DDP、ZeRO、零冗余优化)

极市平台 · 公众号 · · 2024-09-01 22:00

主要观点总结

本文介绍了大模型场景里数据并行的实现方法，包括DP、DDP和ZeRO三种方式。文章详细阐述了每种方式的原理、实现细节和优缺点，以及针对存储消耗的优化方法。最后简单介绍了ZeRO-Offload与ZeRO-Infinity。

包括DP、DDP和ZeRO三种。DP是最早的数据并行模式，采用参数服务器这一编程框架；DDP是更通用的解决方案，通过Ring-AllReduce方法解决通讯问题；ZeRO用通讯换显存，通过优化状态分割、梯度分割和参数分割来降低存储消耗。

包括优化状态分割、优化状态与梯度分割、优化状态、梯度与参数分割等。使用固定大小的内存buffer进行存储，提升带宽利用率，并设置机制对碎片化的存储空间进行重新整合。

ZeRO-Offload将部分数据卸载到CPU上，以减少显存和通讯压力。ZeRO-infinity同理，它们都在解决数据存储和计算性能的问题。

免责声明：本文内容摘要由平台算法生成，仅为信息导航参考，不代表原文立场或观点。原文内容版权归原作者所有，如您为原作者并希望删除该摘要或链接，请通过【版权申诉通道】联系我们处理。

原文地址：访问原文地址
总结与预览地址：访问总结与预览
推荐产品: 推荐产品
文章地址：访问文章快照

分享到微博

推荐文章

中国证券报 · 重组预案出炉！603758、688313，今日复牌

1小时前

证券时报 · 券商股异动！601696，午后1分钟涨停！

15 小时前

证券时报 · LV“巨轮”驶进上海市中心的幕后｜微视角·新气象——一线调研行

昨天

中国证券报 · 不拼规模拼收益！浮动管理费理财产品上新

昨天

上海证券报 · 5000亿元巨头涨停！成交额A股第一

2 天前

针灸匠张宝旬 · 爱上火，咽喉经常痛，入睡困难却不耐寒凉饮食？每天练习三分钟，调节上热下寒体质（附视频）

1 年前

RPA全球生态 · OK简历 | OPENAIGC开发者大赛高校组特等奖

9 月前

都市时报 · 昆明首次！

8 月前

公安部网安局 · 网警提醒 | 自觉抵制网络暴恐音视频共同守护网络环境清朗

3 月前

新浪科技 · 【证券时报头版评论：“惩首恶”“打帮凶” #坚决斩断造假利益链#-20250630210000

1 周前