文章预览
作者 | 你的真实姓名 编辑 | 吃果冻不吐果冻皮 点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 大语言模型 』 技术交流群 本文只做学术分享,如有侵权,联系删文 原文:https://www.zhihu.com/question/650979052/answer/3501160453 最近看到知乎一个回答,把千卡训练的难度吹上天了。但其实真正用过千卡就会发现也就那么几个点。于是想写一篇文章简单讲讲。 本文将包括3个部分:首先我们将讨论千卡训练的难题,以及应该在什么时候使用千卡训练;接着,我们将讨论如何在一千张卡上开始训练,如何让他达到近乎线性的性能提升;最后我们将展开讨论一些千卡训练当中仍然悬而未决(至少对于开源社区来说)的问题。 为什么千卡训练是困难的? 千卡训练和八卡训练的区别是—显
………………………………