专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
目录
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

千卡集群大模型训练思考与总结

吃果冻不吐果冻皮  · 公众号  ·  · 2024-06-23 16:02
    

文章预览

【点击】 加入大模型技术交流群 原文:https://www.zhihu.com/question/650979052/answer/3455112382 大模型这个概念出来至今也有一年多的时间了,刚开始的时候我们觉得6B、13B的模型还挺大,现在觉得也就洒洒水啦;当前大家普遍追求的是训练65B、175B甚至更大参数量的模型,而训练这种规模的模型又不是一件容易的事情(因为我自己训过,知道里面坑很多,但是又感觉不容易沉淀一些方法或者经验论的东西)。 正如@Frossmann 的那句话: 任何一个小规模训练上的问题,放大几百几千倍之后,都有可能成为不可忽视的问题。 所以,真正的关键不是在于有没有用过千卡GPU 训练过模型,而是有没有从头至尾,一路披荆斩棘的自己淌出来一条可重复的模型训练的技术路线! 最宝贵的财富,当就是一条可重复的模型训练的技术路线。 在千卡集群下训练的难点分为两方面 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐产品:   推荐产品