今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

大模型训练工程优化技术-总纲

吃果冻不吐果冻皮  · 公众号  ·  · 2024-06-06 12:00
    

文章预览

【点击】 加入大模型技术交流群 原文:https://zhuanlan.zhihu.com/p/695863645 本文所述的大模型训练技术,特指工程方面的优化技术,而非算法,算法非本人所长。 背景 笔者去年写过一篇大模型训练的技术综述 (大模型训练技术综述:https://zhuanlan.zhihu.com/p/654028620),现在回头来看,比较的粗浅,之前文章简单的列了大模型常见的一些技术,不免有些遗憾; 大模型主要的训练技术如3D并行早在19年前(没有详细查证,可能不严谨)就已经有了,23年开始国内开始流行以LLM为主的大模型技术,23年到24年,大模型训练迭代非常之快,笔者认为,经过这一年的发展,大模型训练技术进一步得到了完善,且笔者认为大模型训练技术已接近收敛; 大模型训练技术栈十分的复杂,不同的企业,不同的部门,不同的业务需求,对训练所需要的技术是不一样的,如何根据 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览