万字干货！手把手教你如何训练超大规模集群下的大语言模型

快手技术 · 公众号 · · 2024-11-21 20:42

文章预览

导读快手 AIP 团队总结了一套超大规模集群下大语言模型训练方案。该方案在超长文本场景下，在不改变模型表现的情况下，训练效率相较 SOTA 开源方案，有显著的吞吐提升。通过细致的建模，可保证 Performance Model 十分接近真实性能，基于此 Performance Model，解决了大模型训练调参困难的问题。上述成果已发表在 USENIX ATC '24 上，并在快手 github 上开源。本文整理自快手刘育良老师在QCon大会的分享“ 超大规模集群下大语言模型训练的最佳实践”。内容有删减。全文共9668字，预计阅读时间20分钟。 # 分布式训练的主要难点 ‍ ‍ 分布式训练的主要难点 # 大模型训练在超大规模集群下的挑战与解决方案 DP Overlap TP Overlap 超长文本场景解决方案研究成果 # 未来展望未来展望一、背景介绍简单介绍一下背景，下图清晰地描述从过去到现在，即 23 年之前所 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博