专栏名称: 快手技术
快手官方技术号,即时播报快手技术实践的最新动态
目录
相关文章推荐
今天看啥  ›  专栏  ›  快手技术

万字干货!手把手教你如何训练超大规模集群下的大语言模型

快手技术  · 公众号  ·  · 2024-11-21 20:42
    

文章预览

导读 快手 AIP 团队总结了一套超大规模集群下大语言模型训练方案。该方案在超长文本场景下,在不改变模型表现的情况下,训练效率相较 SOTA 开源方案,有显著的吞吐提升。通过细致的建模,可保证 Performance Model 十分接近真实性能,基于此 Performance Model,解决了大模型训练调参困难的问题。上述成果已发表在 USENIX ATC '24 上,并在快手 github 上开源。本文整理自快手刘育良老师在QCon大会的分享“ 超大规模集群下大语言模型训练的最佳实践”。内容有删减。 全文共9668字,预计阅读时间20分钟。 # 分布式训练的主要难点 ‍ ‍ 分布式训练的主要难点 # 大模型训练在超大规模集群下的挑战与解决方案 DP Overlap TP Overlap 超长文本场景解决方案 研究成果 # 未来展望 未来展望 一、背景介绍 简单介绍一下背景,下图清晰地描述从过去到现在,即 23 年之前所 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览