专栏名称: AI前线
InfoQ十年沉淀,为千万技术人打造的专属AI公众号。追踪技术新趋势,跟踪头部科技企业发展和传统产业技术升级落地案例。囊括网站和近万人的机器学习知识交流社群。
今天看啥  ›  专栏  ›  AI前线

万字干货!手把手教你如何训练超大规模集群下的大语言模型

AI前线  · 公众号  · AI  · 2024-06-12 14:12
    

文章预览

演讲嘉宾 | 刘育良 AI 平台大模型训练负责人 审核|傅宇琪 褚杏娟 策划 | 蔡芳芳 快手总结了一套超大规模集群下大语言模型训练方案。该方案在超长文本场景下,在不改变模型表现的情况下,训练效率相较 SOTA 开源方案,有显著的吞吐提升。通过细致的建模,可保证 Performance Model 十分接近真实性能,基于此 Performance Model,解决了大模型训练调参困难的问题。 本文整理自快手 AI 平台大模型训练负责人刘育良在 QCon 2024 北京 的分享“   超大规模集群下大语言模型训练的最佳实践 ”。演讲结合在快手超算集群上的大模型训练经验,阐述大模型训练在超大规模集群下遇到的挑战和热点问题的演变,以及对应的解决方案。同时,针对最具挑战的超长文本场景,进行案例分析。最后,根据未来大模型的发展趋势,对训练领域的技术探索方向进行探讨。 本 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览