专栏名称: 飞桨PaddlePaddle
源于产业实践的开源深度学习平台
目录
相关文章推荐
今天看啥  ›  专栏  ›  飞桨PaddlePaddle

飞桨首创 FlashMask :加速大模型灵活注意力掩码计算,长序列训练的利器

飞桨PaddlePaddle  · 公众号  ·  · 2024-10-29 20:08
    

文章预览

在 Transformer 类大模型训练任务中,注意力掩码(Attention Mask)一方面带来了大量的冗余计算,另一方面因其 巨大的存储占用导致难以实现长序列场景的高效训练(其中 为序列长度)。虽然业界已有 FlashAttention 等针对特定注意力掩码的计算加速方法,但其支持的注意力掩码模式有限,难以满足大模型训练任务对灵活注意力掩码的需求。为了解决上述问题,飞桨独创 FlashMask 技术,提出了列式稀疏的注意力掩码表示方法,支持灵活多样的注意力掩码模式,使得存储复杂度从 降低至 ,并在此基础上实现了高效的算子 Kernel,极致加速大模型训练效率,尤其是长序列场景下的训练效率。 我们在NVIDIA A100 (80G) GPU上对 FlashMask 在大语言模型微调和对齐训练中的表现进行了评估,包括 SFT、LoRA、DPO和 RM 。与现有的 FlashAttention 稠密掩码方法相比,FlashMask 在端到 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览