专栏名称: 百度AI

百度AI最新产品、产业案例、实时资讯在这里。百度是为数不多进行全栈布局的人工智能公司。从高端芯片昆仑芯，到飞桨深度学习框架，再到文心预训练大模型，各个层面都有领先业界的关键自研技术，可以实现端到端优化，大幅提升效率。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

飞桨首创 FlashMask：加速大模型灵活注意力掩码计算，长序列训练的利器

百度AI · 公众号 · · 2024-10-30 20:45

文章预览

在 Transformer 类大模型训练任务中，注意力掩码（Attention Mask）一方面带来了大量的冗余计算，另一方面因其巨大的存储占用导致难以实现长序列场景的高效训练（其中为序列长度）。虽然业界已有 FlashAttention 等针对特定注意力掩码的计算加速方法，但其支持的注意力掩码模式有限，难以满足大模型训练任务对灵活注意力掩码的需求。为了解决上述问题，飞桨独创 FlashMask 技术，提出了列式稀疏的注意力掩码表示方法，支持灵活多样的注意力掩码模式，使得存储复杂度从降低至，并在此基础上实现了高效的算子 Kernel，极致加速大模型训练效率，尤其是长序列场景下的训练效率。我们在 NVIDIA A100 (80G) GPU 上对 FlashMask 在大语言模型微调和对齐训练中的表现进行了评估，包括 SFT、LoRA、DPO 和 RM。与现有的 FlashAttention 稠密掩码方法相比，FlashMask ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

archrace 建筑竞赛 · 结果 | “双平房（TWIN BUNGALOWS）”浮动房屋设计竞赛结果公布

2 天前

莓辣MAYLOVE · 大家会拍羞羞照片或视频吗？拍完应该存在哪呢？｜莓事聊聊Vol.165

3 天前

archrace 建筑竞赛 · 备受关注的芬兰新建筑与设计博物馆竞赛公布五个入围方案，你看好哪个？【投票】

5 天前

钱报杭州房产 · 火爆！乔司地价创新高溢价率59%，滨江勇夺安琪儿地块

5 月前

爱可可-爱生活 · 【imscore：一个轻量级的图像评分库，集成了多种可微分的图像-20241126135839

4 周前

果业信息网 · 水果市场客流越来越少，人究竟都去哪儿了？

2 周前