专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

ICML2024高分!魔改注意力,让小模型能打两倍大的模型

量子位  · 公众号  · AI  · 2024-06-03 10:50
    

文章预览

彩云科技团队 投稿 量子位 | 公众号 QbitAI 改进Transformer核心机制注意力,让 小模型能打两倍大的模型 ! ICML 2024高分论文,彩云科技团队构建 DCFormer 框架,替换Transformer核心组件多头注意力模块 (MHA) ,提出 可动态组合的多头注意力 (DCMHA) 。 DCMHA解除了MHA注意力头的查找选择回路和变换回路的固定绑定,让它们可以根据输入动态组合,从根本上提升了模型的表达能力。 可以近似理解为,原来每层有固定的H个注意力头,现在用几乎同样的参数量和算力,可按需动态组合出多至HxH个注意力头。 DCMHA即插即用, 可在任何Transformer架构中替换MHA ,得到通用、高效和可扩展的新架构DCFormer。 这项工作由来自北京邮电大学、AI创业公司彩云科技的研究人员共同完成。 研究人员用在DCFormer基础上打造的模型DCPythia-6.9B,在预训练困惑度和下游任务评估上都优 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览