专栏名称: 集智俱乐部
本公众号用于发布与集智俱乐部有关的活动信息、文章以及关于俱乐部的基本介绍。
今天看啥  ›  专栏  ›  集智俱乐部

提高大模型计算效率!彩云科技推出大模型 DCFormer,效率是 Transformer 两倍

集智俱乐部  · 公众号  ·  · 2024-06-16 08:34
    

文章预览

导语 最近KAN突然爆火,让人们开始意识到大模型的计算效率至关重要,而提高大型模型生成tokens的速度同样至关重要。相对于不断加码GPU,改善Transformer模型架构的计算效率是一种更为长远有效的方法。近期,彩云科技的研究团队对Transformer计算最耗时的核心组件——多头注意力模块(MHA)进行了改进,推出动态组合多头注意力改进Transformer(DCFormer),将Transformer的计算性能提升有2倍之高。该论文已被ICML 2024接收为oral(今年oral的接收率仅为1.5%)。 集智俱乐部邀请论文一作、彩云科技首席科学家肖达老师在 「 后ChatGPT时代」读书会 中深入解读了DCFormer的主要工作,介绍这项工作背后的动机和研究历程,并探讨模型结构研究的未来发展方向,本文是对此次读书会的整理。DCFomer的论文作者均来自彩云科技NLP算法组,核心成员出自集智俱乐部。彩云科 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览