ICML2024高分论文！大模型计算效率暴涨至200%，来自中国AI公司

夕小瑶科技说 · 公众号 · · 2024-05-24 13:11

文章预览

夕小瑶科技说原创作者夕小瑶编辑部前段时间，KAN突然爆火，成为可以替代MLP的一种全新神经网络架构，200个参数顶30万参数；而且，GPT-4o的生成速度也是惊艳了一众大模型爱好者。大家开始意识到—— 大模型的计算效率很重要，提升大模型的tokens生成速度是很关键的一环。而提升大模型的tokens生成速度，除了花钱升级GPU外，更长效的做法是改善Transformer模型架构的计算效率。今天，笔者发现，终于有团队对Transformer计算最耗时的核心组件——多头注意力模块（MHA）下手了，将Transformer的计算性能提升了有 2倍之高。通俗的讲，如果这项工作未来能落地到大模型里面，那么大模型tokens生成速度翻倍式提升的一天就不远了。这篇论文已经被今年的机器学习顶会ICML 2024录用，拿到了 7分的高分，而且还开源了。据透露，今年ICML 2024录用的paper ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博