谷歌更新 Transformer 架构，更节省计算资源！50% 性能提升

人工智能AI大模型与汽车自动驾驶 · 公众号 · · 2024-08-19 08:08

文章预览

谷歌终于更新了Transformer架构。最新发布的 Mixture-of-Depths （MoD），改变了以往Transformer计算模式。它通过动态分配大模型中的计算资源，跳过一些不必要计算，显著提高训练效率和推理速度。结果显示，在等效计算量和训练时间上，MoD每次向前传播所需的计算量更小，而且后训练采样过程中步进速度提高50% 。这一方法刚刚发布，就马上引发关注。 MoE风头正盛，MoD已经来后浪拍前浪了？还有人开始“算账”：听说GPT-4 Turbo在Blackwell上提速30倍，再加上这个方法和其他各种加速，下一代生成模型可以走多远？所以MoD如何实现？迫使大模型关注真正重要信息这项研究提出，现在的大模型训练和推理中，有很多计算是没必要的。比如预测下一个句子很难，但是预测句子结束的标点符号很简单。如果给它们分配同样的计算资源，那么后者明显浪费了 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博