今天看啥  ›  专栏  ›  人工智能学家

刘壮、何恺明&Yann LeCun联合新作:只需9行代码,全新颠覆Transformer,效果惊艳!

人工智能学家  · 公众号  · AI  · 2025-03-24 15:56
    

文章预览

来源:机器之心 何恺明又双叒叕发新作了,这次还是与图灵奖得主 Yann LeCun 合作。 这项研究的主题是没有归一化层的 Transformer(Transformers without Normaliz ation), 并已被 CVPR 2025 会议接收。 Meta FAIR 研究科学家刘壮的推文 过去十年,归一化层已经巩固了其作为现代神经网络最基本组件之一的地位。这一切可以追溯到 2015 年批归一化(batch normalization)的发明,它使视觉识别模型的收敛速度变得更快、更好,并在随后几年中获得迅速发展。从那时起,研究人员针对不同的网络架构或领域提出了许多归一化层的变体。 如今,几乎所有现代网络都在使用归一化层,其中层归一化(Layer Norm,LN)是最受欢迎之一,特别是在占主导地位的 Transformer 架构中。 归一化层的广泛应用很大程度上得益于它们在优化方面的实证优势。除了实现更好的结果之外,归一化层 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览