一个百度人的技术提升之路,为您提供一系列计算机视觉,自然语言处理和推荐系统等高质量技术文章,让您的碎片化时间最大价值化
今天看啥  ›  专栏  ›  深度学习基础与进阶

“注意力之父”!遥遥领先Transformer 26年

深度学习基础与进阶  · 公众号  ·  · 2024-12-29 10:33
    

文章预览

来源:新智元 当今AI届的繁荣,很大程度上要归功于Transformer模型,2017年的开山之作,把「注意力机制」(attention)带入了大众的视野,此后七年中,在AI模型中占据了绝对的主导地位,甚至Attention is All You Need这个名字都让之后的论文在起标题时纷纷效仿,逐渐走向狂野。 但「正统」注意力机制其实来源于2014年Bengio的论文,ACM还在图灵奖颁奖时,为Bengio写的贡献为「引入了一种注意力机制,带来了机器翻译的突破,并形成了深度学习顺序处理的关键组成部分」。 论文链接:https://arxiv.org/pdf/1409.0473 最近,Andrej Karpathy在社交媒体上公开了与第一作者Dzmitry两年前的联络邮件,详细叙述了这段发明注意力的故事,顿时又掀起网友热议。 不过,LSTM作者Jürgen Schmidhuber却不认可这段故事,而是表明自己才是真正的创造者,1991年就已经提出线性复杂度Transform ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览