专栏名称: 视学算法
公众号专注于人工智能 | 机器学习 | 深度学习 | 计算机视觉 | 自然语言处理等前沿论文和基础程序设计等算法。地球不爆炸,算法不放假。
今天看啥  ›  专栏  ›  视学算法

Transformer深至1000层还能稳定训练,微软实习生一作,LSTM之父转发

视学算法  · 公众号  ·  · 2022-03-03 22:29
博雯 发自 凹非寺量子位 | 公众号 QbitAI近几年,随着业内“大力出奇迹”的趋势,Transformer的模型参数量也是水涨船高。不过,当参数从数百万增加至数十亿,甚至数万亿,性能实现相应提升时,Transformer的深度也受到了训练不稳定的限制。至少,还没有优化方法能在Transformer扩展至上千层的同时,还保证其稳定性。但现在,微软研究院一篇论文出手,直接将Transformer提升到了1000层:所采用的方法,甚至只需要修改几行代码就能完成。LSTM之父, 获得IEEE CIS 2021年神经网络先驱奖的Sepp Hochreiter也转发了这项研究:接下来,我们就来一起看看这一方法到底是如何做到的。几行代码提升至1000层要解决不稳定优化的问题,首先要知道其原因。论文认为,这种不稳定性源于训练开 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照