今天看啥  ›  专栏  ›  X人工智能学院

独家连载 | 梯度消失和梯度爆炸

X人工智能学院  · 公众号  ·  · 2019-01-10 08:00
4.6 梯度消失与梯度爆炸4.6.1 梯度消失根据上文BP算法中的推导,我们从公式4.44,,4.45,4.46中可以知道,权值的调整ΔW是跟学习信号δ相关的。同时我们从4.41,4.42,4.43中可以知道在学习信号δ 表达式中存在f ' (x)。也就是说激活函数的导数会影响学习信号δ的值,而学习信号δ的值会影响权值调整ΔW的值。那么激活函数的值越大,ΔW的值就越大;激活函数的值越小,ΔW的值也就越小。假设激活函数为sigmoid函数,前文中我们已经知道了sigmoid函数的表达式为:  ,sigmoid函数的导数为:f ' (x) = f(x)[1-f(x)],我们可以画出sigmoid函数的导数图像为图4.18: 图4.18 sigmoid函数导数这里我们发现当x=0时,sigmoid函数导数可以取得最大值0.25。x取值较大或较小时,sigmoid函数的导数很快就趋向于0 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照