梯度消失&梯度爆炸

Intro

深度学习中梯度消失与梯度爆炸问题

Vanishing Gradient

比如在MLP中, 我们选择Sigmoid函数(也叫Logistic函数)作为激活函数.


$$
S(x) = {1\over{1+e^{-x}}}
$$

$$
S’(x) = S(x)(1-S(x))
$$

反向转播时, 如果层数越深, 那么浅层的权重在计算梯度时就会越小.

因为Sigmoid函数值落在(0, 1)区间, 有多少层就会有多少个S’参与到梯度的计算.

Exploding Gradient

反向传播过程中, 每一层的Loss梯度值持续超过1, 如果层数很深, 浅层的权重更新的梯度就会非常大.


References

https://zhuanlan.zhihu.com/p/38085620

https://www.jiqizhixin.com/articles/2017-12-21-14