神经网络中的自适应梯度下降优化算法(2)

Adagrad算法可以自适应地对不同的参数采用不同的更新频率,对低频特征采用低更新率,对高频特征采用高更新率。因此对于稀疏数据表现良好,提高了SGD的鲁棒性,在Google通过Youtube视频识别猫的神经网络训练中也有不错的表现。

渐变更新规则:

G(t,I)表示目标函数在时间t对θ(i)的偏导数,SGD各参数的更新过程如下:

更新Adagrad各参数的过程如下:

G(t)是对角矩阵,对角线上的每个元素是θ(i)在时间t之前的所有梯度的平方和,ε通常取1e-8的阶,它的存在是为了避免除数为0。一个有趣的现象是,如果没有平方根运算,算法的性能是很差的。

Adagrad的主要缺点是它的分母是平方梯度的积累,它的值会一直增加,最终会导致学习速率衰减到很小的程度,从而使学习算法无法进行下去。

TensorFlow实现:

TF . train . Adagrad optimizer(learning _ rate,initial _ accumulator _ value = 0.1,use_locking=False,name='Adagrad ')

Adadelta算法主要解决了Adagrad的缺陷,不再累加过去所有的梯度,而只是累加过去固定数量的梯度。

Adadelta不是用平方梯度的简单累加,而是用历史平方梯度衰减的平均值。

γ通常等于0.9。

分母相当于梯度的均方根,RMS),即所有值的平方和,求平均值,再平方得到RMS值。

渐变更新规则:

将学习率eta设置为

我们不需要提前设定学习率。

RMSprop是Geoff Hinton提出的一种自适应学习速率方法,它与Adadelta方法一起,旨在解决Adagrad学习速率急剧下降的问题。与阿达德尔塔法一致。

梯度更新规则

参数设置:

Hinton建议设置γ=0.9,学习率η=0.001。

TensorFlow实现:

TF . train . rmspropoptimizer . _ _ init _ _(learning _ rate,decay,momentum=0.0,epsilon=1e-10,use_locking=False,name='RMSProp ')

Adam还自适应地为不同的参数设置不同的学习速率。它对历史梯度和历史平方梯度都采用指数衰减平均。

梯度更新规则

Adam观察到,如果m(t)和v(t)被初始化为零向量,并且衰减率很小(例如,当β1和β2非常接近1时),在初始迭代中,m(t)和v(t)总是偏移为零,因此需要进行偏移校正。

然后用校正值更新梯度:

亚当提出β 1 = 0.9,β 2 = 0.999,ε = 10 {-8}。

在实践中,Adam优于其他算法。

TensorFlow实现:

TF . train . adamoptimizer(learning _ rate = 0.001,beta1=0.9,beta2=0.999,epsilon=1e-08,use_locking=False,name='Adam ')

Adam更新规则中的梯度缩放与历史梯度的L2范数成反比。

我们可以把这个规则推广到Lp范数。

当p的值增大时,Lp的值往往变得不稳定,所以实际中常用L1和L2。但是Adamax发现L∞可以收敛到一个稳定的值。

那么我们可以用u(t)来代替。

来更新Adam中的渐变。

同时,u(t)不需要进行零失调校正。默认值建议: