梯度下降与牛顿梯度下降有什么区别?
我了解渐变下降是什么。 基本上它试图通过缓慢地向下移动曲线来朝着局部最佳解决scheme迈进。 我想了解计划梯度下降和牛顿方法之间的实际区别是什么?
从维基百科,我读了这个简短的一行“牛顿的方法使用曲率信息采取更直接的路线”。 这是什么意思?
在局部最小(或最大) x
,目标函数f
的导数消失: f'(x) = 0
(假设f
足够平滑)。
渐变下降试图通过使用来自f
的一阶导数的信息来find这样的最小x
:它简单地跟随当前点的最陡下降。 这就像在f
图上滚动一个球直到它rest(忽略惯性)。
牛顿方法试图通过用线性函数g
近似f'
,然后明确地求解该函数的根(这被称为牛顿的根发现方法)来find满足f'(x) = 0
的点x
。 g
的根不一定是f'
的根,但是在许多情况下它是一个很好的猜测( 维基百科关于牛顿的根发现方法的文章有更多关于收敛标准的信息)。 当f'
近似时,牛顿方法利用f''
( f
的曲率)。 这意味着它对f
的平滑性有更高的要求,但也意味着(通过使用更多的信息)它往往更快地收敛。
简单地说,梯度下降你只需朝着你认为零的位置走一小步,然后重新计算; 牛顿的方法,你一路走到那里。
编辑2017年 :原来的链接已经死了 – 但回来的机器仍然得到它:) https://web.archive.org/web/20151122203025/http://www.cs.colostate.edu/~anderson/cs545/讲座/ week6day2 / week6day2.pdf
这个力量的主要思想是简单地解释http://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf
我希望这个帮助:)