梯度下降与牛顿梯度下降有什么区别?

我了解渐变下降是什么。 基本上它试图通过缓慢地向下移动曲线来朝着局部最佳解决scheme迈进。 我想了解计划梯度下降和牛顿方法之间的实际区别是什么?

从维基百科,我读了这个简短的一行“牛顿的方法使用曲率信息采取更直接的路线”。 这是什么意思?

在局部最小(或最大) x ,目标函数f的导数消失: f'(x) = 0 (假设f足够平滑)。

渐变下降试图通过使用来自f的一阶导数的信息来find这样的最小x :它简单地跟随当前点的最陡下降。 这就像在f图上滚动一个球直到它rest(忽略惯性)。

牛顿方法试图通过用线性函数g近似f' ,然后明确地求解该函数的根(这被称为牛顿的根发现方法)来find满足f'(x) = 0的点xg的根不一定是f'的根,但是在许多情况下它是一个很好的猜测( 维基百科关于牛顿的根发现方法的文章有更多关于收敛标准的信息)。 当f'近似时,牛顿方法利用f''f的曲率)。 这意味着它对f的平滑性有更高的要求,但也意味着(通过使用更多的信息)它往往更快地收敛。

简单地说,梯度下降你只需朝着你认为零的位置走一小步,然后重新计算; 牛顿的方法,你一路走到那里。

编辑2017年 :原来的链接已经死了 – 但回来的机器仍然得到它:) https://web.archive.org/web/20151122203025/http://www.cs.colostate.edu/~anderson/cs545/讲座/ week6day2 / week6day2.pdf

这个力量的主要思想是简单地解释http://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf

我希望这个帮助:)