梯度下降与牛顿梯度下降有什么区别？

我了解渐变下降是什么。基本上它试图通过缓慢地向下移动曲线来朝着局部最佳解决scheme迈进。我想了解计划梯度下降和牛顿方法之间的实际区别是什么？

从维基百科，我读了这个简短的一行“牛顿的方法使用曲率信息采取更直接的路线”。这是什么意思？

在局部最小（或最大） x ，目标函数f的导数消失： f'(x) = 0 （假设f足够平滑）。

渐变下降试图通过使用来自f的一阶导数的信息来find这样的最小x ：它简单地跟随当前点的最陡下降。这就像在f图上滚动一个球直到它rest（忽略惯性）。

牛顿方法试图通过用线性函数g近似f' ，然后明确地求解该函数的根（这被称为牛顿的根发现方法）来find满足f'(x) = 0的点x 。 g的根不一定是f'的根，但是在许多情况下它是一个很好的猜测（维基百科关于牛顿的根发现方法的文章有更多关于收敛标准的信息）。当f'近似时，牛顿方法利用f'' （ f的曲率）。这意味着它对f的平滑性有更高的要求，但也意味着（通过使用更多的信息）它往往更快地收敛。

简单地说，梯度下降你只需朝着你认为零的位置走一小步，然后重新计算; 牛顿的方法，你一路走到那里。

编辑2017年 ：原来的链接已经死了 – 但回来的机器仍然得到它:) https://web.archive.org/web/20151122203025/http://www.cs.colostate.edu/~anderson/cs545/讲座/ week6day2 / week6day2.pdf

这个力量的主要思想是简单地解释http://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf

我希望这个帮助:)

梯度下降与牛顿梯度下降有什么区别？

1D数组数组聚类

R随机森林variables重要性

为什么一个热门编码可以提高机器学习性能？

Matlab – 多维数据的PCA分析与重构

如何提取文本中使用的关键字？

数据挖掘中分类和聚类的区别？

决策树与朴素贝叶斯分类器

如何处理数字猜测游戏（一个扭曲）algorithm？

亚马逊推荐function如何工作？

线性回归和逻辑回归有什么区别？