R随机森林variables重要性

我正在尝试在R中使用随机森林包进行分类。

列出的variables重要性措施是:

  • 意味着等级0的variablesx的原始重要性分数
  • 意思是等级1的variablesx的原始重要性分数
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

现在我知道这些“意思”是什么,因为我知道他们的定义。 我想知道的是如何使用它们。

我真正想知道的是,这些价值观的含义只在于它们的准确性如何,价值是什么,价值是什么,什么是最高和最低等等。

如果一个variables具有较高的MeanDecreaseAccuracyMeanDecreaseGini ,那么这是否意味着它是重要的还是不重要的? 此外,关于原始分数的任何信息也可能有用。 我想知道所有关于这些数字的知识,这些数字与它们的应用有关。

使用“错误”,“求和”或“置换”这样的词语的解释将不那么有用,那么简单的解释就不会涉及随机森林如何工作的讨论。

就像我想让某人向我解释如何使用收音机一样,我也不会期望这个解释涉及到无线电如何将无线电波转化为声音。

使用“错误”,“求和”或“置换”这样的词语的解释将不那么有用,那么简单的解释就不会涉及随机森林如何工作的讨论。

就像我想让某人向我解释如何使用收音机一样,我也不会期望这个解释涉及到无线电如何将无线电波转化为声音。

你如何解释WKRP 100.5 FM中的数字“意味着什么”而不进入波频率令人讨厌的技术细节? 坦白说,随机森林的参数和相关的性能问题很难让你的头脑,即使你了解一些技术术语。

这是我的一些答案:

– 对0级variablesx的原始重要性得分

– 表示1级variablesx的原始重要性分数

从随机森林网页简化,原始重要性分数测量比随机特定预测variables对成功分类数据有帮助。

-MeanDecreaseAccuracy

我认为这只是在R模块 ,我相信它测量在模型中这个预测的多less包含减less分类错误。

-MeanDecreaseGini

基尼被用来描述一个社会的收入分配,或者是以树为基础的分类中的“节点不纯正”的量度,被定义为“不公平”。 低基尼系数(即基尼系数较高)意味着一个特定的预测variables在将数据划分到定义的类中扮演更重要的angular色。 描述分类树中的数据时,根据预测variables的值在单个节点处分割这个事实是很难描述的。 我不清楚这如何转化为更好的performance。

为了您的直接关注:更高的值意味着variables更重要。 对于你提到的所有措施,这应该是正确的。

随机森林给你非常复杂的模型,所以解释重要性措施可能会非常棘手。 如果你想很容易地理解你的variables在做什么,不要使用RFs。 使用线性模型或(非集成)决策树代替。

你说:

使用“错误”,“求和”或“置换”这样的词语的解释将不那么有用,那么简单的解释就不会涉及随机森林如何工作的讨论。

除非你深入挖掘并了解随机森林,否则解释比上述要困难得多。 我假设你在抱怨手册,或Breiman手册中的部分:

http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm#varimp

为了弄清楚一个variables的重要性,他们用随机垃圾(“permute”)填充它,然后看看预测准确度有多less。 MeanDecreaseAccuracy和MeanDecreaseGini以这种方式工作。 我不确定原始分数是多less。

对于随机森林来说,可解释性是相当艰难的。 虽然RF是一个非常强大的分类器,它使得它的民主预测。 通过这个,我的意思是通过随机抽取一部分variables和一个随机的数据子集来构build数以千计的树,并构build一棵树。 然后对所有未select的数据进行预测并保存预测。 它的强大,因为它处理你的数据集的变幻莫测(即平滑随机高/低值,偶然地块/样本,测量同样的事情4种不同的方式等)。 然而,如果你有一些高度相关的variables,这两个variables可能看起来很重要,因为它们并不总是包含在每个模型中。

随机森林的一个潜在方法可能是帮助减less预测因子,然后切换到常规CART或尝试PARTY包进行基于推理的树模型。 但是,您必须谨慎处理数据挖掘问题,并对参数进行推理。