我正在尝试在R中使用随机森林包进行分类。 列出的variables重要性措施是: 意味着等级0的variablesx的原始重要性分数 意思是等级1的variablesx的原始重要性分数 MeanDecreaseAccuracy MeanDecreaseGini 现在我知道这些“意思”是什么,因为我知道他们的定义。 我想知道的是如何使用它们。 我真正想知道的是,这些价值观的含义只在于它们的准确性如何,价值是什么,价值是什么,什么是最高和最低等等。 如果一个variables具有较高的MeanDecreaseAccuracy或MeanDecreaseGini ,那么这是否意味着它是重要的还是不重要的? 此外,关于原始分数的任何信息也可能有用。 我想知道所有关于这些数字的知识,这些数字与它们的应用有关。 使用“错误”,“求和”或“置换”这样的词语的解释将不那么有用,那么简单的解释就不会涉及随机森林如何工作的讨论。 就像我想让某人向我解释如何使用收音机一样,我也不会期望这个解释涉及到无线电如何将无线电波转化为声音。
任何人都可以解释scikit学习中RandomForestClassifier和ExtraTreesClassifier的区别。 我花了很多时间阅读报纸: P. Geurts,D. Ernst。和L. Wehenkel,“Extremely randomized trees”,Machine Learning,63(1),3-42,2006 这似乎是ET的差异: 1)在拆分中selectvariables时,从整个训练集中抽取样本,而不是训练集的引导样本。 2)在每次拆分时,样本中的分割值是从样本中随机抽取的。 这两件事的结果是更多的“叶”。
我有一个时间序列作为数据input的分类任务,其中每个属性(n = 23)代表一个特定的时间点。 除了绝对的分类结果之外,我还想知道哪些属性/date对结果有什么影响。 因此,我只是使用feature_importances_ ,这对我很好。 但是,我想知道他们如何计算和使用哪种度量/algorithm。 不幸的是我找不到关于这个主题的任何文档。
我想适应一个随机的森林模型,但是当我打电话 library(randomForest) cars$speed[1] <- NA # to simulate missing value model <- randomForest(speed ~., data=cars) 我得到以下错误 Error in na.fail.default(list(speed = c(NA, 4, 7, 7, 8, 9, 10, 10, 10, : missing values in object
我可以从决策树中的训练树中提取底层决策规则(或“决策path”) – 作为文本列表吗? 例如: "if A>0.4 then if B<0.2 then if C>0.8 then class='X'等等。 如果有人知道一个简单的方法,这将是非常有帮助的。