RandomForestClassifier与Scratch中的ExtraTreesClassifier学习
任何人都可以解释scikit学习中RandomForestClassifier和ExtraTreesClassifier的区别。 我花了很多时间阅读报纸:
P. Geurts,D. Ernst。和L. Wehenkel,“Extremely randomized trees”,Machine Learning,63(1),3-42,2006
这似乎是ET的差异:
1)在拆分中selectvariables时,从整个训练集中抽取样本,而不是训练集的引导样本。
2)在每次拆分时,样本中的分割值是从样本中随机抽取的。
这两件事的结果是更多的“叶”。
是的,两个结论都是正确的,虽然scikit-learn中的随机森林实现可以启用或禁用bootstrap重新采样。
在实践中,RF通常比ET更紧凑。 从计算的angular度来看,ET通常更便宜,但可以变得更大。 ET有时可以推广比RF更好,但很难猜测什么时候没有先尝试(并通过交叉validation的网格search来调整n_estimators
, max_features
和min_samples_split
)。