随机森林简介¶

基本原理¶

随机森林的概念比较简单，其实就是并行训练多颗决策树，在预测时，分类问题用少数服从多数的方式投票，回归问题用平均值。

很多颗树就组成森林，而前缀随机，是说每颗树的样本是从原始数据中有放回的随机抽样，而且在树的生长中，在每个节点并不会遍历所有特征，而只会随机抽一定量的特征。所以说，随机有两处，一处是在样本集的抽取，一处是树分割的特征遍历。

为什么要用随机呢？

这是为了削弱树与树之间的相关性，如果每颗树都相似，那么随机森林的意义便不复存在。只有每颗树的着眼点不同，是相异的，结果才能更好地反映出统筹兼顾的特点。

所以随机森林树越多，结果越趋于平均，越不会过拟合。而GBDT随着树的颗数增加，就会越趋向于过拟合。

另外，因为随机森林用的是有放回随机抽样，对于$N$个样本的训练集，则样本不会被抽取到的概率是： \begin{equation} P = (1 - \frac{1}{N})^N = 1 + \frac{1}{-N})^{-N \cdot -1} \to e^{-1} \approx \frac{1}{3} \end{equation}

也就是说，对于每颗树，都有将近1/3的训练样本没有使用，这些样本就可以当作测试集。即，在训练的同时跑测试，通过测试指标获取到当前训练的信息，这个称为Out-of-bag Estimator.

工程实现¶

因为是单颗树的扩增，工程实现没有太多讲的。sklearn比较正统，独立实现了决策树，再此基础上实现了随机森林，而spark的决策树就是1颗树的随机森林。

In [ ]: