机器学习中的随机森林方法

新闻分类

联系我们

地址：北京市海淀区北四环西路9号 ,主营：人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别，OCR识别等及智能识别技术。
电话：13146317170 廖经理
传真：
邮箱：398017534@qq.com

机器学习中的随机森林方法

1.随机森林原理引见

随机森林，指的是应用多棵树对样本停止锻炼并预测的一种分类器。

简单来说，随机森林就是由多棵CART（Classification And Regression Tree）构成的。

关于每棵树，它们运用的锻炼集是从总的锻炼集中有放回采样出来的，这意味着，总的锻炼集中的有些样本可能屡次呈现在一棵树的锻炼集中，也可能从未呈现在一棵树的锻炼集中。在锻炼每棵树的节点时，运用的特征是从一切特征中依照一定比例随机地无放回的抽取的，

依据Leo Breiman的倡议，假定总的特征数量为N，这个比例能够是

a. sqrt(M),

b. 1/2sqrt(N)

c. 2sqrt(N)

因而，随机森林的锻炼过程能够总结如下：

(1) 给定锻炼集S，测试集T，特征维数F。肯定参数：运用到的CART的数量t，每棵树的深度d，每个节点运用到的特征数量f, 终止条件：节点上最

少样本数s，节点上最少的信息增益m

(2) 从S中有放回的抽取大小和S一样的锻炼集S(i)，作为根节点的样本，从根节点开端锻炼

(3) 假如当前节点上到达终止条件，则设置当前节点为叶子节点，假如是分类问题，该叶子节点的预测输出为当前节点样本汇合中数量最多的那一

类c(j)，概率p为c(j)占当前样本集的比例；假如是回归问题，预测输出为当前节点样本集各个样本值的均匀值。然后继续锻炼其他节点。假如当

前节点没有到达终止条件，则从F维特征中无放回的随机选取f维特征。应用这f维特征，寻觅分类效果最好的一维特征k及其阈值th，当前节点上

样本第k维特征小于th的样本被划分到左节点，其他的被划分到右节点。继续锻炼其他节点。有关分类效果的评判规范在后面会讲。

(4) 反复(2)(3)直到一切节点都锻炼过了或者被标志为叶子节点。

(5) 反复(2),(3),(4)直到一切CART都被锻炼过。

应用随机森林的预测过程如下：

关于第1-t棵树，i=1-t：

(1)从当前树的根节点开端，依据当前节点的阈值th，判别是进入左节点(<th)还是进入右节点(>=th)，直到抵达，某个叶子节点，并输出预测值。

(2)反复执行(1)直到一切t棵树都输出了预测值。假如是分类问题，则输出为一切树中预测概率总和最大的那一个类，即对每个c(j)的p停止累计；假如是回归问题，则输出为一切树的输出的均匀值。

注：有关分类效果的评判规范，由于运用的是CART，因而运用的也是CART的评判规范，和C3.0,C4.5都不相同。

关于分类问题（将某个样本划分到某一类），也就是离散变量问题，CART运用Gini值作为评判规范。

定义为Gini=1-∑(P(i)*P(i)),P(i)为当前节点上数据集中第i类样本的比例。例如：分为2类，当前节点上有100个样本，属于第一类的样本有70个，属于第二类的样本有30个，则Gini=1-0.7×07-0.3×03=0.42，能够看出，类别散布越均匀，Gini值越大，类散布越不平均，Gini值越小。在寻觅最佳的分类特征和阈值时，评判规范为：argmax（Gini-GiniLeft-GiniRight），即寻觅最佳的特征f和阈值th，使得当前节点的Gini值减去左子节点的Gini和右子节点的Gini值最大。

关于回归问题，相对愈加简单，直接运用argmax(Var-VarLeft-VarRight)作为评判规范，即当前节点锻炼集的方差Var减去减去左子节点的方差VarLeft和右子节点的方差VarRight值最大。

2. 完成

1. Random Forest 的原理和运用：
  1. 原理：Random Forest的是一种汇合学习的办法（ensemble learning）将多个弱分类器组合起来成为一个强分类器。
  2. Bagging VS Boosting ：两者类似之处是，都是将同一类型的分类器组合起来，都是有放回的为每个弱分类器随机抽取一定比例的样本锻炼。不同之处是，boosting的锻炼是有序的，新的分类器锻炼要基于上一个分类器的预测效果。GBDT采用Baoosting技术，RandomForest采用Bagging技术。
  3. RandomForest 的构建：并行构建K棵决策树，每个决策树随机地选取指定比例p(ie 0.6)的sample和指定比例q(ie 0.5)的feature停止锻炼.
  4. RandomForest 的预测：多个弱分类器投票结果交融为最终分类结果，见图1

图 1 Random Forest Prediction

锻炼的调优
1. 调优主要从三个维度停止：样本，feature，模型和参数
2. Feature的调优：
  1. 首先在少量的样本上（几 K ）级别，将锻炼数据同时也做为预测数据停止测试，添减feature查看效果，开端feature数量为11个，后来添加到20个之后效果有所提升，继续添加新的feature的时分，效果提升不明显，暂时肯定feature为这20个。
3. 样本的调整：
  1. 针对 classification imbalance问题，主要是2类样本数目过多，制定规则过滤些低奉献样本，同时运用了牢靠度更高的label数据。
  2. 加大 0 和1 样本的数量，尽量使得三类样本比例1:1:1
  3. 少量样本上锻炼呈现过度拟合问题如图4，少量样本上train data 也做为test data时发现精确率、掩盖率很高误差不到1%，但是换另外一个test data时误差到达30%，提升锻炼的样本量，效果又提升上来。
4. 模型和参数的调整：
  1. 简单比照过GBDT和RF，SVM的效果，RF的效果最好，RF默许运用200棵树，每个树随机运用60%的sample，60%的feature。调整过sample ration 和feature ratio的比例，对最后的效果影响不大。

CV 考证RF的各项指标

上一条：机器学习与人工智能的区别下一条：机器学习神经网络