机器学习算法总结

新闻分类

联系我们

地址：北京市海淀区北四环西路9号 ,主营：人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别，OCR识别等及智能识别技术。
电话：13146317170 廖经理
传真：
邮箱：398017534@qq.com

机器学习算法总结

1、特征值归一化

目的：为了让一切的特征的值，具有相同的量纲
缘由：算法在计算的过程中运用到了特征的值
拿LR举例，用到了梯度降落算法。在计算梯度的时分，运用到了特征的值。假如特征值不停止归一化处置，那么在同一个学习率的状况下，具有较小特征值的特征就学习的不好（由于此时的学习率关于该特征值来说大了，不适宜），为了防止这种状况，学习率就要设置的十分小，学习率小，这就会招致算法学习的十分慢。
ps：基于树的办法不需求停止特征值的归一化，由于整个树模型算法在计算（团结）的过程中没有运用特征的值，运用的是该特征具有该值的概率，用这个概率来计算增益，从而停止团结。
2、二分类问题，假如其中一类样本很少的状况下（假设负样本很少），正负样本比例设置成几，算法才干充沛学习较少类样本的信息（也就是充沛学习负样本的信息？）

要察看算法的badcases。
假如有一批样本，样本有特征和标签，分红train集和test集，两个汇合正负样本比例分歧，并且都是负样本较少。然后有一个机器学习算法，如今用这个算法去学习train集的样本，并且给test集的样本打分。由于test集样本的标签已知，所以我们能晓得哪些test集样本打分正确，哪些打分错误。
假如test集中，大局部的负样本都被判别成了正样本，阐明算法关于负样本学习的不充沛，处理方法：需求增加负样本的数量；开发新的特征；
假如test集中，大局部的负样本都被判别成了负样本，判别正确，阐明算法关于负样本学习的充沛了。
3、二分类问题，什么时分能阐明一个算法充沛学习了正负样本？

先看test集与train集的AUC，相差在0.5%~1%以内，阐明该算法锻炼出来的模型的泛化才能比拟好了；
看badcases，同问题2
4、二分类问题，在算法充沛学习了正负样本的状况下，增加样本，无论是哪类样本，改动的是模型的bias，此时曾经不会改动模型的variance了，由于模型曾经学习的很好了

5、模型过拟合

我们说一个模型过拟合，是说一个模型的variance大；而当一个模型bias大，但是variance比拟小的时分，我们以为这个模型是比拟稳定的，模型学习的很好，就是会有一些偏移，这个偏移我们经过平移之类的操作就能够消弭，所以这种状况，我们不以为是过拟合。
6、模型评价指标，为什么不用accuracy？不同的业务场景下用什么样的评价指标？

权衡一个模型好坏，不用accuracy，accuracy不精确，由于不同的阈值，会有不同的accuracy。
不同的业务场景，对模型的评价指标是不一样的，以二分类问题为例
**场景一：很在意模型算法对两类样本的辨别/排序才能。**比方说普通的分类问题，信誉评分模型就属于这一类。此时模型评价指标用AUC（area under curve）：ROC曲线与x轴的面积。相关于accuracy而言，AUC权衡的是这个模型在一切阈值下的整体的性能，而不是单个阈值下。
ROC曲线
纵轴 TPR = TP / [ TP + FN] ，一切正例中正例分对的概率
横轴 FPR = FP / [ FP + TN] ，一切负例中负例分错的概率
AUC是ROC曲线下的面积，权衡的是模型关于不同类样本的分类/排序才能，通常tpr越高，fpr越低，分类器效果越好，所以ROC曲线越往左上凸越好。AUC描画了分类器在“正例分对”和“负例分错”间的trade-off，两类样本都思索到了，不希望过于合适单个类。
**场景二：在样本十分不平衡的状况下，很在意是不是尽可能多的将需求的那一类样本（个数少的那一类）检索出来，同时还要保证另一类的误检率比拟低。**这种普通属于检索问题，反狡诈场景就属于这一类。此时模型评价指标用PR曲线
PR曲线
纵轴 precision（查准率/精确率） TP / (TP + FP) 被预测为正例的样本中，真正的正例所占的比例
横轴 recall（查全率/灵活度/召回率） TP / [ TP + FN] 在一切正例样本中，被预测为正并且真的是正例的样本所占的比例
precision和recall是相互影响的，理想状况下两者都高是最好，但是普通状况下二者是成反比的。 PR曲线是对正样本（labe=1）的查全率和查准率之间的一个trade_off
为什么不用AUC？由于在样本十分不平衡的状况下，就算模型对少类的辨别才能不怎样好，也会有很高的AUC，由于另一类的数量太大，另一类样本有很多分类正确的，这就会使整体的AUC很高。比方说在信誉模型（好坏比=10：1）的时分，经历以为0.8的AUC就阐明模型关于好坏用户的辨别才能很好，但是放在反狡诈场景（好坏比=400：1），0.8的AUC就不能阐明这个模型好用。
7、决策树

选择哪一个特征来停止最初的分类，可以影响决策树的分类效率吗？答案是肯定的，特征的选取次第是可以影响决策树的构建，进而影响分类效率。
8、lightgbm算法的经历

1、AUC要在[0.75，0.85]之间，<0.75阐明模型效果不好，有可能是特征提取的不对，与业务（依据业务性质来定标签）不怎样相关；>.85，过拟合，有可能引入了将来特征，引入了label，需求检查一下。
2、锻炼集的AUC与测试集的AUC相差最好不要超越5%；
3、KS（模型将好坏样本分的最开的那个值）普通在[0.25，0.45]之间;
4、留意入模特征的次第：锻炼lightgbm模型的时分，要记住入模特征的次第，由于我们在运用锻炼好的pkl停止预测的时分，预测样本的特征要以相同的次第输入到pkl中，然后出相应的预测概率，否则就会出错误。

上一条：android系统护照阅读机下一条：缅甸身份证识别