联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
机器学习算法总结
机器学习算法总结
机器学习算法总结
1、特征值归一化
目的:为了让一切的特征的值,具有相同的量纲
缘由:算法在计算的过程中运用到了特征的值
拿LR举例,用到了梯度降落算法。在计算梯度的时分,运用到了特征的值。假如特征值不停止归一化处置,那么在同一个学习率的状况下,具有较小特征值的特征就学习的不好(由于此时的学习率关于该特征值来说大了,不适宜),为了防止这种状况,学习率就要设置的十分小,学习率小,这就会招致算法学习的十分慢。
ps:基于树的办法不需求停止特征值的归一化,由于整个树模型算法在计算(团结)的过程中没有运用特征的值,运用的是该特征具有该值的概率,用这个概率来计算增益,从而停止团结。
2、二分类问题,假如其中一类样本很少的状况下(假设负样本很少),正负样本比例设置成几,算法才干充沛学习较少类样本的信息(也就是充沛学习负样本的信息?)
要察看算法的badcases。
假如有一批样本,样本有特征和标签,分红train集和test集,两个汇合正负样本比例分歧,并且都是负样本较少。然后有一个机器学习算法,如今用这个算法去学习train集的样本,并且给test集的样本打分。由于test集样本的标签已知,所以我们能晓得哪些test集样本打分正确,哪些打分错误。
假如test集中,大局部的负样本都被判别成了正样本,阐明算法关于负样本学习的不充沛,处理方法:需求增加负样本的数量;开发新的特征;
假如test集中,大局部的负样本都被判别成了负样本,判别正确,阐明算法关于负样本学习的充沛了。
3、二分类问题,什么时分能阐明一个算法充沛学习了正负样本?
先看test集与train集的AUC,相差在0.5%~1%以内,阐明该算法锻炼出来的模型的泛化才能比拟好了;
看badcases,同问题2
4、二分类问题,在算法充沛学习了正负样本的状况下,增加样本,无论是哪类样本,改动的是模型的bias,此时曾经不会改动模型的variance了,由于模型曾经学习的很好了
5、模型过拟合
我们说一个模型过拟合,是说一个模型的variance大;而当一个模型bias大,但是variance比拟小的时分,我们以为这个模型是比拟稳定的,模型学习的很好,就是会有一些偏移,这个偏移我们经过平移之类的操作就能够消弭,所以这种状况,我们不以为是过拟合。
6、模型评价指标,为什么不用accuracy?不同的业务场景下用什么样的评价指标?
权衡一个模型好坏,不用accuracy,accuracy不精确,由于不同的阈值,会有不同的accuracy。
不同的业务场景,对模型的评价指标是不一样的,以二分类问题为例
**场景一:很在意模型算法对两类样本的辨别/排序才能。**比方说普通的分类问题,信誉评分模型就属于这一类。此时模型评价指标用AUC(area under curve):ROC曲线与x轴的面积。相关于accuracy而言,AUC权衡的是这个模型在一切阈值下的整体的性能,而不是单个阈值下。
ROC曲线
纵轴 TPR = TP / [ TP + FN] ,一切正例中正例分对的概率
横轴 FPR = FP / [ FP + TN] ,一切负例中负例分错的概率
AUC是ROC曲线下的面积,权衡的是模型关于不同类样本的分类/排序才能,通常tpr越高,fpr越低,分类器效果越好,所以ROC曲线越往左上凸越好。AUC描画了分类器在“正例分对”和“负例分错”间的trade-off,两类样本都思索到了,不希望过于合适单个类。
**场景二:在样本十分不平衡的状况下,很在意是不是尽可能多的将需求的那一类样本(个数少的那一类)检索出来,同时还要保证另一类的误检率比拟低。**这种普通属于检索问题,反狡诈场景就属于这一类。此时模型评价指标用PR曲线
PR曲线
纵轴 precision(查准率/精确率) TP / (TP + FP) 被预测为正例的样本中,真正的正例所占的比例
横轴 recall(查全率/灵活度/召回率) TP / [ TP + FN] 在一切正例样本中,被预测为正并且真的是正例的样本所占的比例
precision和recall是相互影响的,理想状况下两者都高是最好,但是普通状况下二者是成反比的。 PR曲线是对正样本(labe=1)的查全率和查准率之间的一个trade_off
为什么不用AUC?由于在样本十分不平衡的状况下,就算模型对少类的辨别才能不怎样好,也会有很高的AUC,由于另一类的数量太大,另一类样本有很多分类正确的,这就会使整体的AUC很高。比方说在信誉模型(好坏比=10:1)的时分,经历以为0.8的AUC就阐明模型关于好坏用户的辨别才能很好,但是放在反狡诈场景(好坏比=400:1),0.8的AUC就不能阐明这个模型好用。
7、决策树
选择哪一个特征来停止最初的分类,可以影响决策树的分类效率吗?答案是肯定的,特征的选取次第是可以影响决策树的构建,进而影响分类效率。
8、lightgbm算法的经历
1、AUC要在[0.75,0.85]之间,<0.75阐明模型效果不好,有可能是特征提取的不对,与业务(依据业务性质来定标签)不怎样相关;>.85,过拟合,有可能引入了将来特征,引入了label,需求检查一下。
2、锻炼集的AUC与测试集的AUC相差最好不要超越5%;
3、KS(模型将好坏样本分的最开的那个值)普通在[0.25,0.45]之间;
4、留意入模特征的次第:锻炼lightgbm模型的时分,要记住入模特征的次第,由于我们在运用锻炼好的pkl停止预测的时分,预测样本的特征要以相同的次第输入到pkl中,然后出相应的预测概率,否则就会出错误。
上一条:android系统护照阅读机
下一条:缅甸身份证识别