联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
人脸检测之CNN
人脸检测之CNN
(1)网络级联
下图是该办法的整个流程表示图,能够明显看出是3阶级联(12-net、24-net、48-net)。
这里写图片描绘
级联的工作原理和益处:
1、最初阶段的网络能够比拟简单,判别阈值能够设得宽松一点,这样就能够在坚持较高召回率的同时扫除掉大量的非人脸窗口;
2、最后阶段网络为了保证足够的性能,因而普通设计的比拟复杂,但由于只需求处置前面剩下的窗口,因而能够保证足够的效率;
3、 级联的思想能够协助我们去组合应用性能较差的分类器,同时又能够取得一定的效率保证。
下图展现了,3阶段均匀剩下的窗口数量及对应的召回率:
这里写图片描绘
(2)多尺度特征
下图是3阶网络的详细网络构造:
这里写图片描绘
由上图能够看出,前2阶的网络都十分简单,只要第3阶才比拟复杂。这不是重点,重点是我们要从上图中学习多尺度特征组合。
以第2阶段的24-net为例,首先把上一阶段剩下的窗口resize为24*24大小,然后送入网络,得到全衔接层的特征。同时,将之前12-net的全衔接层特征取出与之拼接在一同。最后对组合后的特征停止softmax分类。
下图展现了,运用和不运用多尺度特征的差别:
这里写图片描绘
由图可见,采用多尺度特征能够相同条件下取得相对较高的召回率,即提升了网络的分类才能。
(3)校正网络-将回归转化为分类问题
大家应该在整体流程表示图中留意到了:每一个分类网络的输出都会经过一个对应的校正网络之后,才会被送到下一阶段。
该校正网络是为理解决下面的定位不准的问题的:
这里写图片描绘
在上图中,蓝色框是(如12-net)分类网络的输出,红色框是经过对应的12-calibration-net校正后的输出。
关于矩形框的校正,我们只需求3个参数,一个是程度平移量xn,一个是垂直平移量yn,还有一个是宽高缩放比例sn。即我们要将矩形框的控制坐标调整为:
这里写图片描绘
直觉上来看,这是要处理一个回归问题,需求回归出3个参数。但是连续的回归问题是很难处理的,因而文章将此转化为离散的分类问题。文章首先,将3个参数分别列出一些值:
这里写图片描绘
于是,我们的目的就是树立一个45类的分类器,毕竟神经网络的强项在于分类。
但是,这个分类器的精确性依然不是很稳定。因而,文章选择得分比拟高的几类做均匀,最后停止校正,即:
这里写图片描绘
(4)级联的锻炼办法
关于级联问题,文章采用了特殊的锻炼战略。
这里写图片描绘
1、依照普通的办法组织正负样本锻炼第一阶段的12-net和12-calibration-net网络;
2、 应用上述的1层网络在AFLW数据集上作人脸检测,在保证99%的召回率的根底上肯定判别阈值T1。
3、将在AFLW上判为人脸的非人脸窗口作为负样本,将一切真实人脸作为正样本,锻炼第二阶段的24-net和24-calibration-net网络;
4、反复2和3,完成最后阶段的锻炼
下图是该办法的整个流程表示图,能够明显看出是3阶级联(12-net、24-net、48-net)。
这里写图片描绘
级联的工作原理和益处:
1、最初阶段的网络能够比拟简单,判别阈值能够设得宽松一点,这样就能够在坚持较高召回率的同时扫除掉大量的非人脸窗口;
2、最后阶段网络为了保证足够的性能,因而普通设计的比拟复杂,但由于只需求处置前面剩下的窗口,因而能够保证足够的效率;
3、 级联的思想能够协助我们去组合应用性能较差的分类器,同时又能够取得一定的效率保证。
下图展现了,3阶段均匀剩下的窗口数量及对应的召回率:
这里写图片描绘
(2)多尺度特征
下图是3阶网络的详细网络构造:
这里写图片描绘
由上图能够看出,前2阶的网络都十分简单,只要第3阶才比拟复杂。这不是重点,重点是我们要从上图中学习多尺度特征组合。
以第2阶段的24-net为例,首先把上一阶段剩下的窗口resize为24*24大小,然后送入网络,得到全衔接层的特征。同时,将之前12-net的全衔接层特征取出与之拼接在一同。最后对组合后的特征停止softmax分类。
下图展现了,运用和不运用多尺度特征的差别:
这里写图片描绘
由图可见,采用多尺度特征能够相同条件下取得相对较高的召回率,即提升了网络的分类才能。
(3)校正网络-将回归转化为分类问题
大家应该在整体流程表示图中留意到了:每一个分类网络的输出都会经过一个对应的校正网络之后,才会被送到下一阶段。
该校正网络是为理解决下面的定位不准的问题的:
这里写图片描绘
在上图中,蓝色框是(如12-net)分类网络的输出,红色框是经过对应的12-calibration-net校正后的输出。
关于矩形框的校正,我们只需求3个参数,一个是程度平移量xn,一个是垂直平移量yn,还有一个是宽高缩放比例sn。即我们要将矩形框的控制坐标调整为:
这里写图片描绘
直觉上来看,这是要处理一个回归问题,需求回归出3个参数。但是连续的回归问题是很难处理的,因而文章将此转化为离散的分类问题。文章首先,将3个参数分别列出一些值:
这里写图片描绘
于是,我们的目的就是树立一个45类的分类器,毕竟神经网络的强项在于分类。
但是,这个分类器的精确性依然不是很稳定。因而,文章选择得分比拟高的几类做均匀,最后停止校正,即:
这里写图片描绘
(4)级联的锻炼办法
关于级联问题,文章采用了特殊的锻炼战略。
这里写图片描绘
1、依照普通的办法组织正负样本锻炼第一阶段的12-net和12-calibration-net网络;
2、 应用上述的1层网络在AFLW数据集上作人脸检测,在保证99%的召回率的根底上肯定判别阈值T1。
3、将在AFLW上判为人脸的非人脸窗口作为负样本,将一切真实人脸作为正样本,锻炼第二阶段的24-net和24-calibration-net网络;
4、反复2和3,完成最后阶段的锻炼
上一条:人脸识别sdk技术授权,人脸活体认证
下一条:马来西亚身份证识别