联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
深度学习CNN详解
深度学习CNN详解
CNN即convolutional Neutral Network, 也叫卷积神经网络,相似于认得神经元,不同神经元有不同的功用,卷积神经网络中主要有两类神经元,一类是C元,一类是S元,C代表convolution, 即卷积,卷积操作主要用于特征提取,S代表subsampling,就是下采样,也叫特征映射,其实就是池化操作;因而卷积神经网络也主要由C层和S层组成,C层为特征提取层,每个神经元的输入与前一层的部分感受野相连,并提取该部分的特征,一旦该部分特征被提取后,它与其他特征间的位置关系也随之肯定下来;S层是特征映射层,网络的每个计算层由多个特征映射组成,每个特征映射为一个平面,平面上一切神经元的权值相等。同时,也包括一个激活函数,主要就是将特征停止分类,能够为sigmoid激活函数或RELU函数,Sigmoid的优点是输出范围有限,所以数据在传输过程中不易发散。
卷积神经网络中卷积和下采样都是经过窗口完成的,卷积层一帮为3*3或5*5的窗口,依次划过原图,从而产生一系列特征图,下采样层普通为2*2的窗口,能够停止均值采样或者最大值采样等,下面就已LeNet为力,重点说一下卷积神经网络,我可能愈加注重那些没有在其他本人很容易懵懂的细节。
INPUT:输入图片,32*32像素;
C1: 6个5*5的卷积核,产生6个28*28的特征图;
S2:用2*2的窗口停止下采样,产生6个14*14的特征图;
C3:用16个5*5的卷积核,每层以不定个数的S2层特征图为输入,产生16层10*10的特征图;(这里的不定个数指的是可能是两个如1,3,也3个,1,3,5)
S4:用2*2的窗口停止下采样,产生16个5*5的特征图;
C5:用120个5*5的卷积核,每层以S4层全部16个特征图为输入,产生120个1*1的特征图;(这里全部的特征图作为输入不是必需,假如特征图过多,也能够选择部 分作为输入,所以C5层不是全链接层)
F6:用84个1*1的卷积核,每层以C5层全部120个特征图为输入,产生84个1*1的特征图;
(这里才是必需适用上一层一切的图作为输入,故称为全衔接层,用来把前面提取到的特征综合起来,需求固定大小的输入)
这里说到以局部或者全部的卷积特征图作为输入,那么详细过程是什么呢,以C3层的产生为例子,假定如今以S2的3个特征图作为输入,那我们就能够停止选择,比方选择特征图1,3,5;那么如今你就拿着这16个卷积核中其中一个分别对特征图1,3,5停止卷积,这样就能够得到三个结果,其实就是三个矩阵,然后对这些矩阵分配权值,就是分配他们所占的比重,参加偏置后得到一个矩阵,这个矩阵就是C3的一个特征图;
不断提到权值和偏置,这里插入一张本人总结的图片,同时也奉上一个解说很分明的链接:
由于CNN是针关于整个图片停止滑动卷积,没有针对性,因而就降生了RCNN,即基于Region的CNN,它的原理主要是先用selective search的办法选取出可能的区域,就是有关键信息的区域停止裁剪或者拉伸,这里裁剪和拉伸的目的主要是生成固定大小的图片用于全链接层的输入,为了便当计算,全链接层处需求每个区域都是固定大小的图片,但是实践上裁剪和拉伸都会形成图片信息的流失,
卷积神经网络中卷积和下采样都是经过窗口完成的,卷积层一帮为3*3或5*5的窗口,依次划过原图,从而产生一系列特征图,下采样层普通为2*2的窗口,能够停止均值采样或者最大值采样等,下面就已LeNet为力,重点说一下卷积神经网络,我可能愈加注重那些没有在其他本人很容易懵懂的细节。
INPUT:输入图片,32*32像素;
C1: 6个5*5的卷积核,产生6个28*28的特征图;
S2:用2*2的窗口停止下采样,产生6个14*14的特征图;
C3:用16个5*5的卷积核,每层以不定个数的S2层特征图为输入,产生16层10*10的特征图;(这里的不定个数指的是可能是两个如1,3,也3个,1,3,5)
S4:用2*2的窗口停止下采样,产生16个5*5的特征图;
C5:用120个5*5的卷积核,每层以S4层全部16个特征图为输入,产生120个1*1的特征图;(这里全部的特征图作为输入不是必需,假如特征图过多,也能够选择部 分作为输入,所以C5层不是全链接层)
F6:用84个1*1的卷积核,每层以C5层全部120个特征图为输入,产生84个1*1的特征图;
(这里才是必需适用上一层一切的图作为输入,故称为全衔接层,用来把前面提取到的特征综合起来,需求固定大小的输入)
这里说到以局部或者全部的卷积特征图作为输入,那么详细过程是什么呢,以C3层的产生为例子,假定如今以S2的3个特征图作为输入,那我们就能够停止选择,比方选择特征图1,3,5;那么如今你就拿着这16个卷积核中其中一个分别对特征图1,3,5停止卷积,这样就能够得到三个结果,其实就是三个矩阵,然后对这些矩阵分配权值,就是分配他们所占的比重,参加偏置后得到一个矩阵,这个矩阵就是C3的一个特征图;
不断提到权值和偏置,这里插入一张本人总结的图片,同时也奉上一个解说很分明的链接:
由于CNN是针关于整个图片停止滑动卷积,没有针对性,因而就降生了RCNN,即基于Region的CNN,它的原理主要是先用selective search的办法选取出可能的区域,就是有关键信息的区域停止裁剪或者拉伸,这里裁剪和拉伸的目的主要是生成固定大小的图片用于全链接层的输入,为了便当计算,全链接层处需求每个区域都是固定大小的图片,但是实践上裁剪和拉伸都会形成图片信息的流失,
上一条:人工智能中的自然语言处理流程
下一条:深度学习人脸识别技术