卷积神经网络中的图像分类和图像分割

新闻分类

联系我们

地址：北京市海淀区北四环西路9号 ,主营：人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别，OCR识别等及智能识别技术。
电话：13146317170 廖经理
传真：
邮箱：398017534@qq.com

卷积神经网络中的图像分类和图像分割

从图像分类到图像分割

卷积神经网络（CNN）自2012年以来，在图像分类和图像检测等方面获得了宏大的成就和普遍的应用。

CNN的强大之处在于它的多层构造能自动学习特征，并且能够学习到多个层次的特征：较浅的卷积层感知域较小，学习到一些部分区域的特征；较深的卷积层具有较大的感知域，可以学习到愈加笼统一些的特征。这些笼统特征对物体的大小、位置和方向等敏理性更低，从而有助于辨认性能的进步。

这些笼统的特征对分类很有协助，能够很好地判别出一幅图像中包含什么类别的物体，但是由于丧失了一些物体的细节，不能很好地给出物体的详细轮廓、指出每个像素详细属于哪个物体，因而做到准确的分割就很有难度。

传统的基于CNN的分割办法的做法通常是：为了对一个像素分类，运用该像素四周的一个图像块作为CNN的输入用于锻炼和预测。这种办法有几个缺陷：一是存储开支很大。例如对每个像素运用的图像块的大小为15x15，则所需的存储空间为原来图像的225倍。二是计算效率低下。相邻的像素块根本上是反复的，针对每个像素块逐一计算卷积，这种计算也有很大水平上的反复。三是像素块大小的限制了感知区域的大小。通常像素块的大小比整幅图像的大小小很多，只能提取一些部分的特征，从而招致分类的性能遭到限制。

针对这个问题, UC Berkeley的Jonathan Long等人提出了Fully Convolutional Networks (FCN)[1][1]用于图像的分割。该网络试图从笼统的特征中恢复出每个像素所属的类别。即从图像级别的分类进一步延伸到像素级别的分类。

FCN的原理

FCN将传统CNN中的全衔接层转化成一个个的卷积层。如下图所示，在传统的CNN构造中，前5层是卷积层，第6层和第7层分别是一个长度为4096的一维向量，第8层是长度为1000的一维向量，分别对应1000个类别的概率。FCN将这3层表示为卷积层，卷积核的大小(通道数，宽，高)分别为（4096,1,1）、（4096,1,1）、（1000,1,1）。一切的层都是卷积层，故称为全卷积网络。

这里写图片描绘

能够发现，经过屡次卷积（还有pooling）以后，得到的图像越来越小,分辨率越来越低（粗略的图像），那么FCN是如何得到图像中每一个像素的类别的呢？为了从这个分辨率低的粗略图像恢复到原图的分辨率，FCN运用了上采样。例如经过5次卷积(和pooling)以后，图像的分辨率依次减少了2，4，8，16，32倍。关于最后一层的输出图像，需求停止32倍的上采样，以得到原图一样的大小。

这个上采样是经过反卷积（deconvolution）完成的。对第5层的输出（32倍放大）反卷积到原图大小，得到的结果还是不够准确，一些细节无法恢复。于是Jonathan将第4层的输出和第3层的输出也依次反卷积，分别需求16倍和8倍上采样，结果就精密一些了。下图是这个卷积和反卷积上采样的过程：

这里写图片描绘

下图是32倍，16倍和8倍上采样得到的结果的比照，能够看到它们得到的结果越来越准确：

这里写图片描绘

FCN的优点和缺乏

与传统用CNN停止图像分割的办法相比，FCN有两大明显的优点：一是能够承受恣意大小的输入图像，而不用请求一切的锻炼图像和测试图像具有同样的尺寸。二是愈加高效，由于防止了由于运用像素块而带来的反复存储和计算卷积的问题。

同时FCN的缺陷也比拟明显：一是得到的结果还是不够精密。停止8倍上采样固然比32倍的效果好了很多，但是上采样的结果还是比拟含糊战争滑，对图像中的细节不敏感。二是对各个像素停止分类，没有充沛思索像素与像素之间的关系，疏忽了在通常的基于像素分类的分割办法中运用的空间规整（spatial regularization）步骤，缺乏空间分歧性。