联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
深度学习中的图像分类和图像分割
深度学习中的图像分类和图像分割
从图像分类到图像分割
卷积神经网络(CNN)自2012年以来,在图像分类和图像检测等方面获得了宏大的成就和普遍的应用。
CNN的强大之处在于它的多层构造能自动学习特征,并且能够学习到多个层次的特征:较浅的卷积层感知域较小,学习到一些部分区域的特征;较深的卷积层具有较大的感知域,可以学习到愈加笼统一些的特征。这些笼统特征对物体的大小、位置和方向等敏理性更低,从而有助于辨认性能的进步。
这些笼统的特征对分类很有协助,能够很好地判别出一幅图像中包含什么类别的物体,但是由于丧失了一些物体的细节,不能很好地给出物体的详细轮廓、指出每个像素详细属于哪个物体,因而做到准确的分割就很有难度。
传统的基于CNN的分割办法的做法通常是:为了对一个像素分类,运用该像素四周的一个图像块作为CNN的输入用于锻炼和预测。这种办法有几个缺陷:一是存储开支很大。例如对每个像素运用的图像块的大小为15x15,则所需的存储空间为原来图像的225倍。二是计算效率低下。相邻的像素块根本上是反复的,针对每个像素块逐一计算卷积,这种计算也有很大水平上的反复。三是像素块大小的限制了感知区域的大小。通常像素块的大小比整幅图像的大小小很多,只能提取一些部分的特征,从而招致分类的性能遭到限制。
针对这个问题, UC Berkeley的Jonathan Long等人提出了Fully Convolutional Networks (FCN)用于图像的分割。该网络试图从笼统的特征中恢复出每个像素所属的类别。即从图像级别的分类进一步延伸到像素级别的分类。
FCN的原理
FCN将传统CNN中的全衔接层转化成一个个的卷积层。如下图所示,在传统的CNN构造中,前5层是卷积层,第6层和第7层分别是一个长度为4096的一维向量,第8层是长度为1000的一维向量,分别对应1000个类别的概率。FCN将这3层表示为卷积层,卷积核的大小(通道数,宽,高)分别为(4096,1,1)、(4096,1,1)、(1000,1,1)。一切的层都是卷积层,故称为全卷积网络。
这里写图片描绘
能够发现,经过屡次卷积(还有pooling)以后,得到的图像越来越小,分辨率越来越低(粗略的图像),那么FCN是如何得到图像中每一个像素的类别的呢?为了从这个分辨率低的粗略图像恢复到原图的分辨率,FCN运用了上采样。例如经过5次卷积(和pooling)以后,图像的分辨率依次减少了2,4,8,16,32倍。关于最后一层的输出图像,需求停止32倍的上采样,以得到原图一样的大小。
这个上采样是经过反卷积(deconvolution)完成的。对第5层的输出(32倍放大)反卷积到原图大小,得到的结果还是不够准确,一些细节无法恢复。于是Jonathan将第4层的输出和第3层的输出也依次反卷积,分别需求16倍和8倍上采样,结果就精密一些了。下图是这个卷积和反卷积上采样的过程:
这里写图片描绘
下图是32倍,16倍和8倍上采样得到的结果的比照,能够看到它们得到的结果越来越准确:
这里写图片描绘
FCN的优点和缺乏
与传统用CNN停止图像分割的办法相比,FCN有两大明显的优点:一是能够承受恣意大小的输入图像,而不用请求一切的锻炼图像和测试图像具有同样的尺寸。二是愈加高效,由于防止了由于运用像素块而带来的反复存储和计算卷积的问题。
同时FCN的缺陷也比拟明显:一是得到的结果还是不够精密。停止8倍上采样固然比32倍的效果好了很多,但是上采样的结果还是比拟含糊战争滑,对图像中的细节不敏感。二是对各个像素停止分类,没有充沛思索像素与像素之间的关系,疏忽了在通常的基于像素分类的分割办法中运用的空间规整(spatial regularization)步骤,缺乏空间分歧性。
FCN的扩展
固然FCN不够圆满,但是其全新的思绪开拓了一个新的图像分割方向,对这个范畴的影响是非常宏大的,从2015年3月在arxiv和6月在CVPR会议上发表到写下这篇博客的时分一年的时间,该文章已被援用高达400次。
在FCN的根底上,UCLA DeepLab的Liang-Chieh Chen等在得到像素分类结果后运用了全衔接的条件随机场(fully connected conditional random fields),思索图像中的空间信息,得到愈加精密并且具有空间分歧性的结果。
Liang-Chieh的这篇文章有两大特性,一是疏忽下采样过程,转而运用稠密的卷积核以增加感知范围。如下图所示:
这里写图片描绘
二是运用了Fully Connected CRF。CRF的能量函数中包括数据项战争滑项两局部,数据项与各个像素属于各类别的概率有关,平滑项控制像素与像素间类别的分歧性。传统的CRF的平滑项只思索相邻像素类别的关联性,而Fully Connected CRF将图像中恣意两个像素之间的类别关联性都思索进来。
下图是CNN与Fully Connected CRF分离的表示图。
这里写图片描绘
实践上,CRF或者Fully Connected CRF是对CNN或者FCN输出的一种后处置技术。像素分类和空间规整这两步是分别停止的。Shuai Zheng等人将Fully Connected CRF表示成回流神经网络的构造(recurrent neuron network,RNN),将CNN与这个RNN放到一个统一的框架中,能够一步到位地对两者同时停止锻炼。将图像分割中的三个步骤:特征提取、分类器预测和空间规整全部自动化处置,经过学习取得,得到的结果比FCN-8s和DeepLab的办法的效果好了许多。
上一条:深度学习中的目标检测定位
下一条:用机器学习方法提高图片的清晰度