联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
基于深度学习的视频识别方法
基于深度学习的视频识别方法
深度学习在最近十来年特别火,简直是带动AI浪潮的最大奉献者。互联网视频在最近几年也特别火,短视频、视频直播等各种新型UGC形式牢牢抓住了用户的消省心里,成为互联网吸金的又一利器。当这两个火碰在一同,会产生什么样的化学反响呢?
不说详细的技术,先上一张福利图,该图展现了机器对一个视频的认知效果。其总红色的字表示objects, 蓝色的字表示scenes,绿色的字表示activities。
人工智能在视频上的应用主要一个课题是视频了解,努力处理“语义鸿沟”的问题,其中包括了:
· 视频构造化剖析:即是对视频停止帧、超帧、镜头、场景、故事等分割,从而在多个层次上停止处置和表达。
· 目的检测和跟踪:如车辆跟踪,多是应用在安防范畴。
· 人物辨认:辨认出视频中呈现的人物。
· 动作辨认:Activity Recognition,辨认出视频中人物的动作。
· 情感语义剖析:即观众在欣赏某段视频时会产生什么样的心理体验。
短视频、直播视频中大局部承载的是人物+场景+动作+语音的内容信息,如图1所示,如何用有效的特征对其内容停止表达是停止该类视频了解的关键。传统的手工特征有一大堆,目前效果较好的是iDT(Improved Dense Trajectories) ,在这里就不加讨论了。深度学习对图像内容的表达才能非常不错,在视频的内容表达上也有相应的办法。下面引见最近几年主流的几种技术办法。
1、基于单帧的辨认办法
一种最直接的办法就是将视频停止截帧,然后基于图像粒度(单帧)的停止deep learninig 表达, 如图2所示,视频的某一帧经过网络取得一个辨认结果。图2为一个典型的CNN网络,红色矩形是卷积层,绿色是归一化层,蓝色是池化层 ,黄色是全衔接层。但是一张图相对整个视频是很小的一局部,特别当这帧图没有那么的具有辨别度,或是一些和视频主题无关的图像,则会让分类器摸不着头脑。因而,学习视频时间域上的表达是进步视频辨认的主要要素。当然,这在运动性强的视频上才有辨别度,在较静止的视频上只能靠图像的特征了。
2、基于CNN扩展网络的辨认办法
它的总体思绪是在CNN框架中寻觅时间域上的某个形式来表达部分运动信息,从而取得总体辨认性能的提升。图3是网络构造,它总共有三层,在第一层对10帧 (大约三分之一秒)图像序列停止MxNx3xT的卷积(其中 MxN是图像的分辨率,3是图像的3个颜色通道,T取4,是参与计算的帧数,从而构成在时间轴上4个响应),在第2、3层上停止T=2的时间卷积,那么在第3层包含了这10帧图片的一切的时空信息。该网络在不同时间上的同一层网络参数是共享参数的。
它的总体精度在相对单帧进步了2%左右,特别在运动丰厚的视频,如摔角、爬杆等强运动视频类型中有较大幅度的提升,这从而也证明了特征中运动信息对辨认是有奉献的。在完成时,这个网络架构能够参加多分辨的处置办法,能够进步速度。
3、双路CNN的辨认办法
这个其实就是两个独立的神经网络了,最后再把两个模型的结果均匀一下。上面一个就是普通的单帧的CNN,而且文章当中提到了,这个CNN是在 ImageNet的数据上pre-train,然后在视频数据上对最后一层停止调参。下面的一个CNN网络,就是把连续几帧的光流叠起来作为CNN的输入。 另外,它应用multi-task learning来克制数据量缺乏的问题。其实就是CNN的最后一层连到多个softmax的层上,对应不同的数据集,这样就能够在多个数据集上停止 multi-task learning。网络构造如图4所示。
4、基于LSTM的辨认办法
它的根本思想是用LSTM对帧的CNN最后一层的激活在时间轴上停止整合。这里,它没有用CNN全衔接层后的最后特征停止交融,是由于全衔接层后的高层特征停止池化曾经丧失了空间特征在时间轴上的信息。相关于办法2,一方面,它能够对CNN特征停止更长时间的交融,不对处置的帧数加以上限,从而能对更长时长的视频停止表达;另一方面,办法2没有思索同一次进网络的帧的前后次第,而本网络经过LSTM引入的记忆单元,能够有效地表达帧的先后次第。网络构造如图5所示。
图 5中红色是卷积网络,灰色是LSTM单元,黄色是softmax分类器。LSTM把每个连续帧的CNN最后一层卷积特征作为输入,从左向右推进时间,从下到上经过5层LSTM,最上的softmax层会每个时间点给出分类结果。同样,该网络在不同时间上的同一层网络参数是共享参数的。在锻炼时,视频的分类结果在每帧都停止BP(back Propagation),而不是每个clip停止BP。在BP时,后来的帧的梯度的权重会增大,由于在越往后,LSTM的内部状态会含有更多的信息。
在完成时,这个网络架构能够参加光流特征,能够让处置过程容忍对帧停止采样,由于如每秒一帧的采样曾经丧失了帧间所隐含的运动信息,光流能够作为补偿。
5、3维卷积核(3D CNN)法
3D CNN 应用于一个视频帧序列图像汇合,并不是简单地把图像汇合作为多通道来对待输出多个图像(这种方式在卷积和池化后就丧失了时间域的信息,如图6上), 而是让卷积核扩展到时域,卷积在空域和时域同时停止,输出依然是有机的图像汇合(如图6下)。
完成时,将视频分红多个包含16帧的片段作为网络的输入(维数为3 × 16 × 128 × 171)。池化层的卷积核的尺寸是d x k x k, 第一个池化层d=1,是为了保证时间域的信息不要过早地被交融,接下来的池化层的d=2。有所卷积层的卷积核大小为3x3x3,相对其他尺寸的卷积核,到达了精度最优,计算性能最佳。网络构造如图7所示。这个是学习长度为16帧(采样后)视频片段的根底网络构造。关于一个完好的视频,会被分割成相互掩盖8帧的多个16帧的片段,分别提取他们的fc6特征,然后停止一个简单均匀取得一个4096维的向量作为整个视频的特征。
经过可视化最后一个卷积层对一个连续帧序列的特征表达,能够发现,在特征开端着重表达了画面的信息,在特征的后面着重表达的是运动信息,即在运动处有相对显著的特征。如图8。
不说详细的技术,先上一张福利图,该图展现了机器对一个视频的认知效果。其总红色的字表示objects, 蓝色的字表示scenes,绿色的字表示activities。
人工智能在视频上的应用主要一个课题是视频了解,努力处理“语义鸿沟”的问题,其中包括了:
· 视频构造化剖析:即是对视频停止帧、超帧、镜头、场景、故事等分割,从而在多个层次上停止处置和表达。
· 目的检测和跟踪:如车辆跟踪,多是应用在安防范畴。
· 人物辨认:辨认出视频中呈现的人物。
· 动作辨认:Activity Recognition,辨认出视频中人物的动作。
· 情感语义剖析:即观众在欣赏某段视频时会产生什么样的心理体验。
短视频、直播视频中大局部承载的是人物+场景+动作+语音的内容信息,如图1所示,如何用有效的特征对其内容停止表达是停止该类视频了解的关键。传统的手工特征有一大堆,目前效果较好的是iDT(Improved Dense Trajectories) ,在这里就不加讨论了。深度学习对图像内容的表达才能非常不错,在视频的内容表达上也有相应的办法。下面引见最近几年主流的几种技术办法。
1、基于单帧的辨认办法
一种最直接的办法就是将视频停止截帧,然后基于图像粒度(单帧)的停止deep learninig 表达, 如图2所示,视频的某一帧经过网络取得一个辨认结果。图2为一个典型的CNN网络,红色矩形是卷积层,绿色是归一化层,蓝色是池化层 ,黄色是全衔接层。但是一张图相对整个视频是很小的一局部,特别当这帧图没有那么的具有辨别度,或是一些和视频主题无关的图像,则会让分类器摸不着头脑。因而,学习视频时间域上的表达是进步视频辨认的主要要素。当然,这在运动性强的视频上才有辨别度,在较静止的视频上只能靠图像的特征了。
2、基于CNN扩展网络的辨认办法
它的总体思绪是在CNN框架中寻觅时间域上的某个形式来表达部分运动信息,从而取得总体辨认性能的提升。图3是网络构造,它总共有三层,在第一层对10帧 (大约三分之一秒)图像序列停止MxNx3xT的卷积(其中 MxN是图像的分辨率,3是图像的3个颜色通道,T取4,是参与计算的帧数,从而构成在时间轴上4个响应),在第2、3层上停止T=2的时间卷积,那么在第3层包含了这10帧图片的一切的时空信息。该网络在不同时间上的同一层网络参数是共享参数的。
它的总体精度在相对单帧进步了2%左右,特别在运动丰厚的视频,如摔角、爬杆等强运动视频类型中有较大幅度的提升,这从而也证明了特征中运动信息对辨认是有奉献的。在完成时,这个网络架构能够参加多分辨的处置办法,能够进步速度。
3、双路CNN的辨认办法
这个其实就是两个独立的神经网络了,最后再把两个模型的结果均匀一下。上面一个就是普通的单帧的CNN,而且文章当中提到了,这个CNN是在 ImageNet的数据上pre-train,然后在视频数据上对最后一层停止调参。下面的一个CNN网络,就是把连续几帧的光流叠起来作为CNN的输入。 另外,它应用multi-task learning来克制数据量缺乏的问题。其实就是CNN的最后一层连到多个softmax的层上,对应不同的数据集,这样就能够在多个数据集上停止 multi-task learning。网络构造如图4所示。
4、基于LSTM的辨认办法
它的根本思想是用LSTM对帧的CNN最后一层的激活在时间轴上停止整合。这里,它没有用CNN全衔接层后的最后特征停止交融,是由于全衔接层后的高层特征停止池化曾经丧失了空间特征在时间轴上的信息。相关于办法2,一方面,它能够对CNN特征停止更长时间的交融,不对处置的帧数加以上限,从而能对更长时长的视频停止表达;另一方面,办法2没有思索同一次进网络的帧的前后次第,而本网络经过LSTM引入的记忆单元,能够有效地表达帧的先后次第。网络构造如图5所示。
图 5中红色是卷积网络,灰色是LSTM单元,黄色是softmax分类器。LSTM把每个连续帧的CNN最后一层卷积特征作为输入,从左向右推进时间,从下到上经过5层LSTM,最上的softmax层会每个时间点给出分类结果。同样,该网络在不同时间上的同一层网络参数是共享参数的。在锻炼时,视频的分类结果在每帧都停止BP(back Propagation),而不是每个clip停止BP。在BP时,后来的帧的梯度的权重会增大,由于在越往后,LSTM的内部状态会含有更多的信息。
在完成时,这个网络架构能够参加光流特征,能够让处置过程容忍对帧停止采样,由于如每秒一帧的采样曾经丧失了帧间所隐含的运动信息,光流能够作为补偿。
5、3维卷积核(3D CNN)法
3D CNN 应用于一个视频帧序列图像汇合,并不是简单地把图像汇合作为多通道来对待输出多个图像(这种方式在卷积和池化后就丧失了时间域的信息,如图6上), 而是让卷积核扩展到时域,卷积在空域和时域同时停止,输出依然是有机的图像汇合(如图6下)。
完成时,将视频分红多个包含16帧的片段作为网络的输入(维数为3 × 16 × 128 × 171)。池化层的卷积核的尺寸是d x k x k, 第一个池化层d=1,是为了保证时间域的信息不要过早地被交融,接下来的池化层的d=2。有所卷积层的卷积核大小为3x3x3,相对其他尺寸的卷积核,到达了精度最优,计算性能最佳。网络构造如图7所示。这个是学习长度为16帧(采样后)视频片段的根底网络构造。关于一个完好的视频,会被分割成相互掩盖8帧的多个16帧的片段,分别提取他们的fc6特征,然后停止一个简单均匀取得一个4096维的向量作为整个视频的特征。
经过可视化最后一个卷积层对一个连续帧序列的特征表达,能够发现,在特征开端着重表达了画面的信息,在特征的后面着重表达的是运动信息,即在运动处有相对显著的特征。如图8。
上一条:人工智能AI产业寻求三方面突破
下一条:人工智能AI人才紧缺