联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
基于深度学习的OCR识别技术
深度学习的OCR分两步:
1、检测:找到包含文字/数字的区域(proposal);
2、分类:识别区域中的文字/数字。
深度学习的OCR检测:
1、 faster-rcnn系列:基于区域的对象检测,特点是精度较高,缺点是速度慢;
2、yolo系列:基于回归的对象检测,特点是速度快,缺点是精度低。
深度学习的OCR分类:
1、Ian goodfellow在13年提出的multi-digit number classification([1312.6082] Multi-digit
Number Recognition from Street View Imagery using Deep Convolutional
Neural Networks), 基于deep CNN.缺点是要事先选定可预测的sequence的最大长度,较适用于门牌号码或者车牌号码(少量字符, 且每个字符之间可以看作是独立);
2、RNN/LSTM/GRU + CTC, 该方法最早由Alex Graves在06年提出应用于语音识别。优点是可以产生任意长度的文字,并且模型的性质决定了它有能力学到文字于文字之间的联系。缺点是计算效率较CNN低。
3、attention-mechanism,attention可以分为hard attention和soft attention. 其中hard attention能够直接给出hard location,通常是bounding box的位置,优点是直观,缺点是不能直接bp。soft attention通常是rnn/lstm/gru encoder-decoder model可以bp。