联系我们
- 地 址:北京市海淀区北四环西路9号 ,主 营:人脸识别,活体检测,身份证识别,银行卡识别,名片识别,车牌识别,OCR识别等及智能识别技术。
- 电 话:13146317170 廖经理
- 传 真:
- 邮 箱:398017534@qq.com
OCR技术其实是一门非常古老的技术,最早是起源于国外,内国起步相对较晚,下面我们详细介绍OCR技术的起源,和国内OCR技术的发展历史。
其实OCR的概念是在1929年的时候,由德国人Tausheck最先提出来的,再后来是美国的一位名叫Handel的科学家提出了利用软件技术对文字进行识别的想法。
但是最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,他们在1966年发表了第一篇关于汉字识别的文章,采用了模板匹配法识别了1000个印刷体汉字,当时已经是非常牛。
在60、70年代,很多国家都开始有了对OCR的研究,初期多以文字的识别方法研究为主,且识别的文字仅为0至9的数字。日本在1960年开始研究OCR的基本识别理论,最开始以数字为对象,直至1965至1970年之间开始有一些简单的产品,如印刷文字的邮政编码识别系统,识别邮件上的邮政编码,帮助邮局作区域分信的作业;也因此至今邮政编码一直是各国所倡导的地址书写方式。
中国在OCR技术方面的研究工作起步较晚,在70年代才开始对数字、英文字母及符号的识别进行研究,70年代末开始进行汉字识别的研究。到1986年,国家科委员提出“863”高新科技研究计划,汉字识别的研究进入一个实质性的阶段,清华大学的丁晓青教授和中科院分别开发研究,清华大学在1992年推出了中国第一款汉字识别软件TH-OCR,现为中国最领先汉字OCR技术。但早期因为没有好的影像采集设备,TH-OCR并没有得到很好的应用。直到进入90年代未,随着平台式扫描仪的广泛应用,大大推动了OCR技术的进一步发展,使OCR的识别正确率、识别速度满足了广大用户的要求。TH-OCR产品也得到了快速的提升。就算今日,TH-OCR任然是一款非常经典的产品,市场占有率依然非常高。包含后来的微软在office中使用了TH-OCR,包含惠普等多个PC厂商,都预装了TH-OCR软件。
TH-OCR目前可以识别26000多个汉字,识别率达到99.97%.无论在可识别汉字数量,还是识别率上都遥遥领先。
OCR技术目前细分为:身份证OCR,行驶证OCR,护照OCR,银行卡OCR,车牌号OCR,文档OCR,票据OCR,单据OCR,发票OCR,名片OCR等,这些都是基于文字识别技术,万变不离其中。