深度实践OCR - 刘树春

深度实践OCR

刘树春

出版时间

2020-05-19

ISBN

9787111654049

评分

★★★★★
书籍介绍

读者对象:

1.人工智能领域的技术工程师,尤其是从事图像识别和NLP的技术工程师;

2.专门研究OCR的专业人士或院校师生等。

这是一部融合了企业界先进工程实践经验和学术界前沿技术和思想的OCR著作。

本书由阿里巴巴本地生活研究院算法团队技术专家领衔,从组件、算法、实现、工程应用等维度系统讲解基于深度学习的OCR技术的原理和落地。书中一步步剖析了算法背后的数学原理,提供大量简洁的代码实现,帮助读者从零基础开始构建OCR算法。

全书共10章:

第1章从宏观角度介绍了ORC技术的发展历程、概念和产业应用;

第2章讲解了OCR的图像预处理方法;

第3~4章介绍了传统机器学习方法和深度学习的相关基础知识;

第5章讲解了基于传统方法和深度学习方法的OCR的数据生成;

第6章讲解了与OCR相关的一些高级深度学习方法,方便读者理解后续的检测和识别部分;

第7章讲解了文字的检测技术,从通用的目标检测到文字的检测,一步步加深读者对文字检测问题的认识;

第8章讨论了文字识别的相关技术,定位到文字的位置之后,需要对文字的内容进行进一步的解析;

第9章介绍了一些OCR后处理的方法;

第10章介绍了一些版面分析方法。

刘树春

阿里巴巴本地生活研究院算法专家,前复旦七牛云联合实验室OCR算法负责人,在OCR相关技术的落地和实现方面有深入的研究和丰富的实践经验,在菜单识别、车牌检测识别、卡证识别、商业广告文字检测和识别、票据类识别等应用场景中积累了丰富的经验。曾经组队参加COCO竞赛、ICDAR刷榜等活动,并发表多篇顶级论文。

贺盼

佛罗里达大学在读博士,担任 CVPR、ICCV、ECCV等10多家国际顶会审稿人或程序委员,在场景文本领域发表过多篇国际顶尖会议论文 (DTRN、CTPN、SSTD等)。曾经在中科院先进技术研究院、港中文、旷世美国研究院等做过相关研究工作,对场景文本有深刻的认识,并且对场景文本学术前沿有很强的感知力。

马建奇

著名的RRPN算法的作者,发表过多篇国际顶尖会议论文,曾经在旷世研究院做过检测相关的工作,在上海高等研究院做过文字检测相关的工作,...

(展开全部)

目录
推荐序
前言
第1章 绪论 1
1.1 人工智能大潮中的OCR发展史 1
1.1.1 传统OCR方法一般流程 3

显示全部
用户评论
只能算是入门级别的技术书,可以辅助搭建文字识别领悟的整体框架搭建,但是带来的增益,可能还不如一篇国外大牛发表的综述论文。 书中百分之80的内容都是网上各个博主写的技术博客,这骗钱的吃相,有点难看了……
还是非常良心的一本书,内容还是相对全面的,算是业内第一本深度学习OCR的书籍,作者把该说明白的都说明白了,至于数据集这种已经补充完毕了。
貌似国内 OCR 方向唯一一本书了😂😂,深度谈不上,基于深度学习倒是真的。挺适合零基础入门,先拓宽一下大概的理论知识
数据集现在完善了,可以从GitHub第五章内容上找到。深度学习应用于文字识别这方面的好书还是稀缺的,这本书从组件、算法、实现、工程应用讲解基于前沿深度学习OCR技术的原理,作者团队也很牛,阿里巴巴本地生活研究院领衔,值得一读
看作者介绍还挺有水平的,有学术界学者,还有产业界一线从业者,实战经验都挺强,读了之后,确实很有帮助,技术新,案例与实际应用联系 ,还有代码示例,很实用
这本书一言难尽,不知道为什么当当和这里都那么多打满分吹得那么厉害。。。。他像是一本ocr领域的综述,对于ocr各个流程(如预处理,模型)需要的解决的问题和怎么解决都有综合性的阐述,对传统的方法和深度学习各种各样的方法介绍了很多,如果单纯只是想了解ocr的发展历程和工作流程,这本书是讲的可以的,书中整理的数据集也是非常好的。但是仅仅是在讲原理,而缺乏实践,第三章的实践训练数据集没有,第八章的代码直接抄的github的开源代码(不过有作者的一些解释和多了有少量注释),直接抄论文开源代码的还有别的地方。部分代码基于的pytorch版本太低需要读者手动去改(虽然改一下并不难),部分注释有误。只是给看个ocr的大概,确实没有什么实践的,更谈不上书名的"深度实践"了
收藏