深度学习算法_详解_实例(自然场景文字定位) 下载本文

目录

第一章绪论.............................................................................................................................................1

1.1.研究背景和意义.........................................................................................................................11.2.自然场景文字定位技术研究现状.............................................................................................21.2.1.基于滑动窗口的定位技术.................................................................................................21.2.2.基于连通域的定位技术.....................................................................................................31.2.3.混合的定位技术.................................................................................................................31.3.自然场景文字定位的难点.........................................................................................................4

1.4.本文的主要工作.........................................................................................................................5

1.5.本文的组织结构.........................................................................................................................6

第二章深度学习技术简介.....................................................................................................................72.1.特性与发展历史.........................................................................................................................7

2.2.卷积神经网络.............................................................................................................................82.2.1.局部感受野.........................................................................................................................92.2.2.权值共享...........................................................................................................................102.2.3.子采样...............................................................................................................................11

2.3.卷积神经网络的结构...............................................................................................................122.3.1.卷积层...............................................................................................................................132.3.2.池化层...............................................................................................................................142.3.3.全连接层...........................................................................................................................15

2.4.卷积神经网络的训练...............................................................................................................162.4.1.梯度下降...........................................................................................................................172.4.2.反向传播...........................................................................................................................182.5.本章小结...................................................................................................................................20

第三章基于深度学习的自然场景文字定位方法的设计...................................................................203.1.自然场景文字定位方法的需求分析.......................................................................................213.1.1.功能性需求.......................................................................................................................213.1.2.非功能性需求...................................................................................................................213.1.3.接口需求...........................................................................................................................22

3.2.设计目标...................................................................................................................................22

3.3.设计思想与依据.......................................................................................................................233.3.1.MSER与深度特征...........................................................................................................233.3.2.连体字符处理...................................................................................................................233.3.3.多通道检测.......................................................................................................................24

3.4.自然场景文字定位方法的总体框架.......................................................................................243.5.本章小结...................................................................................................................................25

第四章基于深度学习的自然场景文字定位关键算法的实现...........................................................254.1.颜色空间变换...........................................................................................................................26

4.2.MSER算法定位.......................................................................................................................274.2.1.ER树构建.........................................................................................................................274.2.2.子路径分割和裁剪...........................................................................................................284.2.3.正则化...............................................................................................................................30

4.3.字符检测...................................................................................................................................314.3.1.数据准备...........................................................................................................................314.3.2.人工合成...........................................................................................................................334.3.3.模型架构...........................................................................................................................344.4.区域整合...................................................................................................................................354.4.1.组合方法...........................................................................................................................354.4.2.切分方法...........................................................................................................................364.5.文本检测...................................................................................................................................374.5.1.数据准备...........................................................................................................................384.5.2.检测过程...........................................................................................................................38

4.6.本章小结...................................................................................................................................38

第五章实验结果及讨论.......................................................................................................................38

5.1.实验数据...................................................................................................................................39

5.2.实验环境...................................................................................................................................41

5.3.实验结果与分析.......................................................................................................................415.3.1.ICDAR2015结果..............................................................................................................415.3.2.处理不好的情况...............................................................................................................465.4.实验代码...................................................................................................................................475.4.1.MSER算法.......................................................................................................................475.4.2.CNN识别.........................................................................................................................485.4.3.合并与分割.......................................................................................................................495.5.本章小结...................................................................................................................................51

第六章总结与展望...............................................................................................................................51

6.1.本文总结...................................................................................................................................52

6.2.下一步工作...............................................................................................................................52参考文献................................................................................................................................................54

第一章

1.1.研究背景和意义绪论

随着网络带宽与计算机性能的提升,图像越来越多地出现在各类应用中,如网络上流行的图片搜索和视频分享,移动终端的美白相机,交通行业的违章车辆抓拍,以及最近兴起的机器人行业中的智能视觉等。图像中包括各种不同类型的物体,如人、动物、建筑等。其中,文字作为自然场景图像中的一个重要兴趣点,往往蕴含着场景的关键潜在信息,可以进一步用于场景理解、商品推荐、自动导航与驾驶等。因此,对自然场景图像中的文字定位进行深入研究具有重要的理论意义和实用价值。

研究自然场景图像中的文字主要有以下作用。首先,文字作为人类创造的符号,往往包含丰富的抽象信息。相比自然场景中的其他内容,如物体或者人等信息,文字往往包含着一些关键的信息,例如交通指示牌中的位置,以及行驶的汽车的牌照等。这些信息,无法通过物体识别技术得出,只能通过提取文字分析。其次,文字相比其他信息,具有形状描述相对固定的特征。与一些具有复杂形状或者多种姿态的物体比较,文字往往具有近似的形态以及统一的模式(例如文字是以文字行的形式组织的)。

图像中的文字可以用作许多重要用途,包括:自然场景理解,例如通过场景中的文字对场景进行分析,获取场景的位置、方位、距离等信息,从而更好地为对场景中的物体进行预测建模;图像中的物体信息获取,例如可以对图像中物体的商标或者标签进行阅读,获取商品的相关信息,为用户进行相关商品的推荐,图像中的文字信息还可以用来做图像搜索与匹配;机器的自动驾驶与导航,自动驾驶汽车技术可以通过道路两侧的路牌文字获取方位来指引行驶,机器人则可以使用路标在复杂的街道或者是工厂车间中导航。

相比传统的扫描文档中的文字,自然场景下的文字具有以下特点:背景复杂,传统的文档文字往往具有统一的背景,并且有清晰的光照,因此较易进行定位。自然场景情况下,背景往往非常复杂,较难使用简单的技术将背景与文字进行分离,这方面的算法尚在研究当中;环境因素影响较大,自然场景下的文字所处的位置会有遮挡,模糊,逆光等周边环境的影响,给定位带来了困难;文字样式不一,自然场景下的文字往往具有不同的尺寸、颜色、字体,既有传统的印刷体,同时也有草书和艺术等特殊样式的文字,对定位技术的鲁棒性提出了一个挑战(见图1)。

1

图1不同形态的文字

自然场景图像中的文字具有许多潜在的重要作用,其检测、定位与识别等相关研究已成为目前学术界和工业界的热点。自然场景下的文字定位技术是实现机器视觉与智能中必要的一环,相关信息可以与自然语言理解等技术相结合,为机器智能等技术提供助益。

1.2.自然场景文字定位技术研究现状

自然场景文字定位技术主要包括三大类别,分别是:1、基于滑动窗口与机器学习的定位方法,其中常用的机器学习模型包括SVM,AdaBoost等;2、基于连通域的文字定位方法,这里面的代表主要有MSER、SWT等;3、以上两者的混合方法。下面分别说明这几类别。

1.2.1.基于滑动窗口的定位技术

基于滑动窗口的文字定法方法主要使用滑动窗口与低级特征结合,通过机器学习模型去识别可能是字符的区域,并建立一个文本置信图,其代表方法有Pan[1]和Jaderberg[2]。

其中,Pan[1]使用滑动窗口结合Waldboost和HOG特征去建立原始图像的文本置信图。文本置信图接着和一个多层感知机结合,去计算领域图的二值化权值。Pan[1]接着

2