深度学习算法_详解_实例(自然场景文字定位)_图文 下载本文

与CNN结合的方法,首先用MSER提取初步区域,然后对初步区域使用滑动窗口和CNN检测来建立图像中的文本置信图,最后使用NMS(非极大值抑制)与threshold方法来获取文本区域。

本文中的方法与[26]中的方法类似,都是使用MSER与CNN结合的方法来进行定位。所不同的是本文使用了一个启发式的方法去区分字符和文本,然后对这两类目标使用了不同的CNN模型,从而提高了对部分难解决的文字式样的检测率。

1.3.自然场景文字定位的难点

生活领域中的大部分图像都是在自然场景下获取的。原先的文档OCR系统虽然拥有较高的定位率[27],但是对于使用条件做了严格的限制。因此,研究自然场景下的文字定位有其重要的现实意义。

自然场景中的文字图像可以是在任何环境下拍摄的,大部分图像不会引入先验知识。一张图片中,文字出现的位置可以是任意的。同时,一张图片中也可以包含若干行文字。每行文字的个数也是任意的,既有十多个字符组成的单词,也有一个字符的,例如停车指示牌中的”P”等。除此之外,自然场景中的文字定位还有如下的困难:

1、背景复杂。自然场景下的文字通常是在街道拍摄的,因此背景中往往具有人群,建筑,植被,护栏,装饰等富含边缘特征的物体。建筑物中的墙壁,往往具有重复出现的图案,例如红砖的形状与方形的字符相似,重复出现后较易被识别为文字行。植被中的草丛,容易与文字中的草书混淆。这两类物体,在图像中大幅出现的话,容易产生较多的误检数目。

图2是两幅自然场景下的图。其中图2(a)的背景是大量的植被,图2(b)中的背景则

是红砖墙壁。

图2复杂背景下的文字

4

2、环境因素影响大。自然场景下的文字可以在任何条件下拍摄,因此易于引入各种容易产生干扰的信息。例如不均匀的光照、模糊以及半透明等效果。光照的不均匀使得文字行中有些部分太亮或者太暗,造成定位的失败。模糊效果使得连通域的算法很难将文字从单词中抠出来。半透明效果会产生较多的漏检。

3、形态不一的字体。除了复杂的背景,环境因素的影响以外,自然场景下的文字还具有形态不一的特征。具体表现为不一样的大小,尺寸,颜色,字体,样式等等。一张图片中既可能有占据全图的大字符,也可能有在一行角落的小文字。文字的样式也不同,既有传统的印刷体,也有手写体,以及艺术体等,这些都给定位带来了困难。

图3是两幅特殊形态字的图。其中图3(a)中的文字是艺术字体,图3(b)中的文字则

是手写体。

图3特殊形态的字体

由于自然场景下的文字定位具有以上所说的困难,因此对于算法的鲁棒性就有了较高的要求。

1.4.本文的主要工作

本文主要针对自然图像下的文字定位进行研究,根据传统的文字定位技术进行改进与补充,并结合近年来的深度学习技术,提出一个改进后的自然场景图像中的文字定位方法,即改进的MSER算法去提取字符疑似区域,然后使用卷积神经网络去进行识别。本文的方法主要包含五个部分,分别是图像预处理、MSER提取、文字检测、区域整合,以及文本检测等。本文的方法在标准测试集上进行了测试,结果表明本文方法对部分图片有较好的定位效果。

本文的具体工作包括:

1、对深度学习以及卷积神经网络研究的进展,给出一个较为完整的综述。

5

2、针对自然场景下的文字定位问题,提出了一个结合MSER提取与CNN检测的综合方法。

3、给出了CNN模型的网络架构,训练方法,以及进行自然场景下的文字检测过程。

4、针对ICDAR2015中自然场景文字定位竞赛中的测试集图片进行了测试,验证了方法的可行性与有效性,并讨论了方法的不足。

本文的主要贡献与创新点是:

1、提出了一种新的结合改进MSER算法与深度学习技术的自然场景文字定位方法;

2、针对连体字符,模糊字符等传统MSER不好提取的区域,提出了启发式的规则去处理;

3、通过在多通道的图像空间上进行MSER的提取来增强方法的鲁棒性。

1.5.本文的组织结构

本章对本文的研究目的和背景进行了介绍,说明了当前文字定位研究的现状,以及自然场景下文字定位的困难。本文的章节结构安排如下:

第二章介绍深度学习的产生和发展过程,重点对深度学习中的卷积神经网络进行介绍,包括设计思想、网络结构和训练方法等。

第三章对本文的方法的总体设计进行介绍,包括需求分析、设计目标和设计依据等,最后给出本方法的整体框架。

第四章对本文的主要算法实现进行说明,包括MSER提取、文字检测、合并和文本检测等几个过程。

第五章针对ICDAR2015中自然场景文字定位竞赛中的测试集图片,进行方法的有效性测试,计算了方法的回归率与准确率两个指标,并与竞赛中的基准方法进行了对比。

第六章总结本方法中存在的问题,并提出下一步的研究计划。

6

第二章深度学习技术简介

深度学习(DeepLearning)技术是最新兴起的机器学习技术之一[7]。自2012年以来,深度学习的研究与实践呈现出一种火爆现象。这种现象的产生原因跟深度学习相比传统方法的优势离不开关系。

深度学习相对于传统的机器学习方法有两大主要优势:

1.效果优越。经过深度学习训练的模型在各类人工智能领域(计算机视觉,语音识别,自然语言处理等)的效果比原先的机器学习方法提升明显。典型例子就是

ImageNet[31]2012年的竞赛,基于深度学习的方法不仅获得了第一名的成绩,更是将错误率下降了接近一半[8];

2.使用方便。传统的机器学习方法对模型的特征依赖较大,而这些特征往往需要由专业的人员不断的调试才能获得较好的结果。深度学习是一种特征学习方法,不需要人工编写特征,它可以自动的从原始数据(图像,音频,文本)中学习特征,而这些特征接下来又可以输入分类器中去进行预测。因此,使用深度学习方法,可以明显的降低机器学习在这些领域中应用的门槛[7]。

深度学习的劣势是训练量大,往往需要比传统方法多得多训练时间。但这个问题随着并行化算法的优化和图形加速卡(GPU)的普及而得以解决,训练时间不再是制约使用的瓶颈,因此更进一步地提升了深度学习使用的普适性。

由于深度学习相比传统机器学习的这些显著不同,因此也把传统的机器学习方法称为“浅层学习”(ShallowLearning),这其中包括SVM、boosting、KNN等。

2.1.特性与发展历史

深度学习一个较大的优势就是非监督的特征学习(unsupervisedfeaturelearning)。传统的机器学习方法大部分都是监督学习,这需要大量的带标签的数据去进行训练才能获得较好的效果,而一般最为稀少的数据就是标签数据。深度学习可以通过非监督的方法从数据中学习到特征,并且可以在标签数据稀少的情况下也能取得不错的预测效果

[9]。

深度学习的主要特色是逐层特征学习。通过多层的神经网络,深度学习不断从前一层的表征中抽取到更进一步的特征,从而降低了数据的维度,更易于发现本质特征。以一个四层隐藏层的深度神经网络为例,第一层从原始图像中学习到边缘(edge)的特征,第二层在第一层的边缘之上,学习到图案(motifs)的特征,第三层在图案的基础上,学习到组成(part)的特征,第四层在第三层的组成之上,学习到目标(object)的特征,最后目标的特征输入分类器,去完成识别或检测任务。在整个网络的架构中,后面的每

7