Mask-TextSpotter论文笔记

Mask-TextSpotter论文笔记

从这往篇Paper开始准备学习一下OCR相关的内容,感觉这是检测任务中很重要的一块儿,比如一些产品上面的字符,如下图

avator

这方面肯定有许多的应用,比如可以用这个造个扫码的东西,用于工业产品生产完了之后扫一下就可以知道上面打的“钢印”或者log什么的。

Abstract

这个papter里面研究了一种算法用于同时处理自然场景下一张图片中的text的detection和text的recognition,感觉这个思想就像mtcnn一样,mtcnn是将人脸的检测和识别放在一块儿而不是分开地执行,而这里是将文本的检测和识别一块儿执行,进行end-to-end的训练,这个paper受启发于maskrcnn,将分割的信息也加进去进行精确的检测和识别,而且由于mask的使用,使得这个算法还可以处理一些不是太规则的文本,比如curved text,而且这个算法是目前最好的(论文发的时候2018-8-1)。

introduction

Introduection主要讲述了之前别人做了什么,以及是如何做的,具体大致分为两块,即第一块是采用先检测字符,再对字符做识别,所谓识别其实就是一个(26个字母+10个数字)的分类,显然这里面是有个难的地方,是如何区分0和O。这种two-stage的或者叫bottom-up的办法基本上都有一个明显的缺点,即第一步要做得非常的好,比如在人脸任务中,如果人脸检测不出来,那对其识别就无从谈起,姿态识别也是,如果人的位置找不到,或者做的不准,就无法在人的这个地方去进行第二步的keypoints检测,在这里也是同样的挑战,即第一步的字符如果检测不出来,就无法谈对其识别。另外一个缺点是无法进行一些feature的share,可能在速度上会导致有些慢。第二块就是检测识别一起做,像人脸里面的mtcnn,目标检测里面的ssd等。这个paper 里面提出的算法,可以对自然图片中的任意shape的text进行检测,这里的任意指的是不同形式的文本。

这个还没有读,后面准备顺藤摸瓜把涉及到的也读一下。

自己的一些理解

在没有看paper 之前曾经思考过这一类的任务该怎么做,当时觉得应该是像faster-rcnn一样,把字符当成一个目标用bbox检测出来,然后再做一个分类,但是感觉这个任务还要更难一些,因为字符检测出来之后还要组合成word或者句子才算是最终完成任务。

Frame-work

基本的frame是和maskrcnn差不多的,只是在mask这个分支上稍微有些不同,这里的mask的分支做了两个任务,不仅要做分割还要做分类,即最终mask-branch会predict出38个maps, 其中包括一个global的text instance map, 36个字符的maps,和一个背景map, 其中text map能够对text的region进行一个精确的定位,不管text是什么形状的。

打赏,谢谢~~

取消

感谢您的支持,我会继续努力的!

扫码支持
扫码打赏,多谢支持~

打开微信扫一扫,即可进行扫码打赏哦