社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

CCAI 2019 | 白翔:经典算法与深度学习相结合,解决不规则文字处理问题

中国人工智能学会 • 5 年前 • 585 次点击  

CCAI 2019

2019年中国人工智能大会(Chinese Congress on Artificial Intelligence 2019,简称“CCAI 2019”)将于在9月21日-22日在青岛胶州召开。白翔教授将出席大会并担任人工智能青年论坛共同主席。

白翔,华中科技大学电子信息与通信学院教授,博士生导师,国家防伪工程中心副主任。担任中国计算机学会计算机视觉专委会(CCF-CV)常务委员,中国图像图形学学会理事,同时担任国际期刊编委或客座编辑。主要从事计算机视觉与模式识别,具体包括目标识别、形状分析、自然场景文字识别及智能交通系统等领域的研究。不规则文字检测和识别一直是文字识别方向研究的难点,它在自然场景图像中的文字识别具有重要的应用。白翔教授在不规则文字的识别、定位和检测三个研究方向上有着丰富经验,他将经典算法与深度学习相结合,获得了惊人的效果。


 

不规则文字识别

工业界中常用的序列识别模型SRN(Sequence Recognition Network)是不能处理文字发生形变或者弯曲的情况,会导致各类识别错误。针对不规则文字识别问题,白翔教授团队提出了ASTER模型,解决的了对于场景里有形变或方向变化的文字识别问题。ASTER是一个简单且实用的方法,就是先将有形变的文字矫正成规则的文字,再使用SRN进行识别。可以认为ASTER的网络由两部分组成,前面部分是空间变换网络STN (Spatial Transform Network)做矫正,后面是SRN网络做识别,形成任务共享。在加入了STN以后,识别器的性能十分有竞争力,在不规则文字测试集上有很大提升。
白翔教授将ASTER算法进行的应用测试,发现该算法对文字定位十分准确,尤其在英文的识别上十分稳定。


 

不规则文字定位

对于不规则文字定位问题,白翔教授团队设计了一个网络,能完全端到端识别,又同时能检测曲形、直线或者斜角的文字。但检测任务是在图像水平上做处理,识别任务是在文本区域水平做处理,两个任务之间是有一定冲突的,导致在设计网络做这两个任务的时候非常困难,需要很好的预训练能力,预训练后的参数调节也十分困难,网络适用性不好。为了有效的将检测和识别做到特征共享,白翔提出了一个巧妙的方法:用空间换取时间,用字符级别的标注,换取训练上的方便。要获得每一个字符的中心位置,把它也作为一个分割问题去考虑,并在分割的同时得到字符的类别,这个分割问题也变成多分类问题。在英文识别时有阿拉伯数字0-9和字母A-Z共36种不同的类别。每一类都产生相应的字符对应位置,外加一个整体,这样形成一个多任务,可以完全得到特征上的共享。
本算法能把弯曲的文字甚至是其中包含的水平文字,同时得到其位置和包围盒。还有一个有意思的现象是,当把识别的模块删除后可以发现检测的准确率会降低,说明识别模块对检测是有帮助的。

 

不规则文字检测

针对不规则文字检测问题,白翔教授提出了TextField识别方法,获得了极好的效果。在这个方法中,白翔使用了他在解决骨架检测(Skeleton Detection)问题时提出的DeepFlux算法,用骨架来标定文字的位置。算法对包含文字的图片构建了一个有指向文字内部,也有指向文字外部的“场”,并进行训练。它的好处是可以通过方向性区分相近的文字,并且能更有力地描述文字之间、局部之间的连接关系和局部的对称性关系。如果用FCN解决这个问题,得到的文字连通性较差,有很强的抖动,平滑性差,甚至有些区域是错误的。但是使用的DeepFlux方法,精度和平滑度都非常好,而且可以更好地去描述物体的上下文,时间复杂度也不错。通过这个例子可以看出,将传统的算法与现有的深度学习相结合,可以焕发奇光异彩。

大 会 相 关

欲了解更多信息,可通过如下方式联系我们:

商务合作

于老师

微信:138-1148-4695


票务咨询

刘老师

微信:189-1006-4547


大会信息咨询

平平

手机:185-0057-0473

微信:185-1086-6934


企业服务专员

王老师

手机:170-9008-6234

微信:dalonsmary1010


点击“阅读原文”购票参会!
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/38592
 
585 次点击