社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

良心了!百度终于开源这款神器,GitHub分分钟Star 6k...

Python中文社区 • 4 年前 • 653 次点击  
一、导读

如果你是OCR方向的工程师,你一定需要知道这个OCR开源项目:PaddleOCR

先看下PaddleOCR自今年开源以来,短短几个月在GitHub上的表现:

  • 7月,8.6M超轻量模型发布,GitHub Trending 全球趋势榜日榜第一。
  • 8月,开源CVPR2020顶会SOTA算法,再上GitHub趋势榜单!
  • 9月,发布PP-OCR算法,开源3.5M超超轻量模型,再下Paperswithcode 趋势榜第一
  • 10月28日再登GitHub Trending日榜

有图有真相,这个含金量,广大的Github开发者们自然懂,目前,项目累计Star数量已超过6K,并且仍然持续增长,这样的成绩到底是如何做到的?让小编带你一探究竟。

我们先看repo里面的特性,确实是干货满满,直接看官方介绍:

数量上,这次PaddleOCR一口气发布了三个系列模型,满足移动端、服务器端各种场景需求。而且,多语言也妥妥安排上了,全部训练代码和模型毫无保留开源。其中3.5M超轻量文字识别模型,堪称目前业界开源的最轻量OCR模型了。

质量上,如此轻量的模型,效果有保障吗?不看广告,直接看疗效。

先看几个常见的通用场景识别效果:

火车票、表格、金属铭牌、翻转图片,外语都是妥妥的

3.5M的模型能达到这个识别精度,绝对是良心之作了!

传送门:

Github:https://github.com/PaddlePaddle/PaddleOCR

**论文下载链接:**https://arxiv.org/abs/2009.09941

二、快速体验PaddleOCR的3.5M超轻量OCR模型
  • PC端快速尝试:(打开网页,选一张图片,即可实时看到结果)

https://www.paddlepaddle.org.cn/hub/scene/ocr

  • 手机端App安装体验

PaddleOCR在百度大脑EasyEdge上开放了文字识别APP demo。

示例效果如下(可以在github首页找到下载二维码)

三、多个开源repo测试对比

简单对比一下目前主流OCR方向开源repo的核心能力:

从性能指标来看:

  • 针对OCR实际应用场景,包括合同,车牌,铭牌,火车票,化验单,表格,证书,街景文字,名片,数码显示屏等,收集的300张图像,每张图平均有17个文本框,PaddleOCR的F1-Score超过0.5,这个性能已经很不错了。

从功能完备来看:

  • 预训练模型大小:EasyOCR目前暂无超轻量模型,chineseocr_lite最新的模型是4.7M左右,而PaddleOCR提供的3.5M无疑是目前业界已知最轻量的
  • PIP安装:目前仅PaddleOCR和EasyOCR支持。
  • 自定义训练:实际业务场景中,预训练模型往往不能满足需求,对于自定义训练和模型Finetuning,chineseocr_lite和EasyOCR都是不支持的
  • 部署方面:EasyOCR模型较大不适合端侧部署,Chineseocr_lite和PaddleOCR都具备端侧部署能力。

开发者可以根据自己的实际需求,选择适合自己的开源方案。

对于PaddleOCR 3.5MB的超轻量模型,是如何做到的,repo中也给出了解释。

3.5M超轻量模型应用了一套超轻量OCR系统PP-OCR,主要由DB文本检测、检测框矫正和CRNN文本识别三部分组成。该系统从骨干网络选择和调整、预测头部的设计、数据增强、学习率变换策略、正则化参数选择、预训练模型使用以及模型自动裁剪量化8个方面,采用19个有效策略,对各个模块的模型进行效果调优和瘦身。其中,飞桨模型压缩库PaddleSlim为PaddleOCR超轻量化模型的实现提供了核心的技术支撑。从超轻量模型8.1M的压缩到3.5M,模型大小降低了56.79%,其中检测模型速度提升21%,而且整体模型精度还有提升。

除了3.5M超轻量OCR模型,PaddleOCR提供了多语言预训练模型(英、德、法、韩、日),支持自定义训练和丰富的部署方式。

如果觉得这个项目还不错,支持开源工作,也希望您可以star关注哦

想了解更多,欢迎加入PaddleOCR技术交流群,第一时间获得技术支持。

注:小编发现现在已经加到6群了,开发者朋友赶紧上车啊。

扫码添加Paddle小姐姐,通过验证后回复【OCR】即可获得进群邀请!

招募活动预告

11月7日,百度AI快车道将走进成都,届时将有PaddleOCR研发团队空降成都,欢迎OCR方向成都的开发者们报名【开源框架高阶营】,我们相聚成都金开国际公寓-致诚厅。后续的每一周我们还将走进西安(11月14日)、武汉、厦门、北京等城市。

另外,对NLP常见任务、文心(ERNIE)语义理解技术与平台介绍,及优化技巧、数据不均衡、无监督数据利用、文本编码欢迎参与EasyDL零门槛模型训练营,文心(ERNIE)的讲师团队将在致和厅等你!

更多飞桨的相关内容,请参阅以下内容。

官网地址:https://www.paddlepaddle.org.cn

飞桨PaddleOCR项目地址:

GitHub: https://github.com/PaddlePaddle/PaddleOCR

Gitee: https://gitee.com/paddlepaddle/PaddleOCR

飞桨PaddleSlim项目地址:

GitHub: https://github.com/PaddlePaddle/PaddleSlim

Gitee: https://gitee.com/paddlepaddle/PaddleSlim

PP-OCR技术文章:

论文下载链接:https://arxiv.org/abs/2009.09941

点击阅读原文报名,快到成都金开国际公寓参与【开源框架高阶营】活动

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/74893
 
653 次点击