云从科技OCR新突破:端到端的深度学习文本检测框架Pixel

OCR技术有着悠久的发展历史,从上世纪60年代第一个识别英文字母的OCR产品面世以来,OCR的识别领域逐步扩展到数字、符号,进而其他语言,譬如拉丁语系中的法文、德文、意大利文等,东亚语系中的中文、日文、韩文等。OCR一般包含两个基本模块,文本检测和文本识别。在深度学习技术发展之前,传统OCR的文本检测依赖于一些浅层次的图像处理方法或者图像分割方法以及一些复杂繁琐的后处理技术进行文字定位,譬如早期基于二值化的连通域提取,或者后期基于极大稳定区域的字符区域提取,之后再配合这些被提取区域进行一系列的连接操作来完成最终的文本定位。因为这些技术的使用,传统OCR所处理的对象往往局限于成像清晰,背景干净,字体简单而同时又排列规整的文档图像。

基于像素分割的文本检测框架首先通过图像语义分割获得可能的文本像素,之后通过像素点直接回归或者对文本像素的聚合得到最终的文本定位;而基于锚检测回归的文本检测框架是在通用物体检测的基础之上,通过设置更多不同长宽比的锚来适应文本变长的特性,以达到文本定位的效果。

基于像素分割的文本检测往往具有更好的精确度,但是对于小尺度的文本,因为适用的文本像素过于稀疏,检出率通常不高,除非以牺牲检测效率为代价对输入图像进行大尺度的放大;基于锚检测回归的文本检测对文本尺度本身不敏感,对小文本的检出率高,但是对于大角度的密集文本块,锚匹配的方式会不可避免的陷入无法适从的矛盾之中,此外,由于这种方法是基于文本整体的粗粒度特征,而并不是基于像素级别的精细特征,它的检测精度往往不如基于像素分割的文本检测。对于中文这样文本长度跨度很大的语言,目前的这两种方法在长文本上的效果都不尽人意。

针对这些问题,云从科技提出了一种端到端的深度学习文本检测框架Pixel-Anchor,通过特征共享的方式高效的把像素级别的图像语义分割和锚检测回归放入一个网络之中,把像素分割结果转换为锚检测回归过程中的一种注意力机制,使得锚检测回归的方法在获得高检出率的同时,也获得高精确度。

Pixel-Anchor这套文本检测框架,和目前主流的文本检测框架相比,提出了两个大的改进点:

第一点是提出了把像素级别的图像语义分割以及基于锚的检测回归方法高效融合在一起,可端到端训练的检测网络。在该网络中,像素级别的图像语义分割以及基于锚的检测回归方法共享基础特征,而像素级别的图像语义分割结果作为一种注意力机制,用以监督锚检测回归的执行过程,在有效保证文本检出率的同时,提升了文本检测的精度。

总体框架见上图,Pixel-Anchor采用学术界通用的ResNet-50作为特征提取主干网络,提取出1/4,1/8,1/16的特征图作为像素级别语义分割模块(Figure5)以及锚检测回归模块(Figure6)的基础特征,同时语义分割模块的输出结果以热力图的形式注入到锚检测回归模块中。整个网络简单轻巧,可通过ADAM优化方法进行端到端的训练。

第二点是在锚检测回归这个模块中引入了自适应预测层「AdaptivePredictorLayer」,该预测层连接在不同层级的特征图之后,根据各特征图感受野的不同,调整锚的长宽比,卷积核的形状以及锚的空间密度(anchordensity,见Figure7),用以高效的获得各特征图上的文本检测结果,进而对文本长度的变化获得更好的适应性。自适应预测层在检测水平长文本上的性能非常出色,和经典的CTPN方法相比,这一方法不需要复杂的后处理,更鲁棒的同时效率更高。

THE END
1.深国图取得一种基于云计算和边缘计算的语音识别系统设备及介质专...金融界 2024 年 11 月 13 日消息,国家知识产权局信息显示,深圳市深国图信息技术有限公司取得一项名为“一种基于云计算和边缘计算的语音识别系统、设备及介质”的专利,授权公告号 CN 113380253 B,申请日期为 2021 年 6 月。 本文源自:金融界 作者:情报员...https://www.163.com/dy/article/JGSJVFQV0519QIKK.html
2.什么是ocr识别云商店"什么是ocr识别"的相关产品有哪些?价格是多少?云市场小编为您整理了"什么是ocr识别" 相关商品,包含商品介绍、价格、服务商等信息。如有问题,您可通过拨打950808或在云商店官网提交工单联系我们,希望以下"什么是ocr识别" 商品能为您提供有效的解决方案https://marketplace.huaweicloud.com/series/1de7755447074ece81ab3abb17ea3aa2-1-S
3.文字图片OCR识别软件北京译图智讯专注于OCR识别技术,提供文字提取、图片识别等服务,主要产品有包括:ocr发票识别软件,增值税发票识别,银行流水识别,银行卡卡号识别,营业执照识别,身份证识别等.http://www.etoplive.com/
4.OCR文字识别图片提取文字合合信息,提供OCR文字识别、证件识别、银行卡识别、票据识别、表格识别、文档识别等海量识别模块,支持sdk,公有云,私有化部署等自由部署方式,满足场景需求https://b.intsig.com/ocr
1....并部署到华为昇腾NPU的详细步骤npu910bppocrPaddleOCR是飞桨推出的一套丰富的OCR工具库开源项目,支持文字检测、文字方向检测、多语种文本识别、手写体文本识别等多种OCR相关前沿算法,并提供了丰富的轻量级预训练模型和模型优化技术,可以快速部署和使用OCR功能。 https://github.com/PaddlePaddle/PaddleOCR https://blog.csdn.net/qq_54958500/article/details/143500816
2.欧美最顶尖的5家云厂商,都在押注什么?澎湃号·湃客澎湃新闻在2025财年第一财季,微软提交了一份精彩的成绩单。其中,包括Azure公共云、Windows服务器、语音识别软件Nuance和GitHub的智能云业务部门三季度营收240.92亿美元,同比增长20%,展示了微软在云计算领域的卓越实力,成为驱动微软增长的主要引擎。 Azure之所以能够迅速成长,除了依靠强大的技术支持外,还得益于公司长期以来业务布局...https://www.thepaper.cn/newsDetail_forward_29311900
3.云迁移离线采集工具采集工具文档中心云资源离线调研工具供客户采集源端平台的资源使用,目前支持对阿里云、华为云和 AWS 国际站的源端资源扫描。 如果云资源地域在境外,将扫描工具下载到境外节点进行扫描,可以减少因为网络问题造成的云厂商 API 调用失败。 准备工作 扫描工具工作需要指定云资源所在的云厂商名称, 资源所在地域 Region 和访问云资源的密钥对(...https://cloud.tencent.com/document/product/659/112539
4.公有云OCR识别服务平台公有云OCR识别服务平台 云平台OCR证件识别介绍: 文通翔云OCR云证件识别服务平台是OCR识别技术与互联网技术、云计算技术相结合的在线OCR识别服务产品,致力于成为移动互联时代OCR识别云服务的专业提供商。 基于松耦合、高复用性、易于维护的原则,我们建设了翔云OCR云识别服务平台,以统一的网络访问接口方式,对外部应用系统提...https://www.eolink.com/news/post/41190.html
5.云脉ocr云识别软件介绍来了!OCR的应用嘲有哪些?这时候就不得不借助OCR文字识别工具拉。不过如果内容不是纯中文内容的话,普通OCR文字识别是搞不定的,推荐使用【超级公式】的PDF公式识别功能; 云脉ocr云识别软件在进行ocr识别的时候具有非常大的优势,大家有兴趣可以对这款软件进行全方位的了解,上述的文字希望对大家了解云脉ocr云识别软件有所帮助。https://www.foxitsoftware.cn/scanner/jiaocheng/553.html
6.私有云ocr识别技术方案私有云ocr识别技术方案 简述:随着互联网的快速发展,人工智能发展也来越快,OCR识别就是识别图片上的文字,纸质文档识别等等,被广泛应用到技术领域,OCR的功能有很多,比如,发票识别,身份证识别,户口本识别等等,我们提供api接口,离线SDK,私有化部署,等整体解决方案。百度OCR的功能和优势 1.高精度识别:实现99%以上的高...https://www.tuidc.com/helpinfo/39620.html
7.具有OCR和AI的AzureAI视觉MicrosoftAzure阅读面部识别透明度说明 有关Azure AI 视觉的常见问题解答 全部展开|全部折叠 哪些地方提供 Azure AI 视觉? 什么是适用于 Azure AI 视觉的 SLA? 你们是存储我的图像或视频,还是将其用于产品改进? 空间分析是否会检测人脸和人的身份? Azure AI 视觉如何分析物理空间中的人? https://azure.microsoft.com/zh-cn/services/cognitive-services/face/
8.百度智能云文字识别OCR文字识别软件免费在线试用怎么样提供稳定易用的在线API、离线SDK、软件部署包多种服务形式,最高可享每天50000次免费调用,依托百度优秀的深度学习算法和海量优质数据,并针对特殊情况进行专项优化,关键字段识别准确率高达99%。 · 远程身份认证 结合OCR和人脸识别技术,实现对用户身份证件信息的自动识别和录入,同时通过人脸核身解决方案进行人脸识别和活体检...https://www.36dianping.com/space/4470401030