利用OCR解决增值税发票内容文本识别

最新推荐文章于 2024-07-26 16:45:27 发布

WyattY

最新推荐文章于 2024-07-26 16:45:27 发布

阅读量1.2w

收藏 132

点赞数 35

文章标签：人工智能深度学习机器学习 python ocr

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接： https://blog.csdn.net/weixin_45284801/article/details/117160202

版权

本文介绍了如何利用OCR技术解决增值税发票的文本识别问题，从最初的CTPN+CRNN模型到采用百度的OCR 2.0系列模型DB+CRNN，再到通过图像预处理和透视变换改进识别效果，最终使用PaddleOCR实现高精度识别。

摘要由CSDN通过智能技术生成

增值税发票文本识别

对于增值税发票文本识别这个问题，许多大公司都有现成的API可以调用，比如百度、京东等等。

但是我们并不知道里面的方法，况且调用是要Money的，那么怎么实现一个属于自己的模型呢？
如果你想知道的话
我现在就带你研究!

解决方案1.0

起初刚接触这个问题时想法很简单，这不就是一个OCR问题嘛，直接找个现成的OCR模型，input一张发票不就OK了？说干就干！

模型是当初学pytorch时用的CTPN+CRNN，这也是比较经典的方法。

介是个嘛？从图中可以看到效果并不是很理想，有的字没识别出来，而且识别出来的字也有错误…原因可能是数据集的问题，数据太少了，且字符不全，比如RMB符号￥就识别不出来，数据里可能压根就没有这个符号…

那么我们再换一个模型试一试，百度的OCR做的挺好的，在它的Github上可以发现最近出了OCR 2.0系列模型，且最小的模型就9.4M，它采用的方法是DB+CRNN，这里就不过多赘述了。Clone后在本地运行一下，结果如图所示。

咦，还不错！比自己的模型好多了，不愧是百度。但是现在还有一些问题：
1、模型把图中大部分字都识别出来了，然而里面有很多是我们不要的。
2、模型识别出来的字段是无序的，且存在不连续的情况，筛选出所需的信息比较困难。比如‘名称’这两个字被分为了‘名’和‘称’两个单独的字。
3、上述尝试识别的是很工整的电子票据，那么手机拍的有歪曲的发票该怎么识别呢？比如下图。

解决方案2.0

图像预处理

最低0.47元/天解锁文章

35
点赞
踩
132

收藏

觉得还不错? 一键收藏
16
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

WyattY CSDN认证博客专家 CSDN认证企业博客

12: 原创

18万+: 周排名

113万+: 总排名

8万+: 访问

: 等级

582: 积分

25: 粉丝

130: 获赞

44: 评论

279: 收藏

写文章

热门文章

matplotlib折线图上的点画成空心圆 25311
cuda、显卡版本和tensorflow-gpu对应关系 15378
利用OCR解决增值税发票内容文本识别 12199
pycharm更换terminal路径 11350
tensorflow报错 Could not find ‘cusolver64_10.dll‘ 4969

最新评论

matplotlib折线图上的点画成空心圆
BOXonline1396529: 这文章怎么收费了
matplotlib折线图上的点画成空心圆
最爱吃兽肉: 老公真棒
PYQT5的多行文本框（QTextEdit）插入内容，不改变原本的内容。
TanixLu: 是的，很烦。。。
利用OCR解决增值税发票内容文本识别
yesterday_day: 打印错位的话，就会随着图片切割直接缺少内容吧
利用OCR解决增值税发票内容文本识别
葵.527: 求一下源码可以吗博主？

最新文章

Tensorflow——使用GoogleNet训练Fashion_mnist
matplotlib折线图上的点画成空心圆
神舟笔记本键盘键位互换

目录

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

成就一亿技术人!

发出的红包

使用余额支付

点击重新获取

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

深圳SEO优化公司蓬莱网站自然优化妇幼医院网站优化怎么做网站优化就有的云速捷卓著服务好的网站优化与推广联系热线做推广优化的网站有哪些内容郴州优化网站排名唐山利于优化的网站黄浦区提供网站服务优化价格上排名seo推广教程网站优化网站优化雅虎军规网站存在什么问题时需要优化网站TDK的优化方法私营医院网站优化服务商佛山网站优化永网网站设计URL优化武汉专业网站优化推广北海网站优化福建省网站优化一般需要多少钱小说网站要不要优化网站优化核心丰都seo网站优化价格咨询师用网站如何优化南京seo网站优化公司旅游网站优化设计方案韶关专业网站优化咨询客服网站优化技巧介绍桂阳seo网站优化济宁专业网站优化服务网站内容优化策略重点有哪些内乡县网站seo优化排名歼20紧急升空逼退外机英媒称团队夜以继日筹划王妃复出草木蔓发春山在望成都发生巨响当地回应 60岁老人炒菠菜未焯水致肾病恶化男子涉嫌走私被判11年却一天牢没坐劳斯莱斯右转逼停直行车网传落水者说“没让你救”系谣言广东通报13岁男孩性侵女童不予立案贵州小伙回应在美国卖三蹦子火了淀粉肠小王子日销售额涨超10倍有个姐真把千机伞做出来了近3万元金手镯仅含足金十克呼北高速交通事故已致14人死亡杨洋拄拐现身医院国产伟哥去年销售近13亿男子给前妻转账现任妻子起诉要回新基金只募集到26元还是员工自购男孩疑遭霸凌家长讨说法被踢出群充个话费竟沦为间接洗钱工具新的一天从800个哈欠开始单亲妈妈陷入热恋 14岁儿子报警 #春分立蛋大挑战#中国投资客涌入日本东京买房两大学生合买彩票中奖一人不认账新加坡主帅：唯一目标击败中国队月嫂回应掌掴婴儿是在赶虫子 19岁小伙救下5人后溺亡多方发声清明节放假3天调休1天张家界的山上“长”满了韩国人？开封王婆为何火了主播靠辱骂母亲走红被批捕封号代拍被何赛飞拿着魔杖追着打阿根廷将发行1万与2万面值的纸币库克现身上海为江西彩礼“减负”的“试婚人”因自嘲式简历走红的教授更新简介殡仪馆花卉高于市场价3倍还重复用网友称在豆瓣酱里吃出老鼠头 315晚会后胖东来又人满为患了网友建议重庆地铁不准乘客携带菜筐特朗普谈“凯特王妃P图照”罗斯否认插足凯特王妃婚姻青海通报栏杆断裂小学生跌落住进ICU 恒大被罚41.75亿到底怎么缴湖南一县政协主席疑涉刑案被控制茶百道就改标签日期致歉王树国3次鞠躬告别西交大师生张立群任西安交通大学校长杨倩无缘巴黎奥运

深圳SEO优化公司 XML地图 TXT地图虚拟主机 SEO 网站制作网站优化