CTPN模型讲解
文字识别也是图像领域一个常见问题。然而,对于自然场景图像,首先要定位图像中的文字位置,然后才能进行识别。 所以一般来说,从自然场景图片中进行文字识别,需要包括2个步骤: 文字检测:解决的问题是哪里有文字,文字的范围有多少 文字识别:对定位好的文字区域进行识别,主要解决的问题是每个文字是什么,将图像中的文字区域进转化为字符信息。 1、CTPN原理——文字检测 1.1简介 CTPN是在ECCV 2016提出的一种文字检测算法。CTPN结合CNN与LSTM深度网络,能有效的检测出复杂场景的横向分布的文字,效果如下图,是目前比较好的文字检测算法。 CTPN算法的提出,出于以下几点: (1)假设文本是水平的; (2)文本可以看做由每一个“字母”组成的。这里的字母可以认为是小片段。之所以有这样的想法,是因为基于通用目标检测的算法难以适应文字检测的场景,如上图中的文字,长度方面变化幅度很大。因此作者将文本在水平方向解耦,分成每一个小片,然后将文本行的检测转化为小片的检测,最后利用规则将属于同一水平行的小片组合成文本行。化繁为简。 1.2CTPN模型创新点 CTPN的创新点主要由以下三点: ...
如何在Hexo中用Gulp脚本进行静态资源渲染压缩和解决MathJax数学公式重复问题
Gulp脚本 如何下载、配置,这里我给出一个我跟着来的教程Hexo使用Gulp压缩静态资源,2操作是必须的,3操作我使用了,4-5我并没有参考 这里着重说明一下,关于脚本执行顺序,以及精简代码 脚本执行顺序 // 执行顺序: 清除public目录 -> 产生原始博客内容 -> 执行压缩混淆 -> 部署到服务器gulp.task( "default", gulp.series( "clean", "generate", "compressHtml", "compressCss", "compressJs", gulp.parallel("deploy") )); 先是clean,清除已经创建的public文件夹 之后是生成页面 接下来分别是压缩HTML文件、CSS文件、JS文件 最后是将本地部署到GitHubPage仓库当中去 精简 ...
Markdown高阶语法手册
1. 标签分类 在编辑区任意行的列首位置输入以下代码给文稿标签: 标签: 数学 英语 Markdown 或者 Tags: 数学 英语 Markdown 2. 删除线 使用 ~~ 表示删除线。 这是一段错误的文本。 3. 注脚 使用 [^keyword] 表示注脚。 这是一个注脚1的样例。 这是第二个注脚2的样例。 4. LaTeX 公式 行内公式: 质能守恒方程可以用一个很简洁的方程式 E=mc2E=mc^2E=mc2 来表达。 整行公式: ∑i=1nai=0\sum_{i=1}^n a_i=0 i=1∑nai=0 f(x1,xx,…,xn)=x12+x22+⋯+xn2f(x_1,x_x,\ldots,x_n) = x_1^2 + x_2^2 + \cdots + x_n^2 f(x1,xx,…,xn)=x12+x22+⋯+xn2 ∑k=0j−1γ^kjzk\sum^{j-1}_{k=0}{\widehat{\gamma}_{kj} z_k} k=0∑j−1γkjzk 访问 MathJax 参考更多使用方法。 5. 加强的代码块 支持四十一种编程语言的语法 ...
Markdown简明语法手册
1. 斜体和粗体 使用 * 和 ** 表示斜体和粗体。 示例: 这是 斜体,这是 粗体。 2. 分级标题 使用 === 表示一级标题,使用 — 表示二级标题。 示例: 这是一个一级标题============================这是一个二级标题--------------------------------------------------### 这是一个三级标题 你也可以选择在行首加井号表示不同级别的标题 (H1-H6),例如:# H1, ## H2, ### H3,#### H4。 3. 外链接 使用 [描述](链接地址) 为文字增加外链接。 示例: 这是去往 YuZhangWang的领域 的链接。 4. 无序列表 使用 * ,+ ,- 表示无序列表。 示例: 无序列表项 一 无序列表项 二 无序列表项 三 5. 有序列表 使用数字和点表示有序列表。 示例: 有序列表项 一 有序列表项 二 有序列表项 三 6. 文字引用 使用 > 表示文字引用。 示例: 野火烧不尽,春风吹又生。 7. 行内代码块 使用 `代码` 表示行内代码块。 示例: 让我们聊聊 ...
外文翻译
文本检测的字符区域感知 摘要 最近出现了基于神经网络的场景文本检测方法,并显示出令人鼓舞的结果。经过严格的单词级边界框训练的先前方法在以任意形状表示文本区域方面显示出局限性。在本文中,我们提出了一种新的场景文本检测方法,通过探索每个字符和字符之间的亲和力来有效地检测文本区域。为了克服单个字符级注释的不足,我们提出的框架利用了合成图像的给定字符级注释和通过学习的临时模型获取的真实图像的估计字符级基础。为了估计字符之间的亲和力,使用新提出的亲和力表示来训练网络。在六个基准测试上进行了广泛的实验,包括TotalText和CTW-1500数据集,这些数据集在自然图像中包含高度弯曲的文本,这表明我们的字符级文本检测明显优于最新的检测器。根据结果,我们提出的方法保证了检测复杂场景文本图像(如任意定向,弯曲或变形文本)的高度灵活性。 1.引言 场景文本检测由于其众多应用(例如即时翻译,图像检索,场景解析,地理位置和盲目导航)而在计算机视觉领域引起了广泛关注。近来,基于深度学习的场景文本检测器显示出令人鼓舞的性能[8、40、21、4、11、10、12、13、17、24、25、32、26]。这些方法主要 ...
开题报告
文献综述 增值税发票增值税专用发票是商事凭证,由于实行凭发票购进税款扣税,购货方要向销货方支付增值税,因此也是完税凭证,起到销货方纳税义务和购货方进项税额的合法证明的作用,是增值税普征性和公平性的体现:每个环节征税,每个环节扣税,让税款从上一个经营环节传递到下一个经营环节,一直到把商品或劳务供应给最终消费者,这样,各环节开具的增值税总额,就是该商品或劳务的整体税负,体现了增值税普遍征收和公平税负的特征[1]。 在当前移动互联网快速发展的大环境下,增值税发票识别成为一个比较热门而有价值的应用方向。并且伴随着社会信用体系不断完善,增值税发票已经成为人们主流的交易证明。在现代科学研究、军事技术、医学、工农业生产等领域,越来越多的人使用图像信息来识别和判断事物并解决实际问题,在此环境条件下如何高效有序地对增值税发票进行智能化管理,是对当下智能票据提出的一个硬性要求。发票号码作为发票唯一的身份标识,常用作支付交易证明和经费报销申请的主要依据,所以针对发票识别技术(Invoice Recognition Technology,IRT)[2],从传统的机器学习到当下的深度学习都在不断地进行着算法的 ...
选题说明
课题简介 财务行业的发票识别及财务做账问题一直是会计行业关注的焦点问题,在这其中发票信息填录尤其重要。近年来随着企业之间财务交易越来越频繁,企业中财务处理也日趋频繁,但传统的人工填录方法效率较低,而且易于出错;在这样的背景下,社会急需一整套发票自动填录系统来解决这些问题。本课题使用Python构建增值税发票识别系统,具有一定的工程意义。 课题应完成的任务和要求 设计与实现一款增值税发票自动识别系统。 在做课题的过程中需要掌握:Python开发技术、机器学习、深度学习 达到的目的 通过查阅资料和自主学习,动手设计和实现一个增值税发票自动识别系统,在Python、机器学习和深度学习等技术基础上,完成系统的功能设计。本课题应达到如下目的: 掌握文献检索、资料查询的基本方法,提高自己获取新知识的能力。 设计并开发一个增值税发票自动识别系统。 通过软件项目的完整训练,提高软件系统的设计、开发、测试等技能。 通过论文的撰写,对大学期间学习的知识进行系统的梳理和回顾,深入了解软件工程流程,提高解 决实际问题的能力。 内容和要求 任务内容: 从实际需求出发对增值税发票自动识别系统进行设计与实现。 ...
年轻人的头两份软著
在一篇期刊之后,又是两份软著。软著获得难度不高,代码方面不是最复杂的地方,最头疼的地方在于申请。 申请有两种方式,,一种是直接去官网进行申请,另外一种是通过阿里云帮助申请,我采用的方式是阿里云代为申请,会方便许多,然后就是等待证书批来下,大概需要2-4个月时间。两份证书,用了3个多月的时间审核,在1月份批下来,整体还算流畅。
一次奇怪的患病经历
开始症状后-初次就医前 第1天 事情要从几天以前说起,这一天晚上,一切都和平常一样,没有什么事情发生,直到晚上6点多吃完晚饭,7点钟不到的时候,左眼眶区域就开始隐隐开始作痛。 一开始我觉得可能就是三叉神经痛之类的,过一会就好了,可没想到,这一痛就从晚上7点一直痛到早上6点,真的是一晚上都没睡着。期间,凌晨12点至凌晨2点发作最为剧烈。就这样,第一天过去了。 第2-3天 因为之前有一次,晚上胃痛,第二天就好了,所以我觉得应该是和饮食有一定关系,于是第2-3天就吃的很清淡,想观察一下,这个疼痛是否是因为饮食问题引起的,可惜并不是由于饮食原因 于是又这样熬过了两个晚上,期间第三天晚上,痛的实在是受不了了,就起来录制视频来转移注意力,然后顺便用pr剪辑,加两重水印,一重静态的bilibili原水印,一重运动的字体水印,BGM,字幕(当时可真有心,真的是边痛边缓解)。 有兴趣可以看一下这个70多分钟的废话视频,大晚上真的是凭意识在说废话(B站最近样式改版,分享按钮都没有了,可能出现无法观看的情况) 初次就医后-大医院就医前 第4天 这一天晚上,又开始痛,我觉得不行了,一定要去医院看一看,就 ...
最近剁手的服务
1.博客 博客搭建采用了GithubPage的服务,同时使用Github仓库做图床. 图床工具 手机端使用的是咕咚云图,这款软件是字节跳动的大佬开发的,做的比较有质感,Github上创建一个仓库,在软件中进行链接,就可以进行上传了.除此之外,还有七牛云、腾讯云COS、码云、又拍云、阿里云等图床的支持. 软件是基础功能完全免费的,和市面上图床软件实现效果一样,不过大佬在市面上图床软件都实现的基础上,增加了一次多张图片上传的功能(需会员),WebDAV云备份功能(免费),35元的永久会员还可以接受,一次性买断,还能第一时间在微信体验新功能.和大佬聊过,人十分热情,给我激活码那一天,正好是这款软件换了一个新的后端的时候,我有幸成为新后端的第一个体验者. 这款软件最让人舒服的地方,就是能将软件配置,历史上传数据和图片预览全部备份到坚果云里面,坚果云配置好,每次软件配置发生变化或者上传新的图片,都能及时备份,并且备份文件只有几十KB,也能很好兼容坚果云默认云盘空间的弊端.而其他很多图床软件重新安装之后,你传过哪些图片,都不知道了,这也是我选择这款手机端图床软件的原因! 至于在电脑端,Win下 ...