来自Guuuuuu老师的CV岗、OCR、目检检测、多模态方向面试经验分享
该面经来自Guuuuuu老师儿,浙江大学软件学院研究生,在人工智能上十分优秀,Gu老师的CRNN和CTPN教程对我十分有帮助 自我介绍 略 项目问题 简历项目 面试问题 问过的基础问题 DBNet的都用了哪些loss BinaryCrossEntropy(prob map, binary map) L1 (threshold map),但是代码实现中有对binary map采用Dice loss,即对预测map和gt map计算该公式 ,这里其实是借鉴了PSENet中的做法,他认为文字只在图片中占很小的区域,因此正负样本不均衡,相当于负样本多,使用BCE loss容易让网络偏向预测非文字区域,而Dice loss恰好对正负样本不均衡的场景有比较不错的性能,训练过程中更侧重对前景区域的挖掘(缺点是对反向传播不利,训练loss不稳定,尤其是小目标) DBNet为什么做shrink操作 shrink为了更好区分实例,直接分割可能紧密的文字会被检测成一个连通区域,分割方法比较敏感,借鉴自PSENet Hard Negative Mining 先划分正负样本1:3训练,训练好的模型预 ...
使用labelImg手动标注数据集
下载项目 先放教程安装并使用labelImg标注数据集,yolo,VOC格式,前面如何安装写得比较详细 先去Github页,下载文件 运行 先解压 然后在这个文件夹下,在终端里启动项目,后面的操作也会在终端里输出 使用 使用跟着给出的教程来即可
CTPN模型讲解
文字识别也是图像领域一个常见问题。然而,对于自然场景图像,首先要定位图像中的文字位置,然后才能进行识别。 所以一般来说,从自然场景图片中进行文字识别,需要包括2个步骤: 文字检测:解决的问题是哪里有文字,文字的范围有多少 文字识别:对定位好的文字区域进行识别,主要解决的问题是每个文字是什么,将图像中的文字区域进转化为字符信息。 1、CTPN原理——文字检测 1.1简介 CTPN是在ECCV 2016提出的一种文字检测算法。CTPN结合CNN与LSTM深度网络,能有效的检测出复杂场景的横向分布的文字,效果如下图,是目前比较好的文字检测算法。 CTPN算法的提出,出于以下几点: (1)假设文本是水平的; (2)文本可以看做由每一个“字母”组成的。这里的字母可以认为是小片段。之所以有这样的想法,是因为基于通用目标检测的算法难以适应文字检测的场景,如上图中的文字,长度方面变化幅度很大。因此作者将文本在水平方向解耦,分成每一个小片,然后将文本行的检测转化为小片的检测,最后利用规则将属于同一水平行的小片组合成文本行。化繁为简。 1.2CTPN模型创新点 CTPN的创新点主要由以下三点: ...
如何在Hexo中用Gulp脚本进行静态资源渲染压缩和解决MathJax数学公式重复问题
Gulp脚本 如何下载、配置,这里我给出一个我跟着来的教程Hexo使用Gulp压缩静态资源,2操作是必须的,3操作我使用了,4-5我并没有参考 这里着重说明一下,关于脚本执行顺序,以及精简代码 脚本执行顺序 // 执行顺序: 清除public目录 -> 产生原始博客内容 -> 执行压缩混淆 -> 部署到服务器gulp.task( "default", gulp.series( "clean", "generate", "compressHtml", "compressCss", "compressJs", gulp.parallel("deploy") )); 先是clean,清除已经创建的public文件夹 之后是生成页面 接下来分别是压缩HTML文件、CSS文件、JS文件 最后是将本地部署到GitHubPage仓库当中去 精简 ...
Markdown高阶语法手册
1. 标签分类 在编辑区任意行的列首位置输入以下代码给文稿标签: 标签: 数学 英语 Markdown 或者 Tags: 数学 英语 Markdown 2. 删除线 使用 ~~ 表示删除线。 这是一段错误的文本。 3. 注脚 使用 [^keyword] 表示注脚。 这是一个注脚1的样例。 这是第二个注脚2的样例。 4. LaTeX 公式 行内公式: 质能守恒方程可以用一个很简洁的方程式 E=mc2E=mc^2E=mc2 来表达。 整行公式: ∑i=1nai=0\sum_{i=1}^n a_i=0 i=1∑nai=0 f(x1,xx,…,xn)=x12+x22+⋯+xn2f(x_1,x_x,\ldots,x_n) = x_1^2 + x_2^2 + \cdots + x_n^2 f(x1,xx,…,xn)=x12+x22+⋯+xn2 ∑k=0j−1γ^kjzk\sum^{j-1}_{k=0}{\widehat{\gamma}_{kj} z_k} k=0∑j−1γkjzk 访问 MathJax 参考更多使用方法。 5. 加强的代码块 支持四十一种编程语言的语法 ...
Markdown简明语法手册
1. 斜体和粗体 使用 * 和 ** 表示斜体和粗体。 示例: 这是 斜体,这是 粗体。 2. 分级标题 使用 === 表示一级标题,使用 — 表示二级标题。 示例: 这是一个一级标题============================这是一个二级标题--------------------------------------------------### 这是一个三级标题 你也可以选择在行首加井号表示不同级别的标题 (H1-H6),例如:# H1, ## H2, ### H3,#### H4。 3. 外链接 使用 [描述](链接地址) 为文字增加外链接。 示例: 这是去往 YuZhangWang的领域 的链接。 4. 无序列表 使用 * ,+ ,- 表示无序列表。 示例: 无序列表项 一 无序列表项 二 无序列表项 三 5. 有序列表 使用数字和点表示有序列表。 示例: 有序列表项 一 有序列表项 二 有序列表项 三 6. 文字引用 使用 > 表示文字引用。 示例: 野火烧不尽,春风吹又生。 7. 行内代码块 使用 `代码` 表示行内代码块。 示例: 让我们聊聊 ...
外文翻译
文本检测的字符区域感知 摘要 最近出现了基于神经网络的场景文本检测方法,并显示出令人鼓舞的结果。经过严格的单词级边界框训练的先前方法在以任意形状表示文本区域方面显示出局限性。在本文中,我们提出了一种新的场景文本检测方法,通过探索每个字符和字符之间的亲和力来有效地检测文本区域。为了克服单个字符级注释的不足,我们提出的框架利用了合成图像的给定字符级注释和通过学习的临时模型获取的真实图像的估计字符级基础。为了估计字符之间的亲和力,使用新提出的亲和力表示来训练网络。在六个基准测试上进行了广泛的实验,包括TotalText和CTW-1500数据集,这些数据集在自然图像中包含高度弯曲的文本,这表明我们的字符级文本检测明显优于最新的检测器。根据结果,我们提出的方法保证了检测复杂场景文本图像(如任意定向,弯曲或变形文本)的高度灵活性。 1.引言 场景文本检测由于其众多应用(例如即时翻译,图像检索,场景解析,地理位置和盲目导航)而在计算机视觉领域引起了广泛关注。近来,基于深度学习的场景文本检测器显示出令人鼓舞的性能[8、40、21、4、11、10、12、13、17、24、25、32、26]。这些方法主要 ...
开题报告
文 献 综 述 增值税发票增值税专用发票是商事凭证,由于实行凭发票购进税款扣税,购货方要向销货方支付增值税,因此也是完税凭证,起到销货方纳税义务和购货方进项税额的合法证明的作用,是增值税普征性和公平性的体现:每个环节征税,每个环节扣税,让税款从上一个经营环节传递到下一个经营环节,一直到把商品或劳务供应给最终消费者,这样,各环节开具的增值税总额,就是该商品或劳务的整体税负,体现了增值税普遍征收和公平税负的特征[1]。 在当前移动互联网快速发展的大环境下,增值税发票识别成为一个比较热门而有价值的应用方向。并且伴随着社会信用体系不断完善,增值税发票已经成为人们主流的交易证明。在现代科学研究、军事技术、医学、工农业生产等领域,越来越多的人使用图像信息来识别和判断事物并解决实际问题,在此环境条件下如何高效有序地对增值税发票进行智能化管理,是对当下智能票据提出的一个硬性要求。发票号码作为发票唯一的身份标识,常用作支付交易证明和经费报销申请的主要依据,所以针对发票识别技术(Invoice Recognition Technology,IRT)[2],从传统的机器学习到当下的深度学习都在不断地进行着 ...
选题说明
课题简介 财务行业的发票识别及财务做账问题一直是会计行业关注的焦点问题,在这其中发票信息填录尤其重要。近年来随着企业之间财务交易越来越频繁,企业中财务处理也日趋频繁,但传统的人工填录方法效率较低,而且易于出错;在这样的背景下,社会急需一整套发票自动填录系统来解决这些问题。本课题使用Python构建增值税发票识别系统,具有一定的工程意义。 课题应完成的任务和要求 设计与实现一款增值税发票自动识别系统。 在做课题的过程中需要掌握:Python开发技术、机器学习、深度学习 达到的目的 通过查阅资料和自主学习,动手设计和实现一个增值税发票自动识别系统,在Python、机器学习和深度学习等技术基础上,完成系统的功能设计。本课题应达到如下目的: 掌握文献检索、资料查询的基本方法,提高自己获取新知识的能力。 设计并开发一个增值税发票自动识别系统。 通过软件项目的完整训练,提高软件系统的设计、开发、测试等技能。 通过论文的撰写,对大学期间学习的知识进行系统的梳理和回顾,深入了解软件工程流程,提高解 决实际问题的能力。 内容和要求 任务内容: 从实际需求出发对增值税发票自动识别系统进行设计与实现。 ...
年轻人的头两份软著
在一篇期刊之后,又是两份软著。软著获得难度不高,代码方面不是最复杂的地方,最头疼的地方在于申请。 申请有两种方式,,一种是直接去官网进行申请,另外一种是通过阿里云帮助申请,我采用的方式是阿里云代为申请,会方便许多,然后就是等待证书批来下,大概需要2-4个月时间。两份证书,用了3个多月的时间审核,在1月份批下来,整体还算流畅。