面向自然场景中商户门店名称识别的深度学习算法研究

发布时间：2024-04-22 00:13

　　随着互联网技术的发展以及各种具备拍照功能的移动终端的普及,各种终端所拍摄到自然场景的图片往往包含一定的语义信息,因此自动检测和识别图片中的文字信息具有很广泛的应用场景,例如车牌识别、护照阅读器等等。随着电商的蓬勃发展,一些店铺想要与某些电商平台如美团、银联等登记入网的时候,需要店铺上传自己的门店照片信息供平台审核,而人工审核耗时费力,使用人工智能技术辅助可以提高工作效率降低错误率。但传统的OCR(Optical Character Recognition,光学字符识别)技术并无法解决复杂场景下的文字识别问题。自然场景中的文字识别算法基本分为两个步骤:文本检测和文字识别。目前基于深度学习的文本检测方法主要有两种,基于候选框或者基于分割的检测方法。基于候选框的基本思想一般是从图片中生成大量候选文本框,然后使用NMS(Non-Maximum Suppression,非极大值抑制算法)得到最终结果。基于分割的算法基本是通过对图片进行像素级的语义分割,然后在分割结果的基础上构建完整文本行。现有的模型对于英文字符的检测和识别都具有比较好的效果,因为英文字符尺寸基本一致,且只有26个,类别较少,但是...

【文章页数】：66 页

【学位级别】：硕士

【部分图文】：

图２－１卷积计算示意图??

ｔｒｉｘ???一！?「？一?‘?Ｌ?Ｋｅｒｎｅｌ?Ｍａｔｒｉｘ??????????Ｔ７：ｌ?？?????１０５?１０２?１００?｝?９７???－ｒ?－?????０－１０??ｐ——??１０３?９９?１０３?１０１???８９???——?－ｉ?５?－１???＾????１０１?９８?１０....

图２－２?—个典型的卷积分类网络??２．１．２?ＶＧＧ神经网络??

?山东大学硕士学位论文???强烈的语义特征，同时保持特征的平移不变性。一个典型卷积神经网络通常包含??多个卷积层和池化层。??｜?／；Ｘ＾＞Ｐｄ〇ｇ??￣Ｌ３４Ｊ?＾?ｉ］ｒ?；＇：?＾ｃ＾ｊ＾ｐｂｉｒｄ??＊－?—??ｍａｘ?ｐｏｏｌｉｎｇ?＾?？??ｃｏｎｖｏｌｕｔｉｏｎ?？....

图２－３输入张童在经过ＶＧＧ１６时的尺寸变化过程??２．１．３?ＰｉｘｅｌＬｉｎｋ??

这使得池化后的张量在??长和宽上都缩小了?２倍。??３．?ＶＧＧ１６模型是一种结构简洁但深层的网络结构，通过使用更多更小的卷积??核增加网络深度来学习更加复杂的模式。??２２４ｘ２２４ｘ３?２２４ｘ２２４ｘ６４??Ｉ?ｃｏｎｖｏｌｕｔｉｏｎ＋ＲｅＬｕ??１１２ｘ１１２ｘ１２８?｜....

图２－４并査集算法??

?山东大学硕士学位论文??ＧＸｉ＞？?０?ＧＸ＾ＸＤ?０＾０??ＯＱＯ?？０?？??０（５—?—?６?—??图２－４并査集算法??由于最终的文本边界框是通过一系列算法从实例分割的结果里获取的，因此??相比于其他检测方法大大减少了位置回归所占用的时间。??５．噪声去除??对于计算过....

本文编号：3961654

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/shoufeilunwen/xixikjs/3961654.html

上一篇：基于MEMS扩散硅压阻式压力传感器智能检测系统的研究
下一篇：网络传播视域下新闻文体的特征研究