基于深度学习的数学练习册图像文本检测识别算法研究

发布时间：2023-08-09 19:13

　　在当前科技发展的前提下,对图像文本的信息提取已经成为了迈向智能化的关键步骤。光学字符识别(Optical Character Recognition,下面都简称OCR)在很多工业领域中已经成为重中之重。相较于传统的手工摘抄和人工定位与识别,目前此项科技已经逐步向智能化检测与识别推进,并在最近几年的实验效果上取得了较好的成绩。同时在工业领域中的诸如流水线产品的文本识别,手机拍照文本检测、大量票据的识别、车牌识别等目前也在逐渐应用最新的科技成果。本课题以手机拍摄的小学生数学作业本照片的文本检测与识别为应用背景,针对照片上文本的位置和内容进行定位和识别,以配合后续实现自主判卷的功能。通过对OCR理论以及深度学习在图像检测、识别领域理论进行分析与工程实践,主要针对与近几年的OCR检测算法,如:MSER、CTPN和识别算法如:CNN、CRNN等,将之应用于本课题。同时根据工程实际,修正图像并改进相应算法,验证其可行性,搭建实验系统,进行工程实践,并专门针对深度学习在训练过程中耗时过长进行了优化。通过将检测和识别模型的RNN结构更改为Conv1D结构,并在理论上给予解释。Conv1D架构在实验收集...

【文章页数】：67 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
第1章绪论
    1.1 课题背景与研究目的与意义
    1.2 国内外研究现状
        1.2.1 特征提取网络
        1.2.2 文本检测
        1.2.3 文本识别
    1.3 本文主要研究内容和论文组织
        1.3.1 本文主要研究内容
        1.3.2 本文各章结构组织
第2章图像数据分析与深度学习原理
    2.1 图像数据分析
        2.1.1 主要识别题型
        2.1.2 标注字符分析
        2.1.3 图像角度分析
        2.1.4 标注框分析
    2.2 深度卷积模型原理及组成部分
        2.2.1 神经元
        2.2.2 全连接层
        2.2.3 激活层
        2.2.4 失活层
        2.2.5 卷积层
        2.2.6 池化层
        2.2.7 正则化层
        2.2.8 有效组合单元
        2.2.9 输出层
    2.3 深度时序模型原理及组成部分
        2.3.1 长短时记忆网络
        2.3.2 门控循环单元
    2.4 深度模型优化原理及组成部分
        2.4.1 损失函数
        2.4.2 优化器
    2.5 本章小结
第3章深度学习在文本检测与识别中的应用
    3.1 文本检测
        3.1.1 倾斜文本图片标注
        3.1.2 图像校正
        3.1.3 CTPN数据标注
        3.1.4 CTPN算法架构
    3.2 文本识别
        3.2.1 CRNN数据标注
        3.2.2 模型架构
    3.3 CONV1D与 RNN的相似性推导
        3.3.1 RNN结构简析
        3.3.2 Conv1D结构简析
        3.3.3 推导结论
    3.4 本章小结
第4章实验结果与分析
    4.1 工程架构
    4.2 实验环境
    4.3 文本检测实验细节与结果
    4.4 文本识别实验细节与结果
        4.4.1 识别标注不同结果
        4.4.2 CRNN实验结果
    4.5 本章小结
结论
参考文献
致谢
个人简历
附录1

本文编号：3840798

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3840798.html

上一篇：基于RGB-D相机的室内移动机器人全局自定位技术研究
下一篇：基于情感分类的特征表示研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|