复杂表格文档图像的模板识别与提取

发布时间:2023-06-04 21:10
  随着互联网信息技术的发展,越来越多的组织机构开始构建信息化系统以实现业务流程的无纸化处理,但涉及跨机构的协同业务时,由于保密等因素的限制,跨机构的信息化系统构建困难,所以目前协同业务基本仍在使用纸质表格文档作为业务载体。机构收到业务表格后,需要将表格信息录入内部信息化系统,录入工作以往由人工进行,而由于近些年业务数量持续增加,人工录入无法满足业务时效性要求,所以纸质表格文档的自动录入愈发重要。自动录入主要包括文本识别和版式提取,目前文本识别技术已经成熟,所以重点在于提取表格的版式,表格根据版式可分为有框线表格与无框线表格。通过影印扫描后得到表格图像,本文的目的就是从表格图像中提取出表格的版式。为提取出表格版式,本文定义了表格模板,通过提取模板实现表格结构与内容的自动化识别。其中,有框线表格图像的模板提取分为三步,检测表格框线、还原表格结构、提取标题域,提取出的模板可用于对单张有框线表格图像进行分类;无框线表格图像的模板提取也分为三步,提取表格文字块、标注训练语料、训练构词模型,提取出的模板可用于验证单张无框线表格图像识别结果并纠正文字块划分错误。本文设计并实现了复杂表格文档图像模板识别...

【文章页数】:96 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 研究背景及意义
    1.2 论文研究内容
    1.3 主要工作内容
    1.4 论文章节安排
第二章 相关技术研究
    2.1 有框线表格还原技术
        2.1.1 表格框线检测技术
        2.1.2 表格结构还原技术
    2.2 无框线表格还原技术
    2.3 图像相似度匹配技术
        2.3.1 基于颜色直方图的相似度算法
        2.3.2 基于尺度不变特征变换的相似度算法
        2.3.3 基于感知哈希的相似度算法
    2.4 小结
第三章 系统需求分析及总体设计
    3.1 系统需求分析
        3.1.1 系统概述
        3.1.2 系统功能性需求
        3.1.3 系统非功能性需求
    3.2 系统总体设计
        3.2.1 系统总体架构
        3.2.2 系统模块划分
    3.3 小结
第四章 模板提取与管理子系统的设计与实现
    4.1 模板提取模块设计与实现
        4.1.1 有框线表格图像模板提取
        4.1.2 无框线表格图像模板提取
        4.1.3 任务执行程序的设计与实现
    4.2 Web接口模块设计与实现
    4.3 通信模块设计与实现
    4.4 存储模块设计与实现
    4.5 小结
第五章 表格识别与分类子系统的设计与实现
    5.1 识别分类模块设计与实现
        5.1.1 有框线表格图像的识别与分类
        5.1.2 无框线表格图像的识别
    5.2 Web接口模块设计与实现
    5.3 对模板子系统存储模块的补充
    5.4 小结
第六章 系统测试
    6.1 测试环境
    6.2 模板提取与管理子系统功能测试
    6.3 表格识别与分类子系统功能测试
    6.4 模板提取及表格识别准确性测试
    6.5 小结
第七章 结束语
    7.1 全文总结
    7.2 问题与下一步工作
参考文献
附录
致谢
攻读学位期间发表的学术论文目录



本文编号:3831021

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3831021.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户39626***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]