当前位置:主页 > 社科论文 > 图书档案论文 >

科技文档的分类与查重

发布时间:2024-02-01 12:17
  科技活动具有不同的活动形式与内容,科技活动的目的也具有多样性。为了能够实现科学的评价科技项目的科技、社会、经济价值,本文提出了对科技项目分类与查重的相关模型和处理方法。 本文采用基于关键词匹配的一种改进的最大匹配分词算法,在对科技文档分词得到的词频统计结果的基础上,利用汉明码集模板构造了科技文档的汉明码集。在领域划分模型的支持下,在基于汉明距离计算的文本相似度的基础上将科技文档划分到其相应的应用领域。并基于历史科技文档的汉明码集,利用改进的误差反传算法对三层前馈人工神经网络进行训练后可实现对科技文档的自动聚类,为实现科技项目同类可比性提供了支持。同时,为了实现一份科技文档的相似文档快速查找功能,本文将已有的科技文档按照层次聚类法构造成树形知识结构,可以极大的提高相似项目查找的速度和效率。

【文章页数】:61 页

【学位级别】:硕士

【文章目录】:
中文摘要
英文摘要
第1章 绪论
    1.1 本文研究的目的
        1.1.1 本文研究的目的
        1.1.2 本文研究的意义
    1.2 国内外的研究现状
        1.2.1 科技文档分类
        1.2.2 文本相似度计算
        1.2.3 中文分词技术
    1.3 本文的创新之处及内容安排
        1.3.1 本文的创新之处
        1.3.2 本文的内容安排
第2章 对项目申报书的分词
    2.1 对申报书分词前的预处理
    2.2 具体分词算法与消歧处理
        2.2.1 分词词典存储格式
        2.2.2 改进的MM 方法
        2.2.3 歧义词处理
        2.2.4 多义字处理
        2.2.5 未登录词的处理
第3章 中文文本相似度计算
    3.1 中文文本相似度计算模型
        3.1.1 相似度
        3.1.2 相似算法
    3.2 中文文本相似度计算的主要方法
        3.2.1 隐性语义标引
        3.2.2 基于向量空间模型的TF-IDF 方法
        3.2.3 基于语义理解的相似度计算方法
        3.2.4 基于属性论的文本相似度计算方法
        3.2.5 基于汉明距离的文本相似度计算方法
    3.3 文本相似度计算方法的选择
    3.4 存在问题及发展方向
        3.4.1 存在的问题
        3.4.2 未来的发展方向
第4章 科技项目的计算机表示与分类、查重
    4.1 知识表示的相关方法
        4.1.1 产生式规则表示
        4.1.2 语义网络表示
        4.1.3 框架表示
        4.1.4 面向对象表示
    4.2 科技项目的计算机表示
    4.3 科技项目的分类规则与特点
        4.3.1 项目分类的必要性
        4.3.2 科技项目分类评价原则
        4.3.3 本文所采用的分类标准
        4.3.4 基于计算机表示的项目分类
    4.4 基于计算机表示的项目聚类方法
        4.4.1 基于误差反传算法的前馈神经网络
        4.4.2 神经网络的训练与申报书聚类的实现
    4.5 项目申报书在计算机内的组织方式与知识表示
    4.6 项目申报书的查重处理
第5章 系统设计与实施
    5.1 系统组成与设计
        5.1.1 分词词典
        5.1.2 文本分词模块
        5.1.3 汉明码字库集
        5.1.4 领域划分模块
        5.1.5 申报书聚类模块
        5.1.6 申报书查重模块
    5.2 系统实施
    5.3 待解决的问题
结论
参考文献
后记



本文编号:3892101

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3892101.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户f254f***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]