当前位置:主页 > 社科论文 > 图书档案论文 >

基于相似性度量的专利分类方法研究

发布时间:2024-02-17 17:33
  随着人类社会日新月异的变化,技术的革新速度越来越快,同一领域的行业竞争变得愈发激烈,这对企业在某一领域下的技术创新提出了更高的要求。专利作为一种含有丰富信息的特殊知识文本,在教育、金融、生产等一系列领域中为技术发展提供强有力的支撑。面对海量的专利文本,如何改变传统的文本分类算法使其适应专利文本的特性成为现在专利分类亟待解决的问题。相似性度量是指通过某种方法来衡量数据之间相似程度的一种度量方法。由于目前基于统计和机器学习的专利分类方法,在分类精度方面很难再有更大的提高,因此如何选择一个优秀的相似性度量方法使其达到更好的分类效果,是当前的研究重点和热点。本文根据专利文本的特点结合传统的相似性度量方法提出了两种基于相似性度量的专利分类方法。首先,使用TF-IDF方法从专利摘要中筛选出特征项,通过CHI统计量判断特征项与类别之间的关联性,然而CHI统计量会夸大某些不具备分类信息的低频词的重要程度,影响分类准确性。因此将CHI统计量与夹角余弦相似度结合,提出了一种新的基于摘要相似度的专利分类方法。基于此方法,考虑专利的结构化和非结构化特征,提出了一种基于IPC分类号和摘要混合相似度的专利分类方法...

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景及意义
        1.1.1 研究背景
        1.1.2 研究意义
    1.2 国内外研究现状
        1.2.1 专利分类研究现状
        1.2.2 专利相似度计算研究现状
    1.3 主要研究内容和预期研究结果
    1.4 本文的组织结构
第2章 相关技术介绍
    2.1 文本的特征提取
        2.1.1 特征项选取
        2.1.2 特征项权重计算
    2.2 文本相似性度量方法
    2.3 文本分类算法及评价方法
        2.3.1 文本分类算法
        2.3.2 评价方法
    2.4 本章小结
第3章 基于摘要相似度的专利分类方法
    3.1 CHI统计量
        3.1.1 CHI统计量的局限性
        3.1.2 改进的CHI统计方法
    3.2 基于摘要相似度的专利分类方法
        3.2.1 算法思想
        3.2.2 算法步骤
    3.3 基于混合相似度的专利分类方法
        3.3.1 基于IPC的专利文本相似性度量
        3.3.2 基于混合相似度的专利分类方法
    3.4 实验结果及分析
        3.4.1 实验环境及配置
        3.4.2 实验数据集
        3.4.3 实验设计及步骤
        3.4.4 实验结果及分析
    3.5 本章小结
第4章 基于权利要求书相似度的专利分类方法
    4.1 权利要求书SAO-x结构提取
        4.1.1 SAO结构
        4.1.2 SAO-x结构
        4.1.3 权利要求书SAO-x结构提取
    4.2 基于权利要求书相似度的专利分类方法
        4.2.1 算法思想
        4.2.2 算法步骤
    4.3 实验结果及分析
        4.3.1 实验环境及配置
        4.3.2 实验数据集
        4.3.3 实验设计及步骤
        4.3.4 实验结果及分析
    4.4 本章小结
结论
攻读硕士学位期间发表的论文和取得的科研成果
参考文献
致谢



本文编号:3901148

资料下载
论文发表

本文链接:https://www.wllwen.com/tushudanganlunwen/3901148.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户d1baa***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]