专利信息检索系统的研究与实现

发布时间:2023-01-25 20:48
  专利信息在当前社会是首选的竞争情报资源,它蕴含着巨大的知识存量。充分挖掘和利用专利信息有助于技术人员改进现有技术,发现新的技术领域。然而当前专利数量急剧增长,依靠人工手段寻找有用专利信息,并进行快速有效的专利分析,几乎是不可能的。 专利信息检索系统就是为了帮助大家在众多的专利资源中找到自己需要的资源。专利信息检索的精确度和准全率和索引文件所依赖的词典库有着直接而重要的关系。如果词典库能包含专利信息中所有的词汇,那专利检索的精确度和准全率一定很高。本文中我们将介绍一种术语抽取技术,用哈工大计算机学院智能技术与自然语言处理研究室的词典文件作为一般词典库,从专利原始资料中抽取出专业术语,形成术语词典库。一般词典库和术语词典库共同作为生成索引文件的词典库。 考虑到专利的原始文本信息量非常之大,在生成术语词典库的过程中,几个比较关键的算法:后缀数组、取重复串和互信息,采用了C语言作为算法的开发语言,C语言的算法可以做到比较高的速度读取文本,并且支持大文件的操作;而在专利检索业务,我们采用B/S的架构,采用Java语言作为上层业务的开发语言。在术语词典库的生成过程中。 最后,设计... 

【文章页数】:54 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
目录
第一章 绪论
    1.1 研究背景
    1.2 关键技术
    1.3 技术目标
    1.4 主要研究内容
    1.5 论文组织结构
第二章 术语抽取
    2.1 术语抽取中的几个关键技术
        2.1.1 读取文本
        2.1.2 后缀数组
        2.1.3 取重复串
        2.1.4 互信息
    2.2 小结
第三章 检索实现
    3.1 Lucene简介
        3.1.1 基于Java的全文检索引擎简介
        3.1.2 全文检索的实现机制
        3.1.3 与其他检索系统的比较
    3.2 系统中对Lucene的改造
        3.2.1 建立索引文件的改造
        3.2.2 对检索关键字增加优先级的支持
    3.3 小结
第四章 系统设计及实现
    4.1 系统结构
    4.2 系统数据库结构
    4.3 系统基本功能
    4.4 系统界面
    4.5 小结
第五章 总结与展望
    5.1 研究工作及成果总结
    5.2 进一步研究方向
参考文献
致谢


【参考文献】:
期刊论文
[1]句子相似度计算新方法及在问答系统中的应用[J]. 周法国,杨炳儒.  计算机工程与应用. 2008(01)
[2]基于多层次融合的语句相似度计算模型[J]. 南铉国,崔荣一.  延边大学学报(自然科学版). 2007(03)
[3]领域术语自动抽取及其在文本分类中的应用[J]. 刘桃,刘秉权,徐志明,王晓龙.  电子学报. 2007(02)
[4]聚焦爬虫技术研究综述[J]. 周立柱,林玲.  计算机应用. 2005(09)
[5]领域本体中的概念相似度计算[J]. 朱礼军,陶兰,刘慧.  华南理工大学学报(自然科学版). 2004(S1)
[6]基于图像内容的外观专利自动检索系统[J]. 方骥,戴青云.  计算机工程与应用. 2004(34)
[7]面向Internet的中文新词语检测[J]. 邹纲,刘洋,刘群,孟遥,于浩,西野文人,亢世勇.  中文信息学报. 2004(06)
[8]基于语义关系查询扩展的文档重构方法[J]. 张敏,宋睿华,马少平.  计算机学报. 2004(10)
[9]动词与动词搭配类型的自动标注方法[J]. 白妙青,郑家恒.  山西大学学报(自然科学版). 2004(01)
[10]自然语言文档复制检测研究综述[J]. 鲍军鹏,沈钧毅,刘晓东,宋擒豹.  软件学报. 2003(10)

硕士论文
[1]信息检索中的查询扩展算法研究[D]. 李大高.江苏大学 2008
[2]基于频繁模式的消息文本聚类研究[D]. 胡吉祥.中国科学院研究生院(计算技术研究所) 2006



本文编号:3731776

资料下载
论文发表

本文链接:https://www.wllwen.com/falvlunwen/zhishichanquanfa/3731776.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户bba4b***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]