当前位置:主页 > 科技论文 > 搜索引擎论文 >

海量异构数据搜索的研究与实现

发布时间:2023-10-03 18:52
  随着近几年信息通信技术和互联网技术的发展,互联网的信息含量呈爆炸式增长,如何在这些海量数据中快速、准备搜索出用户需要的信息已经成为了众多企业和研究机构关注的交点。异构数据的检索是从各类异构数据文档组成的数据源当中搜索出用户想要的文档,在企业、政府、学校中有着广泛应用。本文依托了国家十一五科技支撑计划项目“安全可信的电信级生殖健康运营支撑体系关键技术研究"的优生知识库系统,论述了系统开发的背景和国内外异构数据搜索引擎技术发展现状,分析了优生知识库系统异构数据搜索现有的不足以此为基础进行改造,改造后的系统称之为“异构优生知识库搜索系统"。 论文的主要工作体现在如下几个方面:1.对异构数据文档进行一个统一的文本处理,调研开源工具的使用,对不同种类的文档(PDF、WORD、XML)进行统一的格式转换。2.对多种中文分词工具进行调研并做性能测试,找出一种适合“异构优生知识库搜索系统"的中文分词,并加以改善。3.对异构数据文档进行搜索结果的排序,把PageRank算法加以改进,并应用到本系统的结果排序之中。4.对“异构优生知识库系统”进行完成的编码、测试。 论文的主要贡献是解决了原有优生知识库系统...

【文章页数】:63 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第一章 绪论
    1.1 课题研究背景
    1.2 国内外研究现状
    1.3 课题研究的意义与应用前景
    1.4 本文研究内容
    1.5 论文结构
    1.6 本章小结
第二章 相关技术介绍
    2.1 文本转换
    2.2 索引技术
    2.3 中文分词
    2.4 用户交互
    2.5 本章小结
第三章 海量异构数据搜索引擎的设计
    3.1 系统整体架构
    3.2 文本转换子系统架构
        3.2.1 系统架构
        3.2.2 文本上传
        3.2.3 获取统一文本
        3.2.4 文本内容处理
    3.3 索引维护子系统架构
        3.3.1 中文分词
        3.3.2 索引维护
    3.4 用户查询子系统架构
        3.4.1 用户查询流程
        3.4.2 关键词解析
        3.4.3 结果排序
        3.4.4 文本预览
        3.4.5 文件下载
    3.5 本章小结
第四章 系统实现
    4.1 开发环境
    4.2 系统架构与配置
        4.2.1 系统架构
        4.2.2 开源技术
        4.2.3 后台配置
    4.3 文件上传子系统实现
        4.3.1 子系统简介
        4.3.2 子系统序列
        4.3.3 详细实现
    4.4 文本转换子系统实现
        4.4.1 子系统简介
        4.4.2 停用词去除与词干提取
        4.4.3 相关开源技术介绍
        4.4.4 子系统序列
        4.4.5 详细实现
    4.5 索引子系统实现
        4.5.1 子系统简介
        4.5.2 相关开源技术介绍
        4.5.3 索引建立
        4.5.4 增量索引与索引删除
        4.5.5 详细实现
    4.6 用户查询模式实现
        4.6.1 子系统简介
        4.6.2 链接分析与PageRank算法
        4.6.3 基于PangRank改造的无链接排序
        4.6.4 综合索引分值和无链接文档排序分值
        4.6.5 搜索结果预览与下载
        4.6.6 子系统流程
        4.6.7 详细实现
    4.7 本章小结
第五章 系统测试
    5.1 Loadrunner简介
    5.2 性能测试
    5.3 本章小结
第六章 总结与展望
    6.1 本文主要成果
    6.2 下一步工作
    6.3 本章小结
参考文献
致谢



本文编号:3850447

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3850447.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户73391***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]