基于全文检索的快速查询系统研究与实现

发布时间：2024-02-22 18:40

　　信息化正在渗透着各行各业，越来越多的非结构化信息不断出现，而如今海量数据快速检索查询问题已经非常突出。从1990年由蒙特利尔大学学生AlanEmtage发明Arechie开始，搜索引擎的发展日新月异。当时World Wide Web还未出现，Arechie的搜索是通过遍历FTP网站文件程序，帮助使用者定位到该信息对应的FTP地址和可下载文件，当时的Arechie还不是真正意义的搜索引擎，后来随着互联网的快速发展，信息按几何式增长，搜索引擎开始快速发展起来。早期的搜索引擎分为目录式搜索和全文式搜索两类，搜索整理信息都是通过人工方式和半自动方式，以反馈结果的数量来衡量检索结果的好坏，并且检索结果相关性较差，资料更新缓慢。随着网络信息的日益增长，以人工分类整理的搜索引擎已经不能满足用户搜索信息的要求。第二代搜索引擎开始繁荣发展，搜索引擎依靠机器抓取，建立在超链分析基础之上，提高了查准率、查全率和检索速度。全文检索是计算机程序通过扫描文章中的每一个关键字，对每一个关键字建议一个索引，指明该字在文章中出现的次数和位置，当用户查询时根据建立的索引查找，类似于通过字典的检索字表查字的过程；普通的...

【文章页数】：70 页

【学位级别】：硕士

【部分图文】：

图2-1全文检索架构图

把检索器检索的结果根据处理器的分词算法和排序规则对结果进行排序，把排序后的结果返回给用户，如图2-1。图2-1全文检索架构图2.1.1.1爬虫器爬虫器是俗称的蜘蛛程序(Spider)，最早是因为互联网网站繁琐杂乱，用户搜索所需的资料非常困难，蜘蛛程序自动把互联网上网站信....

图2-2递归分词算法流程图

图2-2递归分词算法流程图建立词表，根据建立的词表来查找计算。1)初始化，取短语D12)如果D1不为空，取D1的前M个字放入W3)查找词表，如果W在词表中，将w放入D2中，短语D1=D1-W；如果W不在词表中，则去掉W的最后一个字4)....

图2-3递归分词算法对比图

分词的准确性不高，虽然可以通过递归循环词库的方式来解决，但是词库里的词语也非绝对完善。如图2-3所示。图2-3递归分词算法对比图比如说字符串处理机器发生的故障，在切分过程中可能会出现被切分为：处理机、器、发生、故障，但是使用逆向的方法却可以得到有效的切分。可见递归分词算....

图2-4倒排索引表的建立流程

第二章全文检索相关技术研究[16]。倒排索引分为两个部分。（1）第1个部分：由不同索引词（indexterm）组成的索引表，称为"词典（lexicon）[17]。其中保存了各种中文词汇，以及这些词汇的一些统计信息（例如出现频率nDocs），这些统计信息用于各种排名算法（....

本文编号：3907088

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3907088.html

上一篇：具有尺度和旋转适应性的长时间目标跟踪
下一篇：“美的”百度品牌专区网络推广研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|