当前位置:主页 > 科技论文 > 搜索引擎论文 >

基于Agent的分布式元搜索引擎架构研究与实现

发布时间:2024-04-16 21:56
  现有的搜索引擎在查全率和查准率方面很难满足用户的要求,为了查询到一个相关的内容,用户常常需要使用多个搜索引擎查询相同的内容,然后综合出最适合自己的结果。元搜索引擎通过调用多个成员搜索引擎来进行搜索,因此可以很好地解决上述问题。 Web数据提取技术是元搜索引擎的核心,如何准确、高效地从Web页面中提取内容对于一个元搜索引擎来说至关重要。作者对开源的Web数据提取工具Web-Harvest进行了深入的研究,并在此基础上进行了二次开发,摒弃了以前的通过写配置文件(页面抽取规则)进行页面抽取的方式,改用API的方式重新封装了Web-Harvest的几个关键部分。这种方式不但提高了程序提取页面数据的效率,同时提高了程序开发人员的开发效率。 智能Agent是人工智能领域发展起来的一个概念,它所特有的自主性、社会性、反应性和能动性可以大大提高系统的灵活性和智能性。作者将Agent技术应用于所构建的信息采集系统,通过实践证明,可以将整个信息采集任务分散到各个Agent上并发运行,这样可以极大提高信息采集的效率。 元搜索引擎可以帮助用户整合来自不同搜索引擎的搜索结果,最关键的是重新给出相关度,按新的相关...

【文章页数】:57 页

【学位级别】:硕士

【部分图文】:

图2一1元搜索引擎体系结构

图2一1元搜索引擎体系结构

进行控制[16]。2.2元搜索引擎的体系结构元搜索引擎的体系结构一般如图2一1所示,由检索请求处理模块、检索接口代理模块、结果显示模块3部分组成。


图3一1Web数据提取流程图

图3一1Web数据提取流程图

3.1Web数据提取的流程与方法W亡b数据提取,就是指从网页中提取到我们所需要的信息,然后将其存储到本地。其流程如图3一1所示:抓抓取网页页提取有用信息存储到本地图3一1Web数据提取流程图3.1.1抓取网页抓取网页的过程和我们平时使用IE浏览器打开网页的过程是一样的。例如,当....


图3一2使用IE浏览器打开网页这个过程具体是这样的:浏览器作为一个客户端,向服务器端发送请求,把服务器端的文件抓取到本地,并按一定的规则进行解释和展现,就出现了我们平

图3一2使用IE浏览器打开网页这个过程具体是这样的:浏览器作为一个客户端,向服务器端发送请求,把服务器端的文件抓取到本地,并按一定的规则进行解释和展现,就出现了我们平

服务器端的文件抓取到本地,并按一定的规则进行解释和展现,就出现了我们平时所看到的网页。如果我们在浏览器端选择查看源文件命令,就会看到从服务器端抓取到的文件源代码,如图3一3所示。翼万万图3一3网页源代码1)Java语盲‘中抓取网页的方法Java语一言作为基于网络的编程语言,它把....


图33网页源代码

图33网页源代码

缪新良首页一W;ndowsInternotExpI0rer馨台,{登抄一加~;na·二一厂一’吁{豁!鬓孙夕篇收藏夹神登新浪着页毅建汉滩兹甲毅瘫页抉魏幸,L23日盆网兮,睽,澡嘛直播预告:稍巷~·页面(P)甲安全(s),工具(O},雄您好,:hang-p二迭择去向,修改密码安全退....



本文编号:3956740

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3956740.html

上一篇:一种基于DBN的入侵检测误报消除算法  
下一篇:没有了

Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户48ffd***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]