基于Agent的分布式元搜索引擎架构研究与实现

发布时间：2024-04-16 21:56

　　现有的搜索引擎在查全率和查准率方面很难满足用户的要求,为了查询到一个相关的内容,用户常常需要使用多个搜索引擎查询相同的内容,然后综合出最适合自己的结果。元搜索引擎通过调用多个成员搜索引擎来进行搜索,因此可以很好地解决上述问题。 Web数据提取技术是元搜索引擎的核心,如何准确、高效地从Web页面中提取内容对于一个元搜索引擎来说至关重要。作者对开源的Web数据提取工具Web-Harvest进行了深入的研究,并在此基础上进行了二次开发,摒弃了以前的通过写配置文件(页面抽取规则)进行页面抽取的方式,改用API的方式重新封装了Web-Harvest的几个关键部分。这种方式不但提高了程序提取页面数据的效率,同时提高了程序开发人员的开发效率。智能Agent是人工智能领域发展起来的一个概念,它所特有的自主性、社会性、反应性和能动性可以大大提高系统的灵活性和智能性。作者将Agent技术应用于所构建的信息采集系统,通过实践证明,可以将整个信息采集任务分散到各个Agent上并发运行,这样可以极大提高信息采集的效率。元搜索引擎可以帮助用户整合来自不同搜索引擎的搜索结果,最关键的是重新给出相关度,按新的相关...

【文章页数】：57 页

【学位级别】：硕士

【部分图文】：

图2一1元搜索引擎体系结构

进行控制[16]。2.2元搜索引擎的体系结构元搜索引擎的体系结构一般如图2一1所示，由检索请求处理模块、检索接口代理模块、结果显示模块3部分组成。

图3一1Web数据提取流程图

3.1Web数据提取的流程与方法W亡b数据提取，就是指从网页中提取到我们所需要的信息，然后将其存储到本地。其流程如图3一1所示:抓抓取网页页提取有用信息存储到本地图3一1Web数据提取流程图3.1.1抓取网页抓取网页的过程和我们平时使用IE浏览器打开网页的过程是一样的。例如，当....

图3一2使用IE浏览器打开网页这个过程具体是这样的:浏览器作为一个客户端，向服务器端发送请求，把服务器端的文件抓取到本地，并按一定的规则进行解释和展现，就出现了我们平

服务器端的文件抓取到本地，并按一定的规则进行解释和展现，就出现了我们平时所看到的网页。如果我们在浏览器端选择查看源文件命令，就会看到从服务器端抓取到的文件源代码，如图3一3所示。翼万万图3一3网页源代码1)Java语盲‘中抓取网页的方法Java语一言作为基于网络的编程语言，它把....

图33网页源代码

缪新良首页一W;ndowsInternotExpI0rer馨台，{登抄一加~;na·二一厂一’吁{豁!鬓孙夕篇收藏夹神登新浪着页毅建汉滩兹甲毅瘫页抉魏幸，L23日盆网兮，睽，澡嘛直播预告:稍巷~·页面(P)甲安全(s)，工具(O}，雄您好，:hang-p二迭择去向，修改密码安全退....

本文编号：3956740

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3956740.html

上一篇：一种基于DBN的入侵检测误报消除算法
下一篇：没有了