一种基于关联规则挖掘的查询扩展算法及应用研究

发布时间：2024-04-02 23:29

　　在当今这个信息爆炸的时代，信息迷失、信息过量已成为许多人在进行查询时面对的问题。而随着互联网使用的普及，搜索引擎作为一种查询工具，已经应用的越来越广泛了。但是，目前大部分搜索引擎的技术是依赖于关键词进行检索，因此常常会返回大量无用信息，致使查询效率低下。因此，如何通过关联规则挖掘，提高扩展查询中的查全率和查准率，已经成为近年来研究的一大热点和难点。关联规则挖掘是数据挖掘中最基本、也是最重要的功能。通过关联规则挖掘发现更多的查询词，从而提高查询扩展的效率，是查询扩展的主要研究方向之一。本文首先对关联规则、关联规则挖掘及查询扩展的相关基础理论进行了梳理；然后着重对关联规则挖掘各个算法进行了深入研究，并对FP-growth算法的性质与优缺点进行了剖析；在此基础上，本文设计了一种基于关联规则挖掘的查询扩展算法，新算法对FP-growth中挖掘频繁模式的方法进行了改进，降低了时间复杂度，并设计了一个基于网页标记信息的查询扩展模型，将新发现的关键词应用到查询扩展中，该模型通过对网页关联度进行量化表示，从而对扩展得到的结果集进行筛选。本算法通过实现关联规则挖掘-扩展查询的循环，在保证了关联规则挖掘...

【文章页数】：70 页

【学位级别】：硕士

【部分图文】：

图1.1本文的技术路线

图1.1本文的技术路线网页数量增加，从而导致系统开销过，并将改进后的挖掘算法应用到其中效率。

图3.1FP-growth算法流程

用函数Fp-growth（βtree,β）；}GROWTH算法的过程的研究，我们可以看出：无论是法都表现出了较强的可伸缩性，同时，由于在算法的之以Apriori为代表的一类算法相比，有了较大程度种数据结构，它初始的根节点为null，分枝由各个项频繁1-项集的项头....

图3.3FP-tree的生成3）将事务数据库中所有的信息成功压缩到一棵FP树上之后，下一步即开始对Fp树的挖掘，具体方法如下：先从频繁1-项集开始挖掘，首先构建其频繁1-项集的条件模式基

树中重新构建一个分枝：<b:1，d:1>。以此类推，当依次扫描完数据库D中的所有事务之后，Fp树的主体部分也就构建完成了。为了在下一步对Fp树进行遍历操作时可方便进行，在图3.2右侧频繁1-项集L的基础上，算法针对表中的各个项目，建立了与各项目相对应的项头表（....

图3.4数据库D的形成

据链表组V{V1，V2，…}，然后，将新事的首项，保存到数据链表组V中的各个数数据库的全部信息都保存在数据链表组Vedbaeebbcdbcbc图3.5数据链表组集中各频繁项的排列顺序，进行倒序遍历示，根据频繁1-项集L，首先将头项为a的数

本文编号：3946362

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/3946362.html

上一篇：区间自适应遗传算法优化无约束非线性规划问题
下一篇：我国医院的网络影响力对比分析

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|