基于分布式计算的关联规则挖掘算法研究与应用

发布时间:2023-11-17 18:11
  数据挖掘是从大量数据中通过算法挖掘出有利于决策的信息的过程,关联规则挖掘作为数据挖掘的一个有效方法,能便捷地从数据中提取有用的知识。但是,传统的关联规则挖掘方法在处理至少数百万的大数据时挖掘速度较慢,且容易挖掘到冗余的关联规则。而且,传统方法在处理增量式数据时存在历史数据重复挖掘、规则挖掘准确率不高的问题。针对以上问题,本文基于分布式计算的思想,分别在针对关联规则的去冗余方面和对大数据的关联规则挖掘的速度优化方面进行了研究和探索,并且研究了一种增量关联规则挖掘算法,最后将算法应用到在线零售上为上层决策者提供有用的信息。本文主要工作如下:1.构建了一种基于分布式计算的较优关联规则挖掘算法。针对现有方法在大数据环境下挖掘速度较慢且挖掘到的关联规则存在大量冗余的问题,基于分布式计算将数据分为多个部分,采用针对不同项集长度的频繁项集挖掘方法从各个部分挖掘局部频繁项集并进行整合;然后结合深度优先搜索从最大频繁项集出发,根据提升度计算项集质量,根据相对质量大小去除冗余项集;最后仅对剩下的项集进行挖掘并生成相应的关联规则,而不是根据置信度生成规则。该方法减少了对冗余频繁项集的挖掘而产生的计算资源的浪...

【文章页数】:71 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
注释表
第1章 引言
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 关联规则挖掘算法
        1.2.2 分布式计算相关算法
    1.3 存在的主要问题
    1.4 研究内容及技术路线
        1.4.1 主要研究内容
        1.4.2 技术路线
    1.5 论文组织结构
第2章 相关理论基础
    2.1 关联规则挖掘基础
    2.2 关联规则挖掘算法
        2.2.1 Apriori算法
        2.2.2 FP-Growth算法
    2.3 分布式计算模型
    2.4 本章小结
第3章 基于分布式计算的关联规则挖掘算法
    3.1 最大频繁项集挖掘算法
        3.1.1 整体框架设计
        3.1.2 算法分析
    3.2 基于分布式计算的关联规则挖掘算法优化
        3.2.1 整体框架设计
        3.2.2 算法详细描述
        3.2.3 时间复杂度分析
    3.3 实验设计与结果分析
        3.3.1 实验环境和数据集
        3.3.2 运行时间对比
        3.3.3 关联规则质量对比
    3.4 本章小结
第4章 增量关联规则挖掘算法
    4.1 并行增量频繁项集挖掘算法
        4.1.1 整体框架设计
        4.1.2 算法分析
    4.2 基于分布式计算的增量关联规则挖掘算法优化
        4.2.1 整体框架设计
        4.2.2 算法详细设计
    4.3 实验设计与结果分析
        4.3.1 实验环境及数据集
        4.3.2 速度提升对比
        4.3.3 频繁项集准确率对比
    4.4 本章小结
第5章 基于关联规则挖掘的在线零售应用
    5.1 在线零售的应用背景
    5.2 应用实例
        5.2.1 基于MR-IARM算法的在线零售决策过程
        5.2.2 结果分析
    5.3 本章小结
第6章 总结与展望
    6.1 研究工作总结与创新
    6.2 未来研究展望
参考文献
致谢
攻读硕士学位期间从事的科研工作及取得的成果



本文编号:3864631

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3864631.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户ffeed***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]