基于粒计算的关联关系挖掘研究

发布时间:2023-04-02 16:43
  随着信息技术的飞速发展,科学和工业等各个领域积累了海量的数据。海量数据中存在着丰富的关联关系结构,识别和筛选有价值的关联关系是大数据复杂关联关系挖掘的重要任务之一。复杂关联关系挖掘广泛应用到机器学习和数据挖掘任务中,其发展深刻影响着相关领域的进展。然而,海量数据集中数据类型的复杂多样性、数据分布的不确定性、关联关系复杂多样性、多种关联关系共存性及伪相关关系存在性等特点,使得统计学意义下的关联关系挖掘方法面临诸多挑战。基于消减误差比例原理设计的关联关系度量,倾向于识别线性关联关系,对较复杂关联关系的识别需要依赖变换函数的选择。基于统计独立性检验设计的关联关系度量,严重依赖于联合分布函数和边际分布函数的估计方法,不同的估计方法或同种方法的不同参数设置都会产生不同的估计结果,在数据联合分布不存在时甚至无法计算。使用这些方法进行复杂关联关系挖掘,它们自身的缺陷和复杂性会不同程度地影响识别任务的准确性,增加任务难度。因此,亟待发展基于数据驱动的、不依赖数据分布、不依赖参数选择、不受关联关系形式影响且简单有效的复杂关联关系度量新范式。粒计算越来越成为人工智能、信息处理、数据挖掘和知识发现领域处理复...

【文章页数】:149 页

【学位级别】:博士

【文章目录】:
中文摘要
ABSTRACT
第一章 绪论
    1.1 研究背景和意义
        1.1.1 关联关系挖掘的基础性
        1.1.2 关联关系挖掘的必要性
        1.1.3 关联关系挖掘的紧迫性
        1.1.4 关联关系度量面临的挑战
    1.2 国内外研究现状
        1.2.1 统计意义下的关联关系度量及其进展
        1.2.2 粒计算有望推动复杂关联关系挖掘研究进展
    1.3 研究思路和创新
    1.4 研究内容和组织结构
第二章 统计学意义下的关联关系度量与挑战分析
    2.1 基于PRE原理的关联关系度量
        2.1.1 二元变量间关联关系度量
        2.1.2 多元变量间关联关系度量
        2.1.3 方法的挑战分析
    2.2 基于独立性检验的关联关系度量
        2.2.1 基于分布函教的关联关系度量
        2.2.2 基于概率密度函数的关联关系度量
        2.2.3 基于特征函数的关联关系度量
        2.2.4 方法的挑战分析
    2.3 大数据背景下关联关系度量可能需满足的性质
    2.4 本章小结
第三章 粒结构的有效性和代表性分析
    3.1 问题描述
    3.2 粒结构知识表示
    3.3 粒结构间的差异
    3.4 粒结构分组算法
    3.5 粒结构分组算法的性能评估
        3.5.1 分散度
        3.5.2 近似度
    3.6 实验结果分析
        3.6.1 收敛性分析
        3.6.2 有效性分析
        3.6.3 可扩展性分析
    3.7 本章小结
第四章 多元变量间关联关系挖掘
    4.1 基于k-NN粒的关联度量方法
        4.1.1 邻域互信息
        4.1.2 最大邻域系数MNC
        4.1.3 MNC的相关性质
    4.2 基于邻域视角的相关方法
        4.2.1 基于k-NN统计量的方法
        4.2.2 基于k-NN图的方法
    4.3 实验分析
        4.3.1 参数有效性分析
        4.3.2 模拟数据实验分析
        4.3.3 真实数据实验分析
    4.4 本章小结
第五章 二元变量关联关系的非参数方法
    5.1 MNC的原理展示
    5.2 基于最大邻域信息的非参数探索统计量
        5.2.1 单调性程度
        5.2.2 接近函数关系的程度
        5.2.3 复杂度
    5.3 实验分析
        5.3.1 在WHO数据集中的应用
        5.3.2 在基因表达数据中的应用
    5.4 本章小结
第六章 多元变量内关联关系挖掘
    6.1 前期工作
        6.1.1 全关联
        6.1.2 最大全关联系数
    6.2 基于k-NN粒的最大全关联系数
        6.2.1 邻域全关联
        6.2.2 计算MNA
    6.3 实验分析
        6.3.1 统计意义下的多元变量内关联度量
        6.3.2 维度偏差分析
        6.3.3 统计功效分析
        6.3.4 真实数据实验分析
    6.4 本章小结
第七章 关联度量在聚类分析中的应用
    7.1 问题描述
    7.2 模糊C-均值算法
    7.3 多样性诱导的模糊C-均值算法
        7.3.1 多样性度量
        7.3.2 所提方法DiFCM
    7.4 分析求解所提目标函数
        7.4.1 时间复杂度分析
        7.4.2 算法收敛性分析
    7.5 实验结果
        7.5.1 比较方法和参数设置
        7.5.2 模拟数据实验分析
        7.5.3 修正后Iris数据实验分析
        7.5.4 真实数据实验分析
        7.5.5 收敛性分析
        7.5.6 敏感性分析
    7.6 本章小结
结论及展望
参考文献
攻读博士学位期间取得的研究成果
致谢
个人简况及联系方式



本文编号:3779573

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/xxkjbs/3779573.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户7c744***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]