当前位置:主页 > 科技论文 > 软件论文 >

符号数据聚类算法研究及应用

发布时间:2024-03-19 05:32
  聚类分析作为数据挖掘的一个重要方法,被广泛应用在模式识别、Web搜索、图像处理等领域。迄今为止,大多数聚类算法针对数值型数据,然而现实世界中,存在着大量的符号数据,包括结构化的符号属性(类属型)数据和非结构化的符号序列数据。由于符号数据离散取值的特点,无法直接将现有的数值型数据聚类算法应用到符号数据。因此,符号数据的聚类算法研究成为一个非常重要的研究内容,对完善数据挖掘理论以及拓展聚类的应用都有着重要的意义。本文对符号数据聚类分析中的若干问题进行了研究,包括挖掘类属型数据间非线性关系的核子空间聚类算法、符号序列数据的聚类算法以及针对符号序列中噪声数据和类不平衡数据(非均匀数据)的鲁棒概率框架。本文的主要研究工作有:1.针对目前类属型数据聚类算法大多基于特征间相互独立的假设,未考虑属性间存在的线性或非线性相关性关系,提出了类属型数据核子空间聚类算法。该算法引入原作用于连续型数据的核函数将类属型数据投影到核空间,定义了核空间中特征加权的类属型数据相似性度量;基于该度量推导了类属型数据核子空间聚类目标函数,提出一种高效求解该目标函数的优化方法并定义了一种类属型数据核子空间聚类算法,该算法不仅...

【文章页数】:67 页

【学位级别】:硕士

【部分图文】:

图1-1聚类过程??

图1-1聚类过程??

数据集划分成不同的??簇获得数据中隐藏的有价值信息。数据集可符号化为彻ixm,你}其中iV为??样本数目。1=<11,12,...而....,功>表示任意一个样本,第/(7'=1,2,...,?'/)个样本的第7维属??性(/=1,2,...刀)为^。在硬聚类算法中,2)5通常被....


图2-1不同0值下属性权重的分析??2.4.2聚絲效性指标??

图2-1不同0值下属性权重的分析??2.4.2聚絲效性指标??

?第二章类属型数据核子空间聚类算法???法是收敛的。??2.4.1关于参数设的讨论??在KSCC聚类过程中,通过核函数直接度量数据间的相似性,在核空间中每个??属性都被自动赋予一个衡量其重要程度的权值,通过特征选择寻找到相应的子空间。??根据公式(9),簇to中属性^的权值计算为....


图2-4原空间中样本分布

图2-4原空间中样本分布

,由于DataSetl中只有两个属性相关,所以除KKM[35]2外,??其余算法聚类质量相差不大,KSCC相比KKM[35]由于进行特征选择识别出重要的属??性3与属性4,聚类结果明显较好;从DataSet2和DataSet3中可以看出,随着属性??相关的数目增多,KSCC的聚类....


图2 ̄8不同算法在Breastcancer上独立运行的F-Score指标对比??所提算法以及对比算法分别在真实数据集上运行200次花费的平均时间如图2-??

图2 ̄8不同算法在Breastcancer上独立运行的F-Score指标对比??所提算法以及对比算法分别在真实数据集上运行200次花费的平均时间如图2-??

?福建师范大学硕士学位论文???予它们较大的权重,进一步的说明了核子空间聚类的优势。??以Breastcancer为例,图2-8给出了各类算法运行100次的聚类精度分布,横坐??标代表各算法运行的次数,纵坐标是以F-Score指标衡量每次聚类获得的聚类结果。??如图2-8所示,K....



本文编号:3932401

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3932401.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户be4a0***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]