非独立同分布下K均值算法的改进及在球员数据分析中的应用研究

发布时间：2024-02-04 01:07

　　互联网时代的到来必将产生大量的数据,数据挖掘则是从这些数据中用非平凡的方法来发现有价值的信息,聚类分析作为这些非平凡的方法之一,是数据挖掘中的一个重要研究领域。在聚类分析的相关算法中,K均值算法是其中的经典算法之一,其简单、高效,但也存在一些缺陷,例如随机选取聚类中心点容易导致聚类结果不稳定,并且会受到一些离群点的影响,使得聚类结果往往只是局部最优。此外,传统K均值算法及目前对其改进的算法都是在独立同分布下进行的。然而真实世界的数据往往是非独立同分布的(Non-Independent and Identically Distribution,简写Non-IID),即属性值、属性、对象之间或多或少都会存在一些耦合或交互关系。如果忽略了这类关系,可能会导致数据中的重要信息丢失,从而影响聚类分析的结果。因此本文在Non-IID概念下对K均值算法进行改进,并将优化后的算法应用到NBA球员数据中。本文的主要工作如下:在理论研究方面,主要分为两个部分。第一部分,针对K均值算法随机选取初始聚类中心以及易受离群点影响而导致聚类不稳定的缺陷,提出一种独立同分布下优化K均值算法(Optimized K-m...

【文章页数】：71 页

【学位级别】：硕士

【部分图文】：

图1.1NonIID-OPK算法思想框架

齐鲁工业大学硕士学位论文5有NBA球员信息，其中包括球员个人资料信息（例如身高，体重，年龄，位置，年薪等）以及比赛数据信息（例如得分，篮板，助攻，盖帽，抢断，失误，命中率等）。然后对所爬取的数据进行预处理，清除其中噪声和不一致的数据，并根据分析任务选择出其中较为关键的属性因子。最....

图2.1数据挖掘过程的大体步骤

第2章相关技术综述8一个统一的数据仓库中。第二步是数据的选择与变换，主要是从数据仓库中选择并提取出与挖掘任务相关的数据，并将这些数据通过处理转换或统一成适合挖掘的形式。相关的数据变换方法有平滑、聚集、数据泛化、数据归一化、属性构造等。第三步是进行数据挖掘，主要是根据数据库中的数据....

图2.2聚类算法分类

第2章相关技术综述14基于网格的方法（grid-basedmethods）：该方法多用来处理大数据集，其主要思想是将大数据集中的数据对象进行划分，分割成一个个单元格的形式，然后再组合成网格结构，之后的分析操作都在这个已经构建好的网格结构上执行。所以这类方法在处理大量复杂的数据时，....

图2.3Non-IID和IID距离计算

?选择。因为本文主要针对数值型数据进行研究，所以选择欧几里得距离计算公式作为相似性度量公式，但是在相似性度量的计算上，Non-IID环境下和传统独立同分布环境下并不相同，其区别大体如图2.3所示，如果想要计算中心点O到对象3之间的距离3，可以看出在传统独立同分布环境下，1、2、3....

本文编号：3894944

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3894944.html

上一篇：基于PCA的纸张双面缺陷辨识系统研究
下一篇：结合特征优化与负样本采样的事件检测方法研究