基于过采样的不平衡数据集成分类算法研究

发布时间:2024-04-26 05:36
  不平衡数据分类问题广泛存在于不同的领域中,而不平衡数据分布固有的复杂性会显著降低分类器的分类性能,因此如何提高分类器在不平衡数据中的分类性能值得我们不断研究。传统分类算法在处理不平衡数据分类问题时,难以获得理想的分类效果。在数据处理层面上,Synthetic Minority Oversampling Technique(SMOTE)是一种优秀的重采样算法,但在某些情况下该算法合成新的样本是盲目的,并不能根据样本的分布情况合成样本,这会严重降低分类器的分类效果。因此本文对SMOTE过采样算法进行改进,提出一种基于聚类的过采样算法。在分类算法层面上,集成分类是一种可以有效提升分类器分类效果的算法。基分类器的多样性和集成策略是影响集成分类效果的关键因素,因此本文在所提过采样算法的基础上将Adaptive Boosting(AdaBoost)算法和Support Vector Machine(SVM)算法进行结合,分别对基分类器和集成策略进行改进,提出了一种非对称成本敏感的集成分类算法。1.基于聚类的过采样算法。该算法对少数类样本进行聚类得到不同规模且不同密度的少数类集群,在稀疏度大的集群中...

【文章页数】:79 页

【学位级别】:硕士

【部分图文】:

图3.3各数据集TPR、AUC、F-measure和G-mean值随着β的变化

图3.3各数据集TPR、AUC、F-measure和G-mean值随着β的变化

图3.3各数据集TPR、AUC、F-measure和G-mean值随着β的变化由图3.3(a)可以看出来,过采样模型随着参数β的增大,TPR值逐渐变大数据集Prima在过采样率值为1时,出现轻微的下滑;其它数据集在过采样率值取1时,TPR值达....


图3.5不同数据集下各过采样算法的G-mean值

图3.5不同数据集下各过采样算法的G-mean值

采样算法在不同数据集下与其他算法的G-mean值对比表3.3各过采样算法在不同数据集下的G-mean值CarGlassSatVehicleSMOTE92.5569.0872.0872.39-SMOTE92.6372.5575.5574.70DA....


图4.3不同数据集下各分类算法的G-mean值

图4.3不同数据集下各分类算法的G-mean值

在数据集Vehicle、Abalone中得到明显提高;在不是特别明显;在数据集Sat上的值略低于AdaBoost.M1在数据集Segment上的值略低于PCBoost算法,高于其他分类算法SDPDBoost在不同数据集下与其他分类算法上如表4.3所示。表....



本文编号:3964785

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3964785.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户0bef6***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]