基于不平衡数据的血栓风险预测算法研究

发布时间:2023-08-05 20:20
  骨科术后静脉血栓栓塞症是患者手术期死亡的主要原因之一,病人发病期一般无临床表现,血栓通过阻塞脏器动脉造成死亡。在美国近25%的VTE患者入院,10%的住院患者死亡与肺栓塞有关。我国自2007至2016,VTE的发生率也从3.2/10万人上升至17.5/10万人,对骨科术后血栓风险预测分析在临床研究中起着重要的作用。但临床中患病人数比例极低,存在严重的数据不平衡现象。在机器学习的实际应用中,还有许多数据集是不平衡的,并且很多时候少数类数据更重要,将其错分要付出更大的代价,如金融欺诈检测、故障检测、垃圾邮件判别等。因此,以全部数据预测准确率为学习目标的传统分类算法并不适用于不平衡数据的分类,对提高不平衡数据的分类效果有着重要的研究意义。当前对于不平衡数据分类问题主要从两个方面解决,一个是数据重采样,另一方面是对分类算法的改进。基于以上背景,本文通过对真实数据集的预处理、改进重采样算法、将代价敏感函数与集成学习算法结合三个方面,解决骨科术后不平衡数据的分类问题。本文主要工作如下:(1)本论文所研究的数据来源于中国人民解放军总医院(301医院)骨科,数据具有真实性,在医院对病人数据录入中,无法...

【文章页数】:64 页

【学位级别】:硕士

【文章目录】:
摘要
ABSTRACT
第1章 绪论
    1.1 课题研究背景与意义
    1.2 研究现状
        1.2.1 采样算法研究现状
        1.2.2 不平衡数据分类算法的研究现状
    1.3 本文研究内容与工作安排
    1.4 本章小结
第2章 理论基础
    2.1 采样算法
        2.1.1 欠采样算法
        2.1.2 过采样算法
    2.2 分类算法
        2.2.1 逻辑回归算法
        2.2.2 决策树算法
            2.2.2.1 C4.5决策树
            2.2.2.2 CART决策树
    2.3 集成学习
        2.3.1 集成学习概述
        2.3.2 bagging
        2.3.3 boosting
    2.4 不平衡数据分类器性能评价指标
    2.5 本章小结
第3章 骨科术后血栓数据集
    3.1 数据集描述
    3.2 数据集预处理
    3.3 本章小结
第4章 基于孤立森林的自适应合成采样算法(i F-ADASYN)
    4.1 孤立森林算法
    4.2 异常点对ADASYN采样算法的影响
    4.3 IF-ADASYN算法
        4.3.1 IF-ADASYN算法离群点权重的确定
        4.3.2 IF-ADASYN算法的具体步骤
    4.4 实验设计及结果分析
        4.4.1 实验环境
        4.4.2 实验设置与数据集
        4.4.3 实验设计及结果分析
    4.5 本章小结
第5章 基于代价敏感的梯度提升树算法(CO-GBDT)
    5.1 代价敏感学习
        5.1.1 代价敏感学习简介
        5.1.2 代价敏感学习的分类
    5.2 GBDT算法概述
    5.3 基于代价敏感学习的梯度提升树算法概述
        5.3.1 Bayes最优分类
        5.3.2 基于代价敏感学习的损失函数
        5.3.3 基于代价敏感学习的梯度提升树算法(CO-GBDT)
    5.4 实验设计及结果分析
        5.4.1 实验环境与实验数据集
        5.4.2 实验设置
        5.4.3 实验结果及分析
    5.5 本章小结
第6章 总结与展望
    6.1 全文总结
    6.2 未来展望
参考文献
攻读学位期间取得的研究成果
致谢



本文编号:3839269

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3839269.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户acbcf***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]