基于网络生物标志物的特征选择算法及其在癌症检测上的应用

发布时间:2023-09-03 17:09
  伴随着高通量数据存储技术的发展,以及在生物信息领域各种测序技术的成熟,生物信息数据的维度呈爆炸式增长。如何从海量的数据中挖掘有效的信息,是生物信息以及数据挖掘领域的热门问题。人类的基因表达谱数据中包含着反映疾病产生原因的重要信息,而人体内基因数量极多,如果能够从众多基因中挖掘和相关疾病相关的生物标志物,不单单可以推动这类疾病的相关研究,还可以帮助临床更好的治疗该种疾病。而在基因表达谱数据集中,与某种病变相关的基因往往在正常样本与患病样本中具备差异性,因此找到这些基因后,可以使用机器学习算法进行分类,从而实现疾病的检测和预测。生物信息学领域认为,功能相似的基因往往协同进行工作,可以视为一个整体看待。同时,这些基因在基因表达谱上存在数值上的相关性,彼此相关的基因便是网络生物标志物。本文基于网络生物标志物的理论基础,使用余弦相似度来描述基因之间的相关性,构造网络生物标志物,同时,本文结合嵌入式特征选择算法以及序列化特征选择策略,以机器学习模型的分类性能作为主要评价指标,设计了一种特征选择算法。该算法可以极大降低数据的特征维度,从海量基因中选择基因子集,有效的实现对疾病的检测。同时,本文整体对...

【文章页数】:48 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第1章 绪论
    1.1 研究背景和意义
    1.2 国内外研究现状
        1.2.1 特征选择的研究现状
        1.2.2 网络生物标志物的研究现状
    1.3 本文的工作和创新
第2章 相关背景知识
    2.1 数据预处理
        2.1.1 缺失值的处理
        2.1.2 离群值的处理
        2.1.3 无量纲化
    2.2 特征工程
        2.2.1 特征提取
        2.2.2 特征选择
    2.3 分类算法
        2.3.1 决策树
        2.3.2 逻辑回归
        2.3.3 集成学习
    2.4 性能评估
    2.5 类别不平衡
        2.5.1 类别不平衡及其危害
        2.5.2 采样
第3章 基于网络生物标志物的特征选择算法
    3.1 网络生物标志物
    3.2 数据简介
    3.3 cosEdge算法流程
        3.3.1 数据预处理
        3.3.2 过采样
        3.3.3 降维
        3.3.4 构建cosEdge
        3.3.5 获取特征子集
    3.4 结果预测
第4章 结果分析和讨论
    4.1 实验环境设置
    4.2 结果分析
        4.2.1 不同网络生物标志物的对比
        4.2.2 不同特征选择算法的对比
第5章 总结和展望
    5.1 工作总结
    5.2 工作展望
参考文献
作者简介
致谢



本文编号:3845439

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3845439.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户ecfa1***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]