当前位置:主页 > 科技论文 > 软件论文 >

基于混合特征选择算法的肿瘤基因表达谱数据分析

发布时间:2023-05-30 20:11
  随着人类基因组计划的实施和不断深入,产生了海量的生物数据,同时促使了DNA芯片技术的出现。肿瘤基因表达谱数据作为DNA芯片技术的一个产物,是人们研究肿瘤的良好数据来源。而肿瘤基因表达谱数据具有小样本、高维数、高噪声和高冗余的特点,容易导致“维数灾难”和“过拟合”现象的出现,这给数据处理带来了极大的挑战。从原始的特征集中选出最优特征子集的技术(即特征选择)是解决这一挑战的有效途径。但是常规的特征选择算法已远远不能满足需要,因此,更为高效的特征选择算法显得尤为重要。最大相关最小冗余(mRMR)算法的目的是在原始特征集合中找出与类别最相关,而特征间具有最小冗余的特征子集,它是常被用于处理肿瘤基因表达谱数据的特征选择算法之一。但是,当给定的特征集维数较大时,该算法计算起来比较耗时。针对这一缺陷,本文提出改进的mRMR算法,即mRMR-ChiMIC算法。该算法是将mRMR算法中度量相关性和冗余性的互信息(MI)用最大信息系数(MIC)来代替。目前特征选择算法的分类较多,每类算法也都有各自的优缺点。mRMR-ChiMIC算法作为典型的过滤型算法,同大多数过滤法一样往往不能自动确定最优特征子集的大小...

【文章页数】:36 页

【学位级别】:硕士

【文章目录】:
摘要
abstract
第一章 绪论
    1.1 研究背景与意义
    1.2 国内外研究现状
    1.3 本文研究的主要内容
    1.4 论文章节安排
第二章 理论基础
    2.1 互信息的相关理论
    2.2 基因表达谱数据简介
    2.3 特征选择
    2.4 肿瘤分类算法
        2.4.1 支持向量机
        2.4.2 K近邻分类器
    2.5 本章小结
第三章 肿瘤基因表达谱数据分析
    3.1 基于mRMR的特征选择算法
        3.1.1 mRMR算法
        3.1.2 改进的mRMR特征选择算法
    3.2 Boruta算法
    3.3 混合特征选择算法
    3.4 实验与分析
        3.4.1 实验数据集
        3.4.2 实验参数设置
        3.4.3 实验结果与分析
    3.5 本章小结
第四章 结论与展望
参考文献
致谢



本文编号:3824957

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3824957.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户f5318***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]