代谢组学数据清洗中的缺失值处理和变量分类方法

发布时间：2024-02-22 20:39

　　数据清洗是代谢组学进行数据分析之前的重要步骤,合理的数据清洗步骤可以让后续的数据分析工作更完善更有效的进行。在本文中就数据清洗中的缺失值处理和变量分类两个问题提出了新的方法:1.深入探讨了质谱数据中的缺失值模式,并提出了一种新的方法来生成模拟的质谱缺失数据集,相对现有的生成方法更加简单快捷,也更加贴合现实;提出了一种新的缺失值填补方法:在KNN过程中利用了分组信息以及左截断正态分布的特点,首先填补非随机缺失,接着使用自适应KNN来进行填补。在模拟代谢组学分析结果中说明,使用此经过改进的KNN方法可以有效的完成缺失值填补,同时也有助于后续的分析。2.提出了一种新的变量分类方法:D-C方法,这一变量分类方法主要从两个方向出发完成变量分类:自变量与因变量的相关性,变量之间的相关性。将变量分为三类:独特变量、共性变量和冗余变量。D-C方法主要使用Diffreg方法和CMELR-CSIS方法、主成分分析、相关性分析来完成变量分类工作。同时将此变量分类方法应用于多源数据数据处理的数据清洗步骤,可以有效地处理高维数据。通过模拟数据和实际数据检验证明使用此方法有助于后续的建模等程序。在基于质谱的代谢组...

【文章页数】：76 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
第一章绪论
    1.1 代谢组学简述
    1.2 代谢组学数据清洗
        1.2.1 缺失值填补
        1.2.2 多源数据融合
    1.3 论文结构
    参考文献
第二章缺失值处理方法研究
    2.1 引言
    2.2 缺失值的研究进展
    2.3 缺失值的数据模拟方法
    2.4 缺失值填补KNN方法
    2.5 改进的KNN方法
    2.6 数值分析
    2.7 本章小结
    参考文献
第三章基于变量分类的多源数据融合
    3.1 引言
    3.2 多源数据融合的研究进展
    3.3 基于变量分类的数据融合
        3.3.1 diffreg检验
        3.3.2 CMELR-CSIS方法
        3.3.3 D-C方法
    3.4 模拟数据实验
    3.5 真实代谢组学数据实验
    3.6 本章小结
    参考文献
第四章代谢物数据管理系统实现
    4.1 引言
    4.2 系统的框架设计
    4.3 数据库表单设计
        4.3.1 菌株信息表
        4.3.2 粗提物信息表
        4.3.3 化合物信息表
        4.3.4 送测信息表
    4.4 功能模块设计
        4.4.1 用户控制部分
        4.4.2 数据库操作部分
    4.5 系统实现
    4.6 本章小结
第五章总结与展望
    5.1 论文总结
    5.2 研究展望
攻读硕士期间的研究成果
致谢

本文编号：3907232

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/kejilunwen/ruanjiangongchenglunwen/3907232.html

上一篇：基于容器的Android系统级别漏洞修复技术研究
下一篇：没有了