当前位置:主页 > 医学论文 > 医卫管理论文 >

分布式并行机器学习算法及其生物医学应用

发布时间:2024-03-12 00:39
  随着互联网、物联网、传感器网络等信息技术的迅猛发展,各个应用领域的数据呈爆炸性增长。在大数据时代,如何高效准确地从大规模数据集中获取有价值的知识已引起学术界和工业界的日益关注。迫切需要高效的机器学习和数据挖掘技术对海量数据进行分析和处理。同时,并行计算、高性能计算和分布式计算等丰富的计算资源为大规模机器学习算法研究提供强有力的计算平台。本文围绕分布式并行机器学习算法研究工作展开,具体包括并行分类算法、聚类算法、图挖掘算法和深度学习算法。在此基础上,针对爆炸式增长的医学和生物信息学大数据,将所提出算法应用在医疗、生物医学和生物信息学领域,为医学诊断提供科学依据并探索生命现象和生物活动规律。本文的主要工作和创新点如下:(1)研究了分布式并行分类算法及其在医院智能导诊领域的应用。提出一种基于Apache Spark云计算平台的并行随机森林(PRF)分类算法。分别从数据并行和任务并行两个角度对PRF算法进行分布式并行设计。在数据并行方面,提出垂直数据划分和数据复用方法以有效降低分布式计算节点之间的数据通信成本。在任务并行方面,提出一种双层并行训练方法,分别在随机森林模型中的决策树层面和各棵树的...

【文章页数】:181 页

【学位级别】:博士

【文章目录】:
摘要
Abstract
第1章 绪论
    1.1 研究背景及意义
    1.2 国内外研究现状
        1.2.1 机器学习算法
        1.2.2 分布式计算与云计算
        1.2.3 医学与生物信息学应用
    1.3 面临的挑战
    1.4 研究目标和研究内容
        1.4.1 研究目标
        1.4.2 研究内容
    1.5 本文组织结构
第2章 相关理论
    2.1 机器学习算法
        2.1.1 随机森林分类算法
        2.1.2 密度峰值聚类算法
        2.1.3 卷积神经网络算法
        2.1.4 社区发现算法
    2.2 分布式计算与云计算技术
        2.2.1 分布式并行计算技术
        2.2.2 云计算技术
    2.3 医学数据预处理技术
        2.3.1 医院就诊数据预处理
        2.3.2 疾病诊断与治疗数据预处理
    2.4 本章小结
第3章 并行随机森林算法及医院智能导诊应用
    3.1 引言
    3.2 随机森林算法优化
        3.2.1 训练过程的高维数据降维方法
        3.2.2 预测过程的加权预测方法
    3.3 分布式并行随机森林算法
        3.3.1 数据并行策略
        3.3.2 任务并行策略
    3.4 医院智能导诊应用
        3.4.1 患者就诊时间预测(PTTP)模型
        3.4.2 基于PTTP模型的医院候诊推荐系统
    3.5 实验及应用
        3.5.1 公共数据集上的实验结果
        3.5.2 医院智能导诊应用结果分析
    3.6 本章小节
第4章 自适应域密度峰值聚类算法及疾病诊疗推荐应用
    4.1 引言
    4.2 自适应域密度峰值聚类(ADDC)算法
        4.2.1 聚类决策参数测量
        4.2.2 簇自合并方法
    4.3 疾病诊断和治疗推荐系统
        4.3.1 基于ADDC的疾病症状聚类
        4.3.2 疾病诊断和治疗方案推荐
    4.4 疾病诊疗推荐系统的并行解决方案
        4.4.1 疾病症状的并行聚类过程
        4.4.2 疾病治疗方案的并行分析过程
    4.5 实验与应用分析
        4.5.1 实验设置
        4.5.2 合成数据集上的聚类结果分析
        4.5.3 大规模数据集的聚类效果评估
        4.5.4 疾病诊断与治疗推荐应用分析
        4.5.5 性能评估
    4.6 本章小结
第5章 并行深度学习算法及结肠癌细胞核检测应用
    5.1 引言
    5.2 CNN双层并行训练架构
        5.2.1 CNN双层并行训练架构
        5.2.2 外层并行训练
        5.2.3 内层并行训练
    5.3 结肠癌细胞核检测应用
        5.3.1 CNN训练网络模型
        5.3.2 细胞核检测
        5.3.3 细胞核分类
    5.4 实验评估与分析
        5.4.1 实验设置
        5.4.2 算法性能评估
        5.4.3 结肠癌细胞核检测结果分析
    5.5 本章小结
第6章 大规模PPI网络的蛋白质群落并行检测算法
    6.1 引言
    6.2 基于多源学习的蛋白质群落检测算法
        6.2.1 MLPCD算法流程
        6.2.2 基于基因表达数据的加权PPI网络构建
        6.2.3 基于多源学习的蛋白质群落检测算法
    6.3 基于分布式计算的并行MLPCD算法
        6.3.1 WPPI网络并行构建
        6.3.2 MLPCD并行算法
    6.4 实验评估与分析
        6.4.1 实验设置
        6.4.2 蛋白质复合物检测与分析
        6.4.3 蛋白质功能模块检测与分析
        6.4.4 算法对比分析
    6.5 本章小结
结论
参考文献
附录A 攻读学位期间所发表的学术论文
附录B 攻读学位期间所参加的科研项目及申请的专利
致谢



本文编号:3926271

资料下载
论文发表

本文链接:https://www.wllwen.com/yixuelunwen/yiyuanguanlilunwen/3926271.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户45f70***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]