基于Spark的关键蛋白质预测算法及shuffle内存优化策略研究

发布时间：2024-02-03 15:46

　　生物信息处理是最近几年的一个热门研究方向,特别是对关键蛋白质预测算法的研究。它能够有效快速地预测出蛋白质相互作用网络里的一些关键蛋白质,这类蛋白质对于生物体的存活、繁殖以及药物靶点选择的研究极其重要。目前已经存在很多关键蛋白质的预测算法,但由于一些算法的计算复杂度过高,使得对于小规模的蛋白质相互作用网络的计算都十分困难,基于分布式计算将该类算法并行化加速是可行的解决方案。近年来Spark已经成为一个成熟的分布式计算框架,但在实际分布式计算过程中Spark的shuffle性能低下,因此探索Spark自身的shuffle优化策略具有十分重要的研究意义。本文的主要研究成果如下:(1)在预测关键蛋白质的研究方面,L-BC指标具有考虑网络局部特性以及减少算法运行时间的优点,而k-BC指标对顶点重要性程度划分地更加细致,本文结合了这两个算法的优点提出了L1-BC指标。实验结果表明,在大多数数据集上L1-BC指标的预测准确率整体都要优于其它常见的单个拓扑属性指标,特别是与传统的BC指标相比,L1-BC指标的预测准确率能够提高10%～50%。为了加速L1-BC指标的计算,本文基于Spark实现了 L1...

【文章页数】：72 页

【学位级别】：硕士

【部分图文】：

图２－１蛋白质相互作用网络??Ｆｉｇｕｒｅ?２－１?Ｐｒｏｔｅｉｎ－ｐｒｏｔｅｉｎ?ｉｎｔｅｒａｃｔｉｏｎ?ｎｅｔｗｏｒｋ??

络的研宄与分析，能够更好的帮助人们理解细胞的生命活动，有效的进行疾病防治??［３６】。从图论的角度来看，蛋白质相互作用网络就是一张图，如图２－１所示。??图２－１蛋白质相互作用网络??Ｆｉｇｕｒｅ?２－１?Ｐｒｏｔｅｉｎ－ｐｒｏｔｅｉｎ?ｉｎｔｅｒａｃｔｉｏｎ?ｎｅｔｗｏｒｋ??....

图２－２?ｍａｐ的计算逻辑??Ｆｉｇｕｒｅ?２－２?Ｔｈｅ?ｃｏｍｐｕｔａｔｉｏｎａｌ?ｌｏｇｉｃ?ｏｆ?ｍａｐ??

例如ｍａｐ计算操作，它表示父ＲＤＤ的每个ｐａｒｔｉｔｉｏｎ的数据经过ｃｏｍｐｕｔｅ函数??计算映射到子ＲＤＤ的对应的ｐａｒｔｉｔｉｏｎ，每个ＲＤＤ中的ｐａｒｔｉｔｉｏｎ之间互不干扰，它??的ＲＤＤ计算逻辑如图２－２所示。??ＲＤＤｌ?ＲＤＤ２??ｍａｐ?计算??ｐａｒｔｉｔｉｏｎ....

图２－３?ｒｅｄｕｃｅＢｙＫｅｙ的计算逻辑??Ｆｉｇｕｒｅ?２－３?Ｔｈｅ?ｃｏｍｐｕｔａｔｉｏｎａｌ?ｌｏｇｉｃ?ｏｆ?ｒｅｄｕｃｅＢｙＫｅｙ??

调度管理集群资源。接下来简单介绍一下ｓｔａｎｄａｌｏｎｅ模式的大致结构。??—个标准的ｓｔａｎｄａｌｏｎｅ模式集群有以下四大角色：Ｄｒｉｖｅｒ、Ｍａｓｔｅｒ、Ｗｏｒｋｅｒ、??Ｅｘｅｃｕｔｏｒ。具体如图２－４所示。??１４??

图２－４?Ｓｔａｎｄａｌｏｎｅ集群的角色??Ｆｉｕｒｅ?２－４?Ｒｏｌｅｓ?ｏｆ?ｓｔａｎｄａｌｏｎｅ?Ｃｌｕｓｔｅｒ??

ｐａｉｔｉｔｉｏｎ５?：：滅丨?ｕ戀：：：｜??图２－３?ｒｅｄｕｃｅＢｙＫｅｙ的计算逻辑??Ｆｉｇｕｒｅ?２－３?Ｔｈｅ?ｃｏｍｐｕｔａｔｉｏｎａｌ?ｌｏｇｉｃ?ｏｆ?ｒｅｄｕｃｅＢｙＫｅｙ??从图中可以看出，在ｍａｐ端计算完成后，ＲＤＤＩ的每个ｐａｒｔｉｔｉｏｎ的数据都会??....

本文编号：3894343

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/projectlw/swxlw/3894343.html

上一篇：长江口及其邻近海域浮游动物休眠卵群落结构研究
下一篇：灵空山褐马鸡种群遗传多样性研究

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|