基于ChIP-seq和芯片数据的顺式调控模体与功能模块预测

发布时间：2020-12-02 10:56

　　生物技术尤其是高通量测序技术的发展使得人们能够更加方便地获取海量的生物数据。然而生物数据的爆炸式增长给人们带来无限发展机遇的同时,也使人们深切地体会到大数据信息挖掘带来的巨大挑战。在这种形势下,生物信息学等交叉学科应运而生,并在生命科学领域发挥着日益重要的作用。在生物信息学的框架中,数学、统计学和计算机科学等理论工具的潜能借助于高性能计算机和数据库等平台得以充分发挥,使得人们能够有效地解决一系列大规模生物数据上的挖掘问题。组学是分子生物学发展到一定阶段的产物。系统论思想的推广使人们不再从个体的角度来分析某个分子或者某类遗传物质。相反地,人们倾向于把具有某个特定功能的个体以及它们之间的关联关系整合为一个系统,旨在从整体的角度系统性地挖掘有价值的信息。基因组学、转录组学、蛋白质组学和代谢组学就是典型的代表。其中,基因组学是所有组学中应用最广泛、影响最长远的分支。尽管生物体内几乎所有的细胞含有同样的基因,然而它们却分化成了不同形态,发挥着不同功能。其原因在于基因并不是在每个细胞中都表达,而控制基因表达的开关就是转录因子。转录因子是一类特殊的蛋白质,它能够通过与基因的启动子、增强子或静默子区域...

【文章来源】：山东大学山东省 211工程院校 985工程院校教育部直属院校

【文章页数】：138 页

【学位级别】：博士

【部分图文】：

图２．２?六个算法在模拟数据集Ｄｉ？Ｄ６ｌ的性能比较

山东大学博士学位论文??验ｐ＞０．０５）。然而，与?ＰｒｏＳａｍｐｌｅｒ?（６０）相比，ＢｉｏＰｒｓｏｐｅｃｔｏｒ?（５６）和?ｍｏｔｉｆＲＧ??（５２）识别的模体数量相对较少。从图２．２Ｈ还可以看出，随着模体浓度的增大，??ＰｒｏＳａｍｐｌｅｒ识别模体位点的性能随之提高。然而，其他四个算法并没有出现类似??的规律。当模体浓度大于０．３的时候，其他算法的性能甚至下降并出现较大波动。??这种现象与直观理解相背离，其原因有待进一步探宄。图２．２展示的一系列分析??表明，ＰｒｏＳａｍｐｌｅｒ在模拟数据上不仅具备高效性，还具备准确性和稳健性。??ＪＡＳＰＡＲ?ＰｒｏＳａｍｐｌｅｒ??ｇｌｉ２?＾ＣＣＡＬｑｉ．－?．ｃｉＣＣＡＣｓＣｘｓ??ＰＯＵ３Ｆ４?ｘＡＩ?ｑ＾ａＡｔ?ＴＡＴ?ｑ４Ａｔ??图２．３?案例：ＰｒｏＳａｍｐｌｅｒ在０！中预测的模体ＧＬＩ２和ＰＯＵ３Ｆ４的丨ｏｇｏ以及ＪＡＳＰＡＲ??中对应的两个模体的ｌｏｇｏ。??§?２．３?ＰｒｏＳａｍｐｌｅｒ算法在ＣｈＩＰ－ｓｅｑ数据上的测评??本节中，我们将ＰｒｏＳａｍｐｌｅｒ与六个模体识别算法一ＢｉｏＰｒｏｓｐｅｃｔｏｒ、ＤＲＥＭＥ、??ＸＸｍｏｔｉｆ、Ｈｏｍｅｒ、ｍｏｔｉｆＲＧ?和?Ｄｉｍｏｎｔ?在不同序列长度（２００ｂｐ、５００ｂｐ?和?１０００??ｂｐ）的ＣｈＩＰ－ｓｅｑ数据上的性能进行测评，并比较了上述算法在运行效率和识别??主模体、合作模体、潜在合作模体（Ｐｕｔａｔｉｖｅ?Ｃｏ－Ｏｐｅｒａｔｉｖｅ?Ｍｏｔｉｆ）以及模体长度??方面的性能。本节的主要内容包括：数据处理、参数设定、测评方案和结果分析。??２．３．１?数据处理??为了测试五个算法的性能和效率

序列,序列数,数据集中,序列

山东大学博士学位论文??序列从中点（峰顶）往两端分别延伸１００?ｂｐ、２５０?ｂｐ和５００?ｂｐ得到同序列长度的数据集系列，即：Ｇｉ?（２００ｂｐ）、Ｇ２?（５００ｂｐ）和Ｇ３?（１所有数据均以ＢＥＤ格式存储。ＢＥＤ文件格式是一种高效的ＤＮＡ序，它主要记录了序列所在的染色体编号、序列起点形式、序列终点形链信息。某些ＢＥＤ文件还记录了序列质量的信息（例如：ｐ值和信号值

本文编号：2895194

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/projectlw/swxlw/2895194.html

上一篇：艾比湖流域植物多样性对水盐胁迫的响应
下一篇：石家庄污水处理厂进出水生物毒性效应研究