当前位置:主页 > 理工论文 > 生物学论文 >

基于ChIP-seq和芯片数据的顺式调控模体与功能模块预测

发布时间:2020-12-02 10:56
  生物技术尤其是高通量测序技术的发展使得人们能够更加方便地获取海量的生物数据。然而生物数据的爆炸式增长给人们带来无限发展机遇的同时,也使人们深切地体会到大数据信息挖掘带来的巨大挑战。在这种形势下,生物信息学等交叉学科应运而生,并在生命科学领域发挥着日益重要的作用。在生物信息学的框架中,数学、统计学和计算机科学等理论工具的潜能借助于高性能计算机和数据库等平台得以充分发挥,使得人们能够有效地解决一系列大规模生物数据上的挖掘问题。组学是分子生物学发展到一定阶段的产物。系统论思想的推广使人们不再从个体的角度来分析某个分子或者某类遗传物质。相反地,人们倾向于把具有某个特定功能的个体以及它们之间的关联关系整合为一个系统,旨在从整体的角度系统性地挖掘有价值的信息。基因组学、转录组学、蛋白质组学和代谢组学就是典型的代表。其中,基因组学是所有组学中应用最广泛、影响最长远的分支。尽管生物体内几乎所有的细胞含有同样的基因,然而它们却分化成了不同形态,发挥着不同功能。其原因在于基因并不是在每个细胞中都表达,而控制基因表达的开关就是转录因子。转录因子是一类特殊的蛋白质,它能够通过与基因的启动子、增强子或静默子区域... 

【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:138 页

【学位级别】:博士

【部分图文】:

基于ChIP-seq和芯片数据的顺式调控模体与功能模块预测


图2.2?六个算法在模拟数据集Di?D6l的性能比较

模体


山东大学博士学位论文??验p>0.05)。然而,与?ProSampler?(60)相比,BioPrsopector?(56)和?motifRG??(52)识别的模体数量相对较少。从图2.2H还可以看出,随着模体浓度的增大,??ProSampler识别模体位点的性能随之提高。然而,其他四个算法并没有出现类似??的规律。当模体浓度大于0.3的时候,其他算法的性能甚至下降并出现较大波动。??这种现象与直观理解相背离,其原因有待进一步探宄。图2.2展示的一系列分析??表明,ProSampler在模拟数据上不仅具备高效性,还具备准确性和稳健性。??JASPAR?ProSampler??gli2?^CCALqi.-?.ciCCACsCxs??POU3F4?xAI?q^aAt?TAT?q4At??图2.3?案例:ProSampler在0!中预测的模体GLI2和POU3F4的丨ogo以及JASPAR??中对应的两个模体的logo。??§?2.3?ProSampler算法在ChIP-seq数据上的测评??本节中,我们将ProSampler与六个模体识别算法一BioProspector、DREME、??XXmotif、Homer、motifRG?和?Dimont?在不同序列长度(200bp、500bp?和?1000??bp)的ChIP-seq数据上的性能进行测评,并比较了上述算法在运行效率和识别??主模体、合作模体、潜在合作模体(Putative?Co-Operative?Motif)以及模体长度??方面的性能。本节的主要内容包括:数据处理、参数设定、测评方案和结果分析。??2.3.1?数据处理??为了测试五个算法的性能和效率

序列,序列数,数据集中,序列


山东大学博士学位论文??序列从中点(峰顶)往两端分别延伸100?bp、250?bp和500?bp得到同序列长度的数据集系列,即:Gi?(200bp)、G2?(500bp)和G3?(1所有数据均以BED格式存储。BED文件格式是一种高效的DNA序,它主要记录了序列所在的染色体编号、序列起点形式、序列终点形链信息。某些BED文件还记录了序列质量的信息(例如:p值和信号值


本文编号:2895194

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/2895194.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户1f221***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]