基于二代RNA-seq数据的转录组组装算法研究

发布时间:2021-08-08 01:21
  随着生物技术的迅猛发展,生物信息数据资源呈现出爆炸式增长的趋势,同时计算机技术与互联网技术日益提高,使得我们对于大数据的储存、处理及传输更为便捷,对于生物大数据的整合与数据挖掘成为生命科学研究中的重要组成部分。基于计算机科学、数学与生物学的一门新兴交叉学科--生物信息学应时而生,其中对于转录组学的研究就是生物信息学中一个十分重要的基础性问题。近年来第二代RNA-seq技术依赖于其通量高、成本低的优势逐渐成为了研究转录组及其表达水平的主要手段。随着各种测序技术的发展,大量数据的产生,利用测序技术研究基因的转录组成为一个必然的趋势。二代的RNA-seq 测序数据的序列长度很短,必须经过有效组装才能恢复出全长转录本的序列,这就是本文所研究的转录组组装问题,而真核生物的转录过程中,由于可变剪接现象的存在,同一个基因可以产生多个不同的转录本,而可变剪接的模式也呈现出多样化,这无疑使转录组组装问题充满了挑战性。本文的研究主要是利用图论中的理论将转录组组装问题模型化,并利用组合优化技术解决组装过程中的难点与瓶颈。转录组组装算法大体分为两类,一类是基于参考基因组的组装算法,另一类是从头组装算法。对有些... 

【文章来源】:山东大学山东省 211工程院校 985工程院校 教育部直属院校

【文章页数】:126 页

【学位级别】:博士

【部分图文】:

基于二代RNA-seq数据的转录组组装算法研究


图1.1.真核生物基因的可变剪接

模式图,模式,蛋白质,内含子


生物活性,需要进行转录产物??的后加工,使其变成具有生物功能的成熟RNA,这就是转录的第二个过程。??这一过程一般包括RNA链的剪接(剪切拼接)和碱基修饰。剪接是在真核生??物中非常重要的一个过程,原始的RNA会在剪切酶的作用下,被切成一定??大小的分子,然后在拼接酶的作用下把成熟RNA所需要的片段拼接起来。??经过这一步骤,原始的RNA有时会产生两种以上的成熟RNA,不同的成熟??RNA可以翻译成不同的蛋白质,发挥不同的生物功能,我们把这种现象称为??可变剪接(或选择性剪接)(如图1.1所示)。??可变剪接是真核生物体内非常重要的机制,可以调控基因表达并能引起??蛋白质多样性,它通常包括5中基本模式,例如外显子跳跃、内含子保留等??等(如图1.2所示)[2-4]。??A外显子跳跃?D内含子保留??.一’??V??B可变的受体E可变的供体%??.一漏?二. ̄ ̄ ̄??C互相排斥的夕卜辱子?、?臟未发生可变剪切的外鮮??[u发生可变剪切的外饅子??snm]保留下来的内含子??图1.2.可变剪接的5种基本模式。??近些年来的研究表明,在真核生物中可变剪接的现象非常普遍,它使得??一个基因可以转录成多个不同的RNA并产生不同的蛋白质,是导致真核生??物中基因数量与蛋白质数量有较大差异的重要因素。例如在人体内存在多个??外显子的基因中,约有95%的基因都会发生可变剪接[2],这导致人体内大约??3??

序列,基因组,策略,片段


特异性测序信息中所包含的链方向的信息,可以确定转录本是来自正义还??是反义DNA链,能有效的帮助组装具有重叠区域的转录本或反义转录本[38-??40]。与基因组组装存在的这些差异,是在转录组的组装中所面临的巨大挑战。??iMiSisaaiaav?-?-?-?-?-?-?ssssssixst?判?片??序列回贴到参考基^从头组装????驗??-fi^sssss??^?---2^????m.*?Ksssssasaa?職.欲v??J?基于参考基H组的组装??图1.3.转录组组装的两种策略:基于参考基因组的转录组组装和从头转录组组装。??转录组组装算法的研究,在过去的几年里己经有了快速的发展,一般有??两种策略:基于参考基因组的组装(genome-guided)和从头组装(cfe?novo)??[36,37](图1.3),前者需要有一个高质量的可供参考的基因组,第一步就是??将测序片段回贴到参考的基因组上,来自不同基因的测序片段会聚类到一起,??根据回贴结果及其所包含的信息,我们可以对不同基因的片段分别组装。从??头组装算法则不依赖于任何参考信息,直接由测序片段着手,根据片段间的??重叠信息完成组装,往往具有更大的组装难度。??一个显而易见的事实是,基于参考基因组的组装算法会有更高的准确率,??然而对于从头组装算法的研宄仍然具有十分重要的意义。这是因为基于参考??9??


本文编号:3328923

资料下载
论文发表

本文链接:https://www.wllwen.com/shoufeilunwen/jckxbs/3328923.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户b1076***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]