当前位置:主页 > 理工论文 > 生物学论文 >

基于链读测序数据对长读拼接纠错的算法研究

发布时间:2020-04-02 23:32
【摘要】:针对第三代测序数据自身存在相对高错误率的问题,提出一种基于l0x Genomics测序平台的链读(Linked Reads)测序数据对PacBio测序平台的长读数据(long reads)进行纠错的算法。首先运用拼接算法Wtdbg2将人类基因组第三代长读测序数据拼接成重叠链(contigs),将contigs打碎成相同k碱基长度的短读(k-mers)并存储于哈希表中;然后将同一 Barcode的链读数据打碎成k值相同的短序k-mers,选取每一个k-mer去遍历哈希表寻找与之相匹配的contig编号及位置信息,这样,可快速地将Linked Reads序列分配到contigs中;再利用比对工具Bowtie 2把Linked Reads序列比对到contigs上;最后,使用超几何分布公式统计每个位置碱基的频率,计算P值并识别错误碱基或者单核酸多态性(SNP)。通过Linked Reads测序数据对来自人类不同细胞的基因组数据Human HG00733、Human NA24385、Human CHM1进行纠错验证,结果表明所提算法能够显著提高基因组装的Scaffold长度,而且组装的基因组具有较高的准确性。我们实验数据集选择人的三代PacBio基因组测序数据和10x Genomics的Linked Reads。Linked Reads数据本身具有一定的技术优势,技术原理方面,在长序列片段中引入barcode序列对DNA进行精确分区,并将长片段分配到不同的油滴微粒中,使用GemCode平台技术对长片段序列进行扩增引入barcode序列及测序接头引物,紧接着将序列打碎成适合测序大小的片段进行测序,相同barcode序列的短序来源于同一条长片段。该技术可与Illumina测序仪进行无缝对接,利用短序列可获得长达100Kb的片段,利用长片段信息结合Illumina组装数据组装的Scaffold N50长度比只用Illumina方法提高十几倍。通过对人的三代测序数据进行纠错,可以提高测序的精度,进一步提高拼接的准确度。该算法的研究对结构变异预测和疾病预测具有重大意义。
【图文】:

示意图,结构组成,示意图,内含子


egion)是指在基因表达过程中,能够转录为相应信使RNA,进而指导蛋白质合逡逑(也就是能编码蛋白质)的DNA序列片段[18]。而非编码区(Non-coding邋region;)[19]逡逑是不被表达的,位于编码区前后,同属于一个基因,控制着基因的表达和强弱。逡逑因的启动子和终止子都属于非编码区。非编码区虽然不能够编码蛋白质但在遗逡逑信息表达过程中起着至关重要的角色,,在非编码上存在具有遗传效应的可调控逡逑传信息表达的核苷酸序列,比如RNA聚合酶结合位点(亦称转录酶),能够催逡逑所有RNA的转录合成[2Q]。其中真核生物的编码区又由外显子和内含子组成。逡逑名思义外显子就是要表达的,内含子是不被表达,它们一般存在于一段基因中,逡逑般间隔排列。一个基因如果包含有内含子,它就可以进行转录得到前体RNA,逡逑后再被转录出来的那部分进行自我切割,这样才能得到成熟的mRNA。但在逡逑核生物中,也存在一些基因没有包含内含子,比如组蛋白基因和干扰素基因就逡逑有内含子。而原核生物的基因没有内含子和外显子之分。图1-2真核生物某个逡逑因的示意图。逡逑

过程图,基因表达,过程图,内含子


然后再被转录出来的那部分进行自我切割,这样才能得到成熟的mRNA。但在逡逑真核生物中,也存在一些基因没有包含内含子,比如组蛋白基因和干扰素基因就逡逑没有内含子。而原核生物的基因没有内含子和外显子之分。图1-2真核生物某个逡逑基因的示意图。逡逑非编码区逦非编码区逡逑?逦逦编码区(转录区)逦逦?逡逑启动t邋一邋-?逦———il邋终止子逡逑转录逦转录逡逑g占逦效?占逡逑nj示外显子:.!示内含子逡逑图1-2真核生物基因的结构组成示意图逡逑1.3.2基因表达逡逑生物体生命活动的运转需要靠其内部对应细胞结构的表达,细胞中基因的表逡逑6逡逑
【学位授予单位】:天津师范大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:Q78;TP311.1

【相似文献】

相关期刊论文 前10条

1 刁斗;;短篇长读(之一)[J];鸭绿江(上半月版);2017年07期

2 汤德懋;;祝《广西会计》创刊七周年[J];广西会计;1991年10期

3 郑殿兴;当做长读[J];当代司法;1997年09期

4 王学泰;;民命贱如蝼蚁[J];文化博览;2007年01期

5 曹建之;怎样写好描述性评语[J];班主任;2002年06期

6 祁和山;;不开窍[J];杂文选刊(上半月版);2014年12期

7 刁斗;;短篇长读(之四)[J];鸭绿江(上半月版);2018年04期

8 杨忠;;按摩局长[J];大众文艺(快活林);2002年11期

9 时嘉姝;;读你千“日”也不厌倦[J];优秀作文选评(高中版);2011年04期

10 王荔宏;罗义安;;“话”若有情“话”不老[J];青年教师;2011年11期

相关重要报纸文章 前5条

1 屈艺兵;“长文短看 短文长读”[N];中华新闻报;2009年

2 刘紫凌 廖君;劳民伤财的公祭活动应叫停[N];今日信息报;2007年

3 刘紫凌邋廖君;特困县砸大钱祭祖,“别有用心”易得不偿失[N];新华每日电讯;2007年

4 曹叶秋(大学教师);藏在心里的,不叫爱[N];中国图书商报;2003年

5 记者 杨同玉;36个海外高科技项目将落户哈尔滨新区[N];中国经济时报;2019年

相关硕士学位论文 前2条

1 冯艳霞;基于链读测序数据对长读拼接纠错的算法研究[D];天津师范大学;2019年

2 郭睿;基于长读的基因组重复序列查找技术研究[D];深圳大学;2018年



本文编号:2612588

资料下载
论文发表

本文链接:https://www.wllwen.com/projectlw/swxlw/2612588.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户50544***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]