当前位置:主页 > 杂文精选 >

k-tuple频度统计方法在微生物群落测序数据分析中的应用

发布时间:2014-08-15 20:09

第一章绪论


1.1研究背景和研究意义
在地球历史的大部分时间里,地球上的生命完全由微观的生命形式构成,微生物是地球上生物多样性最为丰富的资源,在很多方面仍然占据着统治地位。就种类数量而言,微生物就远远超过了动植物种类的总和,它们生存环境的多样性更是其他生物所不能比的。微生物虽不能为肉眼所见,却切切实实分布在地球的每个角落。人体的每一个组织、盐水和淡水、极地冰川和沸腾的温泉中、表层土壤和深层基岩中、酸性矿井废水和碱性湖中,都富集大量的微生物[1]。细菌和古生菌不但生活于各种存在其它生命的环境中,并且在很多情况下它们是极端环境里(如温度达到340度的深海烟函、地表以下6千米的岩石中)唯一存活的生物[2]。微生物不仅无处不在,更是地球上所有生命中必不可少的一部分,它们在环境气候形成、地球化学循环、地质演化和生物进化中扮演着重要的角色[3]。自然界中,微生物广泛参与生物圈内的物质循环转化并维持着生态平衡,尤其是与人类日常活动紧密相关的碳、氮、氧、磷、硫等重要元素的循环转化都离不开微生物的活动。据估计,地球上3XIO3。个原核生物细胞分解产生了 350-550拍克(1拍克=10i5克)的碳、85-130拍克的氮和9-14拍克的憐,成为了这些地球养分的主要来源[4]。与其它动植物相同,人类的生存环境和健康问题也与微生物息息相关。微生物在人体的食物消化、毒素降解及机体免疫反应、环境污染物降解等方面发挥着重要作用[5],同时还很大程度地影响药物医;学、现代农业和发酵工业的发展。微生物同样会对人类造成巨大的危害,病原微生物引发的病变(如艾滋病、禽流感等)在人类的历史上曾带来了重大的灾难。微生物从发现到现在的短短300年间,已经在人类生活和生产实践中得到广泛应用,成为了继动、植物两大生物产业的第三大产业。曾有定论认为了解人类生存条件的关键在于了解人类的基因组[6,7]。
………….


1.2微生物群落的比较分析方法
早期的微生物基因组学研究主要通过固体培养基分离纯化技术对单个物种进行克隆培养,进而再测取基因组序列。但是由于缺乏对微生物生存环境的认识,以及微生物之间存在复杂的共生关系,能够单独培养的微生物只占到很小一部分比例(约1%) [15],使得克隆培养的方法受到很大的限制。测序技术的发展跨越了这一研究初期的瓶颈,使得我们能够直接从自然界的微生物群落中获取遗传信息。其中,直接从环境中提取出来的测序数据被称为宏基因组,这一概念最早是在1988年由Handelsman[i6]等人提出。宏基因组概念被提出之后,许多大规模的宏基因组和宏转录组研究项目开始涌现。这些项目从不同的环境中采集了上百个微生物样本,获得了大量微生物测序数据。用于比较微生物群落的免培养的度量方法被相继提出,其中基于16S核糖体RNA的方法是最主要的方法,而基于全宏基因组和宏转录组的方法还在探索中。16S核糖体RNA是原核生物的核糖体中30S亚基的组成部分,由于不同的细菌与古生菌间的16S核糖体RNA所属的基因是高度保守的常被用来标识微生物类别或物种。不少研究学者从微生物样本中,通过传统的桑格测序技术(Sanger Sequencing)或新一代测序技术(Next Generation Sequencing, NGS[i8]),对小亚基核糖体RNA,尤其是16S核糖体RNA进行测序,从而提出了在微生物多样性方面的具有意义的结论。在基于16S核糖体RNA的研究调查中,一些分析过程是用不同的Beta多样性度量方法对多个微生物样本进行比对,度量方法中一般有两类:基于系统发育树的和基于分类单元的。
………………


第二章基于k-tuple频度统计的微生物群落比较分析方法


2.1基于k-tuple频度统计的序列特征方法
先前有研究对基因组序列数据进行了统计分析,发现短序列片段的频率分布在全基因组范围内呈现出稳定的趋势[45],而不同物种间短序列片段的稳定分布曲线又存在差异[39]。k-tuple频度特征的保守性在后续的研究中也得到了广泛的数据验证和统计结果的支持。所以研究者认为,;k-tuple序列特征用序列的区域特征可以代表整体特性。k-tuple频率分布的稳定特性目前在生物学上还没有得到合理的解释,但在统计学上可以通过概率模型来描述,研究发现原核生物的k-tuple频度统计值符合马尔科夫过程。由于k-tuple频率分布在基因组范围内存在稳定趋势和保守特性,使得不同基因组序列的序列特征存在相异性,因而宏基因组或宏转录组数据的序列特征上的差异可以反映出微生物群落样本在组成成分上的差异。所以在测序深度足够覆盖微生物群落的主要成分的情况下,我们认为可以通过统计整个宏基因组或宏转录组中k-tuple的出现频度,也就是通过统计k-tuple频度特征的方式对微生物群落进行特征描述,从而利用k-tuple频度特征向量度量微生物群落之间的相异度。此外,这种比较方式不需要将短读段配准到参考序列上,避免了微生物参考序列的不完整和难以测取两方面问题。因此,我们将该方法应用在宏转录组数据的比较分析中,设计了一系列的微生物群落的比较实验,详细内容可参见本文的第三章。
………….


2.2基于相异度矩阵的分析方法和评估标准
斯皮尔曼等级相关系数评估的是两个变量的单调相关性,即如果用单调函数来描述两个变量之间的关系,拟合程度能达到多少。如果数据中没有重复值,并且当两个变量完全单调相关时,完美的斯皮尔曼相关系数则为+1或-1。本文的研究工作中,斯皮尔曼等级相关系数用于评估不同度量方法下梯度变量与主分量中间的关系。本文中,斯皮尔曼等级相关系数通过R语言的软件包“stats”提供的“cor”函数来计算。我们用真实数据对d2Tools进行了测试,测试数据包括4个样本,每个样本的测序文件为fasta格式,大小约为200MB9整个测试数据共有2,830,286条读段,读段长度为164±102bp。软件包在1.45GB内存上,花了约4个小时,串行地完成了整个分析流程,生成了 k从2到10的所有相异度度量下的相异度矩阵。不同k值的分析过程可以通过操作系统的命令实现并行,这样则加快了程序运行时间,但要求更大的内存。htuple频度向量的计算时间与输入文件的大小和选择的k值有关,程序运行的内存只与k的取值有关
…………


第三章基于k-tuple频度统计的宏转录组数据........ 16
3.1宏转录组数据和宏基因组数据的总体描述........ 16
3.2实验1:来自全球海洋的宏转录组数据样本........ 18
3.2.1实验数据 ........18
3.2.2实验结果与分析........ 19
3.3实验2:宏转录组数据样本间的环境梯度........25

3.4实验3:宏转录组数据和宏基因组数据........ 30
3.5实验4k-tuple測序数据的聚类分析........  34
3.5.1实验数据 ........34
3.5.2实验结果与分析........ 35
3.6实验5:測序误差对相异度度量方法的性能........ 38
3.7本章小结........ 40
第四章关于k-tuple频度序列特征方法........ 41
4.1微生物群落仿真数据的聚类分析........ 41
4.1.1实验设计........ 41
4.1.2结果分析........ 43
4.2相似物种的聚类分析........ 44
4.2.1灵长类物种的聚类分析........ 44
4.2.2人种的聚类分析 ........48
4.3測试不同测序平台对聚类结果的影响........ 52
4.3.1实验设计........ 53
4.3.2结果分析........ 54
4.4基于k-tuple的序列特征........ 56
4.5本章小结 ........60
第五章总结与展望........ 62


第四章关于k-tuple频度序列特征方法的延伸性探讨


在第三章中,我们通过五组不同的实验,验证了基于k-tuple频度的序列特征方法的有效性,并且当选择适合的相异度度量时,该方法能够有效地对样本进行划分组别。那么当微生物群落样本间的差异很小时,基于k-tuple频度的序列特征方法是否能够进行正确的分组?对于相似物种,序列特征方法是否有效?针对这以上问题,本文设计了两组实验,一组针对微生物群落样本的仿真实验,一组是基于真实的测序数据研究相似物种聚类的使用。此外,在先前的研究中,我们发现测序平台对序列特征方法有很大的影响。本文第三章中,454平台和k-tuple平台的测序数据是分开进行实验分析的,实验5也只是针对454平台产生的测序误差进行了关于性能影响的分析,并未考虑不同测序平台所带来的影响。所以我们在本章中设计了第三组实验,来探讨不同测序平台对聚类结果所产生的影响。


……….


结论


随着宏基因组学的提出,关于微生物的研究往前迈了一大步。微生物群落的比较是宏基因组学中一个重要部分,是生态学研究的重点问题。基于k-tuple频度的序列特征方法在宏基因组样本的比较中的有效性在先前的研究中得到了验证,而本文用真实的宏转录组测序数据首次验证了序列特征方法在比较宏转录组样本上的有效性,并对不同的相异度度量方法进行了性能评估,还开发了相应的软件包来实现主要的分析流程。本文对序列特征方法进行了延伸性的探讨,分别研究了序列特征方法对相似的微生物群落样本、相似物种和不同测序平台的测序数据所表现出来的聚类特性。从实验结果中,我们发现在相似物种的聚类分析中,RNA数据样本要比DNA数据样本更容易划分,这也从侧面表明了宏转录组的测序数据对于微生物群落比较分析具有重要意义。另一方面,实验的结果也反映出序列特征方法和各相异度度量方法的一些不足,如测序平台的敏感性高、对于复杂微生物群落的聚类效果差,这些方面的不足也为改进序列特征方法提供了指导方向。
…………
参考文献(略)



本文编号:8353

资料下载
论文发表

本文链接:https://www.wllwen.com/qitalunwen/8353.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户cd75c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]