还剩21页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
2.4主成分分析是一种分析和简化数据集的技术,通过将方Principal ComponentAnalysis,PCA差进行分解,将多组数据的差异反映在二维坐标图上,坐标轴取能够最大反映方差的两个特征值通过分析不同样品相似性组成可以反映样品间的差异和距离图上两个样品距97%PCA离越近,则表示这两个样品中物种的组成越相似使用语言工具分别绘制不同分类水平R PCA分析图,示例图如下图6属水平PCoA分析图注点表示各样品的物种组成;同一颜色表示同一个分组,不同颜色代表不同分组;横坐标表示第一主成分及其对样品差异的贡献率;纵坐标表示第二主成分及其对样品差异的贡献率基因组组分分析
2.5基因预测
2.
5.1采用MetaGeneMark141表格6基因预测结果统计Samples Genes Numbers Total Length bpAverage LengthbpC4544,58281,934,576r18注Samples样品编号;Genes Numbers预测到的基因数目;Total Length所有预测基因的碱基数之和;AverageLength预测基因的平均碱基数前噬菌体预测
2.
5.2噬菌体序列,构建参考数据库,使用比对软件进行前BLASTN evalue:le-05,噬菌体搜索Prophage Total Length Largest Length Average LengthSamplesNumbers bp bp bpC48117,4421,392215注Samples样品编号;Prophage Numbers预测到的前噬菌体数目;Total Length所有预测到的前噬菌体的碱基数之和;Largest Length最长前噬菌体的碱基数;Average Length预测的前噬菌体的平均碱基数转座元件预测
2.
5.3转座元件,亦称为转座子,是一类序列,主要包括转座子长DNA DNA DNA transposon,末端重复序列长散在重复序列和Long TerminalRepeat,LTR,Long InterspersedElements,LINE短散在核重复序列等转座子能够在基因组中通过转录或逆转Short InterspersedElements,SINE录,在内切酶的作用下,在其他基因座上出现,在特定生态环境中,对于遗传信息的交流起着主要的作用表格8重复序列预测结果统计Samples DNALTR LINESINE SatelliteSimple repeatLow complexity~C49272,383583199724注Samples样品编号;DNA DNA转座子的数目;LTR长末端重复序列的数目;LINE长散在重复序列;SINE短散在核重复序列;Satellite卫星串联重复序列;Simple repeat简单重复序列;Low complexity低复杂度重复序列基因功能注释
2.6非冗余基因集的构建
2.
6.1使用⑸CD-HIT表格9非冗余基因集结果统计Total LengthAverage LengthLargest LengthGenesetGenes Numbersbpbpbp注Geneset基因集;GenesNumbers非冗余基因的数目;Total Length所有基因的碱基数目总和;AverageLength基因的平均碱基数;Largest Length最长基因的碱基数通用数据库功能注释
2.
6.2使用BLASTP⑹软件将非冗余基因集的基因序列与NR、COG7]KEGG[81和SwissProtKl数据库比对,获得注释信息;使用注释结果;使用⑵口数据库比对Blast2GO[i°li]HMMER
[3]数据库是数据库的非冗余蛋白质数据库,包含了、NR NCBISwissProt PIRProtein、蛋白质数据库Information ResourcePRF ProteinResearch FoundationPDB ProteinData Bank及从和的数据翻译过来的蛋白质数据GenBank RefSeqCDS数据库是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表来GO全面描述生物体中基因和基因产物的功能属性该数据库包含大类功能:3Molecular Function和Cellular ComponentBiological Processo数据库是对基因产物进行同源分类的数据库,是一个识别直系同源基因的数据库基COG于基因直系同源关系,结合进化关系将来自不同物种的同源基因分为不同的簇,注释到同一COG分类的基因具有相似的功能数据库是系统分析基因产物在细胞中的代谢途径以及这些基因产物功能KEGG的数据库该数据库包含大类生物代谢通路7Metabolism GeneticInformationProcessings EnvironmentalInformation ProcessingCellular ProcessesOrganismal、其中每类又被系统分类为
二、Systems HumanDiseasesDrug Development0四层第二层为子功能;第三层为代谢通路图;第四层为每个代谢通路图的具体注释信息数据库中的所有序列条目都经过有经验的分子生物学家和蛋白质化学家通过计算SwissProt机工具并查阅有关文献资料进行仔细核实,蛋白质序列和注释信息质量很高数据库通过蛋白序列的比对建立了每个家族的氨基酸序列的统计模型,是最全Pfam HMM面的蛋白结构域注释的分类系统通用数据库功能注释统计结果见下表Database Annotate Numbers300=length1000length=100表格10通用数据库功能注释统计KEGGCOGPfamSwissProtNRGOTotal注AnnotateNumbers.注释到相应数据库的基因个数;300=length1000表示注释到相应数据库的长度大于300个碱基的基因数;length=1000表示注释到相应数据库的长度大于1000个碱基的基因数数据库功能注释
2.
6.3ARDB
[14],一共收录了共个属、种细菌、种类型、个耐药基因通过该项分析可以很493337713,293好的了解特定环境中抗性基因的相关情况,并进行样品间比较,寻找研究的突破点使用BLASTP软件将非冗余基因集的基因序列与数据库进行比对,可得到基因的耐药性注释信息ARDB表格11抗生素抗性因子分析结果统计ID typeKind of factors Number offactors注Kinds offactors抗生素抗性种类数;Numberoffactors抗生素抗性基因个数数据库功能注释
2.
6.4CAZy⑸是碳水化合物酶相关的专业数据库,内容包括能催化碳水化合物降解、修饰、以及生物I合成的相关酶系家族该数据库主要涵盖种酶糖甘水解酶糖基6Glycoside Hydrolases,GHs转移酶多糖裂合酶碳水化合物酯酶GlycosylTransferases,GTsPolysaccharide Lyases,PLs辅酶、碳水化合物结合模块Carbohydrate Esterases,CEs AuxiliaryActivities,AAsCarbohydrate-Binding Modules,CBMso使用软件将非冗余基因集的基因序列与数据库进行比对,可得到基因的注BLAST CAZy释信息注释到碳水化合物酶的基因数目统计结果如下表,各酶所占比例如下图表格12CAZy功能注释统计结果Enzyme Genes numbers注Enzyme碳水化合物酶;Genesnumbers注释到的基因个数图7碳水化合物酶分布比例图功能丰度分析
2.7功能丰度分析
2.
7.1以某一层级的丰度表为依据,绘制出各个数据库中,各样品对应的层级上的KEGG,COG丰度统计图下图为和数据库注释下各样品的功能丰度图KEGG COG图8KEGG数据库第一层级注释的相对功能丰度柱形图图9COG数据库的相对功能丰度柱形图基因丰度聚类热图
2.
7.2根据所有样品在各个数据库中的功能注释及丰度信息,选取丰度排名前的功能及它们50在每个样品中的丰度信息绘制热图,并从功能差异层面进行聚类图10GO数据库功能丰度聚类热图项目概况1合同关键指标
1.1)完个样品的宏基因组测序分析,平均每个样品产出测序数据量至少;1G)测序数据处理与统计,包括过滤低质量、数据产出及质控统计;2)宏基因组组装;3)物种组成及丰度分析,包括物种注释和物种丰度聚类;4)基因组组分分析,包括基因预测、前噬菌体预测和转座元件预测,以及非冗余基因集构建和5基因丰度分析;)功能注释,包括、、、、、等通用数据库注释和、6KEGG COGPfam SwissProtNR GOARDB等特殊数据库注释;CAZy项目基本信息L2表格1样品信息表zxl^样品编号样品分组C4DOI PK【参考文献】
1.Fast andsensitive proteinalignment usingDIAMOND.Nat Methods,
2015.121:p.59-
60.
2.Global transcriptomeanalysis oforange wheatblossom midge,Sitodiplosis mosellanaGehinDiptera:Cecidomyiidae toidentify candidatetranscripts regulatingdiapause.PLoS One,
2013.88:p.e
71564.
3.Kraken:ultrafast metagenomicsequence classificationusing exactalignments.Genome Biol,
2014.153:p.R
46.
4.Celaj A.,et al.Comparison ofassembly algorithmsfor improvingrate ofmetatranscriptomicfunctional annotation.Microbiome,
2014.2:p.
39.
5.Fu L.,et al.CD-HIT:accelerated forclustering thenext-gene rationsequencing data.Bioinformatics,
2012.2823:p.3150-
2.
6.Gapped BLASTand PSI-BLAST:a newgeneration of protein databasesearch programs.Nucleicacids research,
1997.2517:p.3389-
3402.
7.The COGdatabase:a tool for genome-scale analysisofproteinfunctions andevolution.Nucleicacids research,
2000.281:p.33-
36.
8.Kanehisa M.,et aL,The KEGGresource fordeciphering thegenome.Nucleic acidsresearch,
2004.32suppl1:p.D277-D
280.
9.Apweiler R.,et al.UniProt:the UniversalProtein knowledgebase.Nucleic AcidsRes,
2004.32Database issue:p.D115-
9.
10.Aparicio G,et al.Blast2GO goesgrid:developing agrid-enabled prototypefor functionalgenomicsanalysis.Stud HealthTechnol Inform.2006;120:194-
204.
11.Ashbumer M.,et al.Gene Ontology:toolforthe unificationof biology.Nature genetics,
2000.251:p.25-
29.
12.Mistry J.,et al.Challenges inHomology Search:HMMER3and ConvergentEvolution ofCoiled-CoilRegions.Nucleic AcidsResearch,41:e121,
2013.
13.Pfam:the proteinfamilies database.Nucleic acidsresearch,2013:p.gktl
223.
14.Liu B.and PopM.ARDB—antibiotic resistancegenes database.Nucleic acidsresearch,
2009.37suppl1:p.D443-D
447.
15.Lombard V.,et al.The carbohydrate-active enzymesdatabase CAZyin
2013.Nucleic acidsresearch,
2014.42D1:p.D490-D
495.
16.Friedman J,Alm EJ.Inferring correlationnetworks fromgenomic surveydata.PLoS ComputBiol,2012,89:el
002687.
17.Lindstrom ES,Kamst-Van AgterveldMP,Zwart G.Distribution oftypical freshwaterbacterialgroups isassociated withpH,temperature,and lakewater retentiontime.Applied andenvironmentalmicrobiology2005,7112:8201-
8206.注zx编号我们对样品的统一编号,实验建库和后续信息分析均使用该编号;样品分组客户提供的样品分组信息实验流程
1.3实验流程按照公司提供的标准执行,包括样品质量检测、文库构建、文Illumina protocol末文片端库链段修纯接选文复化上产择样超,和库机物和品声加去质测预检破接检序实测碎和头验富接污集头染库质量检测和文库测序等流程,具体流程图如下图1实验流程图样品基因组检测合格后,用机械打断的方法(超声波)将片段化,然后对片段DNADNA化的进行纯化、末端修复、端加、连接测序接头,再用琼脂糖凝胶电泳进行片段大小DNA3,A选择,进行扩增形成测序文库,建好的文库先进行文库质检,质检合格的文库用PCR Illumina进行测序HiSeq信息分析流程
1.4对测序得到的原始(双端序列)进行质量评估并过滤得到用于后续生物reads Clean reads,信息学的分析对进行拼接组装、基因组组分分析(预测编码基因、原噬菌体、转Clean reads座元件),并对编码基因进行通用数据库和专用数据库的功能注释;同时,对进行Clean reads分类学分析,统计样品物种组成和丰度信息DNA DNAAPCR宏基因组生物信息分析流程如下:原始测序reads低质量数据过滤测序数据质控质控数据统计基于的物种注释reads转座元件预测拼接组装分类学分析基于的物种注释contigs前噬菌体预测基因预测基因组组分分析物种组成及丰度分析基因集构建基因功能及多样性分析功能注释丰度分析Anos-m基因丰度统计RD差异基因筛选差异基因分析ST分析A/AM差异基因注释CCNetwork分PA富集分析分PCA析分析分析图宏基因组生物信息分析流程图2L.WIl_w生物信息学分析2测序数据质控
2.1低质量数据过滤
2.
1.1测序得到的原始序列里面含有带接头的、低质量的及宿主来源的序列,为了保Raw reads证信息分析质量,需要对进行过滤,得到用于后续信息分析数据过滤Raw readsClean reads,的主要步骤如下去除带接头的;1adapter reads去除碱基含量达到一定比例的默认设为长度的;2N reads reads10%去除所含低质量碱基质量值超过一定比例的默认设为长度的3010readsreads50%o数据产出及质控统计
2.
1.2样品测序产出数据评估结果见下表表格样品测序数据评估统计2Samples Clean Reads BaseSum Q20%Q30%GC%C452,602,45615,767,624,788Samples CleanReads BaseSum Q20%Q30%GC%注Samples样品编号;CleanReads过滤后的reads数,以四行为一个单位,统计Pair-end序歹U的个数;BasesSum测序数据量;Q20%质量值大于等于20的碱基占总碱基数的百分比;Q30%质量值大于等于30的碱基占总碱基数百分比;GC%样品GC含量,即G和C类型的碱基占总碱基的百分比宏基因组组装及结果统计
2.2组装软件测评
2.
2.1数据来源和质量、组装软件、组装参数都会直接影响组装结果的好坏所以在正式组装前,需要对组装软件和参数进行评估这里我们选择和⑴进行组装;同时选SOAPdMou IDBA-UD择样品进行测试A10〃测试结果SO APdeov表格3SOAPdenovo组装测试结果统计Contig TotalLargestK-mer N50bp Mapped%Numbers Lengthbp Lengthbp注K-mer SOAPdewwo参数;Contig Numbers组装后conligs数目;Total Length所有contigs的碱基数之和;LargestLength最长contig的碱基数;N50contigs由长到短排序并统计累积长度,当加上某条contig而使累积长度等于所有contigs长度之和的一半时,该contig的长度即为N50;Mapped测序reads与组装contigs的比对率测试结果:IDBA-UDContig TotalLargestSample N50bp Mapped%Numbers Lengthbp Lengthbp表格4IDBA-UD组装测试结果统计注Sample样品编号;Contig Numbers组装后contigs的数目;TotalLength所有contigs的碱基数之和;LargestLength最长contig的碱基数;N50contigs由长到短排序并统计累积长度,当加上某条contig而使累积长度等于所有contigs长度之和的一半时,该contig的长度即为N50;M叩ped测序reads与组装contigs的比对率组装
2.
2.2经测试,的组装效果优于所以使用软件对IDBA-UD SOAPdewuo,IDBA-UD进行拼接组装(主要参数),输出Cleanreads—mink:21,—maxk:101,—step:20,-pre_correction大于的序列采用⑵软件对组装结果进行评估组装结果统计信息如下500bp ContigQUAST表所示Contig TotalLargestSamples N50bp Mapped%Numbers Lengthbp LengthbpC4383,853321,001,053123,687783表格5样品组装结果统计注Samples样品编号;Contig Numbers组装后contigs的数目;TotalLength所有contigs的碱基数之和;LargestLength最长contig的碱基数;N50contigs由长到短排序并统计累积长度,当加上某条contig而使累积长度等于所有contigs长度之和的一半时,该contig的长度即为N50;Mapped测序reads与组装contigs的比对率物种组成及丰度分析
2.3注释分析
2.
3.1kraken借助⑶kraken使用软件对物种注释结果进行可视化展示,展示结果中,圆圈从内到外依次代表KRONA不同的分类级别,扇形的大小代表不同物种注释结果的相对比例图3D01样品物种组成图注圆圈从内到外依次代表不同的分类级别界门纲目科属种;扇形的大小代表不同物种的相对比例;更多详细的信息请参考KRONA展示结果详解物种组成分析
2.
3.2下图展示了在门分类学水平上的物种柱状图,从图中可以直观看出各样品的物种组成及不同物种在各样品中所占的比例该图使用绘制Python图4门水平物种分布柱状图注横坐标为样品名称;纵坐标为相对丰度百分比一种颜色代表一个门,色块长度表示该门所占相对丰度比例;为使视图效果最佳,柱状图只显示丰度水平前十的门,并将其他门合并为Others在图中显示,unassigned代表未得到分类学注释的门,具体信息可在相应分类等级中的物种丰度表中查找物种丰度聚类热图
2.
3.3是以颜色梯度来代表数据矩阵中数值的大小并根据物种或样品丰度相似性进行聚Heatmap类的一种图形展示方式将高丰度和低丰度的物种分块聚集,通过颜色梯度及相似程度来反映多个样品群落组成的相似性和差异性根据每个样品的物种组成和相对丰度进行物种热图分析,提取每个分类学水平上的物种,利用语言工具,分别在门、纲、目、科、属、种分类水平上R计算样品间、物种间的欧氏距离再进行层次聚类分析热图聚Euclidean,Hierarchical clustering类结果中,颜色代表物种丰度;纵向聚类表示不同物种在各样品间丰度的相似情况,两物种间距离越近,枝长越短,说明这两个物种在各样品间的丰度越相似;横向聚类表示不同样品。
个人认证
优秀文档
获得点赞 0