还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
基因传递的计算方法现代生物信息学的基石课程概述与学习目标课程概述学习目标本课程全面介绍基因传递的计算方法,涵盖基因组数据分析、序•理解基因传递的基本概念和原理列比对、进化树构建、基因注释、基因表达分析、表观遗传学数•掌握各种序列比对算法和进化树构建方法据分析等多个方面我们将学习各种经典算法和现代机器学习方•熟悉基因注释和基因预测技术法,掌握生物信息学分析的流程和技术•能够进行基因表达数据分析和表观遗传学数据分析什么是基因传递?基本概念介绍基因传递定义基本概念基因传递是指遗传信息从亲代传递给•基因携带遗传信息的DNA片段子代的过程这是生物遗传和进化的•染色体DNA的载体,包含多个基础,也是生物多样性的重要来源基因基因传递的方式包括垂直传递和水平•基因组生物体全部的遗传信息传递•突变DNA序列的改变,可能影响基因功能传递方式•垂直传递从亲代到子代的基因传递基因传递研究的历史发展1865年孟德尔遗传定律1孟德尔通过豌豆杂交实验,提出了分离定律和自由组合定律,奠定了经典遗传学的基础1953年DNA双螺旋结构2沃森和克里克发现了DNA的双螺旋结构,揭示了遗传信息的物理载体20世纪后期分子生物学发展3分子生物学技术的发展,使得人们能够深入研究基因的结构、功能和调控21世纪基因组学时代4孟德尔遗传定律回顾分离定律自由组合定律12等位基因在配子形成时分离,不同基因的等位基因在配子形每个配子只携带一个等位基因成时独立分配,互不干扰显隐性关系结构与功能基础DNADNA结构DNA是由脱氧核糖、磷酸基团和含氮碱基(A、T、C、G)组成的双螺旋结构碱基配对碱基之间通过氢键配对,A与T配对,C与G配对,保证了DNA结构的稳定性DNA复制DNA复制是细胞分裂前的重要过程,保证了遗传信息的准确传递基因表达的中心法则翻译2RNA翻译成蛋白质,遗传信息从RNA传递到蛋白质转录1DNA转录成RNA,遗传信息从DNA传递到RNA复制3DNA复制保证遗传信息的准确传递中心法则描述了遗传信息从DNA到RNA再到蛋白质的传递过程,是分子生物学的核心理论理解中心法则是理解基因传递和基因表达的基础计算方法在基因研究中的重要性数据分析模式识别模型构建计算方法可以处理大规计算方法可以识别基因计算方法可以构建基因模基因组数据,发现隐序列中的特定模式,预调控网络模型,理解基藏在数据中的规律测基因的功能因之间的相互作用基因组数据类型概述DNA序列数据RNA序列数据蛋白质序列数据表观遗传学数据包含基因组的碱基序列信息包含基因表达水平的信息,包含蛋白质的氨基酸序列信包含DNA甲基化、组蛋白修,是基因研究的基础数据反映基因的活性状态息,是蛋白质功能研究的基饰等信息,反映基因的调控础数据状态序列比对的基本原理序列比对定义比对类型12序列比对是指将两条或多条序包括全局比对和局部比对,分列排列在一起,寻找它们之间别适用于整体相似性和局部相的相似性和差异性似性的序列比对打分系统3使用打分矩阵评估比对的质量,例如PAM矩阵和BLOSUM矩阵全局序列比对算法全局比对定义Needleman-Wunsch算法全局比对的目标是寻找两条序列整体上的最佳比对,适用于经典的全局比对算法,基于动态规划思想,寻找两条序列之相似度较高的序列间的最佳全局比对算法详Needleman-Wunsch解动态规划矩阵构建一个动态规划矩阵,矩阵的每个元素代表两条序列的子序列的比对得分递推公式根据递推公式计算矩阵中每个元素的值,递推公式考虑匹配、插入和删除三种情况回溯从矩阵的右下角开始回溯,找到得分最高的路径,即为最佳全局比对局部序列比对算法局部比对定义Smith-Waterman算法局部比对的目标是寻找两条序列中相似度最高的局部区域,适用经典的局部比对算法,基于动态规划思想,寻找两条序列之间的于序列之间存在局部相似性的情况最佳局部比对算法分析Smith-Waterman递推公式根据递推公式计算矩阵中每个元素的值2,递推公式考虑匹配、插入、删除和0动态规划矩阵四种情况1构建一个动态规划矩阵,矩阵的每个元素代表两条序列的子序列的比对得分回溯从矩阵中得分最高的元素开始回溯,找到得分最高的路径,即为最佳局部比对3Smith-Waterman算法与Needleman-Wunsch算法的主要区别在于递推公式中引入了0,使得算法能够找到局部相似性算法原理BLAST1BLAST定义2算法步骤BLAST BasicLocal AlignmentSearch Tool是一种快速•构建查询序列的k-mer列表的序列比对算法,用于在大规模数据库中寻找与查询序列•在数据库中寻找匹配的k-mer相似的序列•扩展匹配的k-mer,形成高分片段对HSP•评估HSP的显著性算法的实际应用BLAST基因功能预测物种鉴定通过将未知基因序列与已知基因通过将未知序列与已知物种的基序列进行比对,可以预测未知基因序列进行比对,可以鉴定未知因的功能序列所属的物种序列相似性分析可以用于分析不同序列之间的相似性,研究基因的进化关系多序列比对方法目的将多个序列排列在一起,揭示它们之间的共同模式和差异,从而推断它们的进化关系1和功能方法2包括渐进比对、迭代比对和一致性比对等方法应用3用于识别保守序列、构建进化树、预测蛋白质结构等算法解析ClustalW渐进比对1首先对所有序列进行两两比对,构建距离矩阵,然后根据距离矩阵构建导向树,最后按照导向树的顺序逐步比对序列打分系统2使用PAM矩阵或BLOSUM矩阵,并考虑空位罚分优点3速度快,适用于大规模序列比对算法介绍T-CoffeeT-Coffee是一种基于一致性的多序列比对算法它通过整合来自局部和全局比对的信息,构建一个综合的比对模型,从而提高比对的准确性该算法以其高质量的比对结果而闻名,尤其是在处理差异较大的序列时算法特点MUSCLE高速高精度MUSCLE算法在保证比对质量的前提下,具有很高的运行速度,MUSCLE算法采用迭代优化的策略,不断提高比对的精度适用于大规模序列比对进化树构建方法进化树定义构建方法进化树是一种描述物种或基因之间进化关系的树状图进化树的•距离矩阵法构建是研究生物进化和物种起源的重要手段•最大简约法•最大似然法•贝叶斯推断法距离矩阵法基本原理基于序列之间的距离构建进化树距离越近的序列,在进化树上的位置也越接近常用算法•UPGMA UnweightedPair GroupMethod withArithmetic Mean•Neighbor-Joining最大简约法基本原理选择需要进化步骤最少的进化树认为进化过程中发生突变的次数越少,该进化树越可靠优点简单易懂,计算速度快缺点可能无法找到真实的进化树,尤其是在进化速率较高的情况下最大似然法优点2能够充分利用序列信息,考虑进化模型基本原理的参数,从而得到更准确的进化树基于概率模型,选择在给定数据下,似1然度最大的进化树似然度是指在给定进化树和模型参数的情况下,观察到现有数据的概率缺点3计算量大,需要选择合适的进化模型贝叶斯推断法基本原理优点缺点基于贝叶斯定理,计算在给定数据下,能够整合先验信息,提供进化树的置信计算量大,需要选择合适的先验分布和进化树的后验概率后验概率是指在观度评估进化模型察到现有数据后,进化树为真的概率基因注释技术基因注释定义1基因注释是指对基因组中的基因进行功能描述的过程通过基因注释,可以了解基因的结构、功能、调控以及与其他基因的相互作用注释内容2•基因结构外显子、内含子、启动子等•基因功能参与的生物学过程、分子功能、细胞组分等•基因调控转录因子结合位点、表观遗传修饰等基因预测算法从头预测基于基因序列的特征进行预测,例如启动子序列、剪切位点、编码区等同源预测基于与其他物种已知基因的相似性进行预测利用序列比对算法,将未知序列与已知基因序列进行比对,从而预测基因的位置和功能隐马尔可夫模型在基因预测中的应用HMM定义隐马尔可夫模型Hidden MarkovModel,HMM是一种统计模型,用于描述一个含有隐含未知参数的马尔可夫过程应用在基因预测中,HMM可以用于识别基因的不同组成部分,例如外显子、内含子、启动子等HMM将基因的不同组成部分作为隐含状态,将基因序列的特征作为观测状态,通过训练HMM模型,可以预测基因的位置和结构神经网络在基因分析中的应用基因功能分类2利用神经网络模型,根据基因的序列特征,将基因分为不同的功能类别基因表达预测1利用神经网络模型,根据基因序列预测基因的表达水平基因调控网络重建利用神经网络模型,根据基因的表达数3据,构建基因调控网络机器学习方法概述监督学习无监督学习半监督学习利用带有标签的数据训练模型,例如基利用没有标签的数据训练模型,例如基利用部分带有标签的数据和部分没有标因分类、基因表达预测等因聚类、降维等签的数据训练模型支持向量机在基因分类中的应用1SVM定义支持向量机Support VectorMachine,SVM是一种监督学习算法,用于分类和回归分析SVM的目标是找到一个能够将不同类别的数据分开的最优超平面应用2在基因分类中,SVM可以用于将基因分为不同的功能类别,例如致病基因和非致病基因、肿瘤基因和非肿瘤基因等基因表达数据分析基因表达数据来源•Microarray•RNA-seq分析内容•差异表达基因分析•基因共表达网络构建•通路分析数据处理流程RNA-seq序列比对将RNA-seq数据比对到参考基因组上定量计算每个基因的表达水平差异表达分析寻找在不同条件下表达水平有显著差异的基因差异表达基因分析常用方法目的1•DESeq2寻找在不同条件下表达水平有显著差异的基因,从而揭示基因在特定生物过程2•edgeR中的作用•limma基因共表达网络构建基本原理常用方法基于基因表达数据,构建基因之间的共表达网络共表达网络是•WGCNA WeightedGene Co-expression NetworkAnalysis指基因之间表达模式相似的网络共表达网络可以用于预测基因的功能,研究基因之间的相互作用通路分析方法通路分析定义1通路分析是指将差异表达基因映射到已知的生物通路中,从而了解基因在特定生物过程中的作用常用数据库2•GO Gene Ontology•KEGG Kyoto Encyclopedia ofGenes andGenomes富集分析GOGO定义基因本体GeneOntology,GO是一种对基因和蛋白质功能进行标准描述的分类体系GO将基因和蛋白质的功能分为三个方面生物学过程Biological Process、分子功能Molecular Function和细胞组分Cellular Component富集分析GO富集分析是指寻找在差异表达基因中显著富集的GO条目,从而了解基因在特定生物过程中的作用通路分析KEGGKEGG定义京都基因与基因组百科全书KyotoEncyclopediaof GenesandGenomes,KEGG是一种整合了基因组、化学和系统功能信息的数据库KEGG将基因和蛋白质的功能分为多个通路,例如代谢通路、信号通路等通路分析KEGG通路分析是指寻找在差异表达基因中显著富集的KEGG通路,从而了解基因在特定生物过程中的作用蛋白质序列分析结构预测2根据蛋白质序列预测蛋白质的三维结构序列比对1将未知蛋白质序列与已知蛋白质序列进行比对,寻找相似序列功能预测根据蛋白质序列和结构预测蛋白质的功3能蛋白质结构预测同源建模从头预测基于与未知蛋白质序列相似的已知蛋白质结构进行预测基于蛋白质序列的物理化学性质进行预测蛋白质功能预测1序列相似性2结构相似性3domain分析基于与已知蛋白质序列的相似性进基于与已知蛋白质结构的相似性进根据蛋白质序列中包含的domain进行预测行预测行预测Domain是指蛋白质序列中具有特定功能和结构的区域表观遗传学数据分析DNA甲基化在DNA序列的胞嘧啶碱基上添加甲基,影响基因的表达组蛋白修饰对组蛋白进行修饰,影响基因的表达甲基化数据处理DNA序列比对甲基化水平定量差异甲基化分析将DNA甲基化测序数据比对到参考基因计算每个胞嘧啶碱基的甲基化水平寻找在不同条件下甲基化水平有显著差组上异的区域数据分析ChIP-seqpeak calling2寻找基因组中与特定蛋白质结合的区域peak序列比对1将ChIP-seq数据比对到参考基因组上注释将peak注释到基因组的基因、启动子、3增强子等区域基因调控网络重建基本原理常用方法基于基因表达数据、ChIP-seq数据、DNA甲基化数据等,构建基•贝叶斯网络因之间的调控关系网络基因调控网络描述了基因之间如何相互•动态贝叶斯网络作用,从而调控基因的表达系统生物学方法定义1系统生物学是一种研究生物系统的整体性质的方法系统生物学将生物系统看作一个整体,研究各个组分之间的相互作用,从而理解生物系统的功能方法2•构建生物系统的数学模型•进行计算机模拟•进行实验验证基因组组装算法de novo组装没有参考基因组的情况下,将测序reads拼接成基因组序列基于参考基因组的组装将测序reads比对到参考基因组上,从而构建基因组序列测序数据分析de novo序列拼接将测序reads拼接成contigContig是指一段连续的基因组序列支架构建将contig连接成scaffoldScaffold是指一组有序的contig,之间可能存在空位空位填充填充scaffold之间的空位,得到完整的基因组序列变异检测方法变异识别2识别与参考基因组不同的区域,即为变异序列比对1将测序reads比对到参考基因组上注释将变异注释到基因组的基因、启动子、3增强子等区域分析技术SNPSNP定义分析方法单核苷酸多态性Single NucleotidePolymorphism,SNP是指基•GWAS Genome-Wide AssociationStudy因组中单个核苷酸的变异SNP是基因组中最常见的变异类型,也是研究遗传变异与疾病关系的重要工具分析流程GWAS基因分型关联分析12对个体进行基因分型,得到个分析SNP与疾病之间的关联关体的SNP数据系结果评估3评估关联分析结果的显著性,找到与疾病相关的SNP群体遗传学计算方法群体结构分析分析群体的遗传结构,了解群体的起源和进化历史遗传漂变研究随机因素对基因频率的影响基因组进化分析序列比对将不同物种的基因组序列进行比对基因组重排分析分析不同物种基因组的重排情况进化树构建构建不同物种之间的进化树比较基因组学方法基因功能比较2比较不同物种基因的功能,例如参与的生物过程、分子功能等基因组结构比较1比较不同物种的基因组结构,例如基因数量、基因顺序等基因组进化速率比较3比较不同物种基因组的进化速率功能基因组学分析转录组学蛋白质组学研究基因的表达水平,了解基因的活性状态研究蛋白质的表达水平和修饰,了解蛋白质的功能整合多组学数据分析数据整合1将不同组学数据整合在一起,例如基因组学、转录组学、蛋白质组学、表观遗传学等模型构建2构建整合多组学数据的数学模型,从而理解生物系统的功能基因网络可视化技术Cytoscape Gephi一种常用的基因网络可视化工具,可以用于构建、分析和可一种常用的网络可视化工具,可以用于可视化大规模网络视化基因网络生物信息学数据库使用NCBI美国国家生物技术信息中心National CenterforBiotechnology Information,NCBI提供了丰富的生物信息学数据库,例如GenBank、PubMed等Ensembl欧洲生物信息学研究所European BioinformaticsInstitute,EBI提供了基因组注释数据库EnsemblUCSC GenomeBrowser加州大学圣克鲁兹分校University ofCalifornia,Santa Cruz,UCSC提供了基因组浏览器UCSC GenomeBrowser,可以用于查看基因组注释信息计算工具和软件平台Python一种常用的编程语言,广泛应用于生物2信息学数据分析和软件开发R语言1一种常用的统计分析编程语言,广泛应用于生物信息学数据分析Bioconductor一个基于R语言的生物信息学软件包,提供了丰富的生物信息学数据分析工具3实际案例分析与讨论案例1肿瘤基因组分析案例2传染病基因组分析分析肿瘤基因组数据,寻找与肿瘤发生相关的突变基因,从而为分析传染病病原体的基因组数据,了解病原体的进化和传播规律肿瘤诊断和治疗提供依据,从而为传染病防控提供依据。
个人认证
优秀文档
获得点赞 0