还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
生物统计学原理与应用欢迎参加《生物统计学原理与应用》课程!本课程将带领大家深入了解生物统计学的核心概念、分析方法以及在生命科学研究中的实际应用从基本的统计概念到高级的数据分析技术,我们将探索如何利用统计学工具解决生物医学领域的复杂问题通过系统学习,您将掌握从研究设计、数据收集到结果解释的全过程统计方法,为您的科研工作提供扎实的方法学基础无论您是学生、研究人员还是医疗专业人士,这些知识都将帮助您更好地理解和应用统计学原理,提升研究质量和科学决策能力课程介绍主要教学目标掌握生物统计学的基本概念和方法,能够独立设计研究方案,正确收集和分析数据,并对结果进行科学解释核心学习内容概率论基础、描述性统计、推断统计、回归分析以及在生物医学领域的具体应用实践技能培养熟悉主流统计软件(、、等)的操作,能够应用统计方法解决R SPSSExcel实际生物医学问题学习成果预期具备独立进行数据分析与解释的能力,为科研设计和学术发表提供有力支持生物统计学的起源与发展世纪早期世纪中期世纪初现代发展171920约翰格朗特弗朗西斯高尔顿罗纳德费舍尔计算技术和大数据分析方·John Graunt·Francis·Ronald开始收集和分析伦敦的死应用统计方法研究发展实验设计方法法的出现使生物统计学在Galton Fisher亡率数据,为人口统计学遗传现象,提出回归概念和推断统计学,推动农业基因组学和个体化医疗领奠定基础和医学研究发展域发挥关键作用生物统计学在生命科学中的作用医学研究公共卫生遗传学研究在临床试验中,生物统计学用于样本在流行病学调查中,生物统计学帮助在基因测序数据分析中,生物统计学量计算、随机化设计和结果分析,确确定疾病风险因素、评估干预措施效用于识别与疾病相关的基因变异,推保研究结论的科学性和可靠性果,为公共卫生决策提供依据动精准医疗发展例如新冠肺炎疫苗的有效性和安全例如通过多中心数据分析,确定高例如全基因组关联研究使用GWAS性评估过程中,统计学方法用于比较血压与饮食、运动等生活方式因素的统计方法在数百万个基因位点中筛选接种组与对照组之间的感染率和不良关联,为健康教育提供精准指导出与特定疾病显著相关的变异位点反应发生率差异生物统计学的基本流程研究设计与数据采集明确研究目标,选择合适的研究设计,确定样本规模,制定详细的数据收集方案,最大限度减少偏倚数据清理与整理检查数据完整性,处理缺失值和异常值,转换数据格式,为后续分析做准备数据分析选择适当的统计方法,进行描述性统计和推断统计分析,验证研究假设结果解释与展示根据统计分析结果,结合专业知识进行科学解释,使用图表直观呈现研究发现结论形成与报告撰写总结研究结果,讨论局限性,提出建议,撰写研究报告或论文数据类型与数据结构定性数据定量数据描述性质或类别的数据,无法进行可以测量和进行数学运算的数值数数学运算据名义型如性别、血型、基因离散型如细胞计数、子代数••型量顺序型如疾病严重程度分级连续型如身高、体重、浓度••常用数据结构在生物统计学中常见的数据组织形式长格式数据每个观测占一行•宽格式数据每个个体占一行•时间序列数据含时间维度的观测•样本与总体总体样本研究兴趣所涉及的全部个体或对象的集从总体中抽取的一部分个体合通过样本推断总体的特征•通常规模庞大,难以全部观测•例医院中随机选择的名糖尿病•100例中国所有糖尿病患者患者•抽样方法样本代表性从总体中选择样本的技术和规则样本反映总体特征的程度简单随机抽样•良好的抽样设计确保代表性•分层抽样•样本偏倚会影响研究结论的可靠性•系统抽样•变量的种类名义型变量仅表示类别,无顺序关系顺序型变量具有等级或顺序关系,但等级间距不一定相等区间型变量等距刻度,但无绝对零点比率型变量具有绝对零点,可进行比率计算名义型变量如血型(A型、B型、AB型、O型)只能分类,无大小比较;顺序型变量如疼痛等级(轻、中、重)有顺序但无法确定间距;区间型变量如摄氏温度有等间距但零度不表示没有温度;比率型变量如身高、体重有绝对零点,因此身高160厘米是80厘米的2倍这种说法是有意义的描述性统计集中趋势指标算术平均数中位数众数所有观测值之和除以将所有观测值排序后在数据集中出现频率观测值的个数处于中间位置的值最高的数值优点利用全部数据,优点不受极端值影优点适用于各种数计算简单响据类型缺点易受极端值影缺点不考虑数据的缺点可能不唯一或响具体数值不存在适用呈对称分布的适用偏态分布或存适用分类数据或多数据在异常值峰分布描述性统计离散程度指标离散指标计算方法特点应用场景方差各观测值与均值偏反映数据的波动程用于进一步计算和推差的平方和的平均度,单位为原始数断值据单位的平方标准差方差的算术平方根单位与原始数据相测量数据分散程度的同,便于理解和比常用指标较四分位差第三四分位数减去不受极端值影响,存在极端值的数据集第一四分位数反映中间50%数据的离散程度极差最大值减去最小值计算简单,但仅依小样本初步分析赖两个极端观测值变异系数标准差除以平均值无量纲,可用于不比较不同量级或单位再乘以100%同单位数据的比较的数据数据分布与正态分布简介常见数据分布类型正态分布的特征对称分布如正态分布正态分布(也称高斯分布)是生物统计学中最重要的分布之•一,具有以下特征偏态分布如对数正态分布•双峰分布显示两个明显的峰值•钟形曲线,关于均值对称•均匀分布各区间概率相等•均值、中位数、众数三者相等•由均值和标准差两个参数完全确定•μσ不同的数据分布类型需要采用相应的统计方法,选择适当的分析工具是统计分析的关键步骤之一法则约的数据落在范围内,约•68-95-
99.768%μ±σ95%落在范围内,约落在范围内μ±2σ
99.7%μ±3σ直方图与条形图直方图条形图用于展示连续型变量的分布情况,x轴为数据的区间,y轴为频数或频率用于展示分类变量的频数或频率,x轴为不同的类别,y轴为频数或频率矩形的高度表示该区间内观测值的数量每个类别用一个条形表示,条形的高度表示该类别的频数适用场景血糖水平、身高、体重等连续数据的分布展示通过直方图适用场景基因型分布、不同治疗方法的效果比较等分类数据的展示可以直观地判断数据是否呈正态分布或其他分布类型条形之间通常有间隔,强调各类别的独立性盒须图与散点图盒须图散点图盒须图(箱线图)是一种展示数据分散情况的图形,包含五散点图用于展示两个连续变量之间的关系,每个点代表一个个要素最小值、第一四分位数、中位数、第三四分位观测值,横坐标和纵坐标分别表示两个变量的数值Q1数和最大值Q3通过点的分布模式,可以直观地观察变量间可能存在的线性盒子表示中间的数据范围,盒子内的线表示中位数,两或非线性关系,以及相关性的强弱50%侧的胡须延伸至非异常值的最大和最小值,超出范围的点适用场景探索两个变量之间的相关性,如身高与体重的关表示异常值系、药物剂量与血药浓度的关系等也可以通过不同颜色或适用场景比较不同组之间的数据分布,识别异常值和评估形状的点来显示分组信息数据的对称性例如比较不同治疗组患者的血压变化数据可视化案例展示上述图例展示了生物医学研究中常用的几种高级数据可视化方法热图Heatmap用于展示基因表达数据,颜色的深浅表示表达水平的高低;生存曲线Kaplan-Meier plot用于比较不同治疗方法的生存率;森林图Forest plot用于展示荟萃分析的结果,直观显示效应值及其置信区间;火山图Volcano plot用于展示基因组学数据中的显著性与变化幅度;网络图Network graph用于展示蛋白质之间的相互作用关系利用进行数据整理R/Excel数据导入在R中,可使用read.csv、read.table等函数导入不同格式的数据;在Excel中,可通过数据菜单中的获取外部数据功能导入不同来源的数据数据清理处理缺失值在R中使用na.omit、complete.cases或填充函数;在Excel中使用条件格式标记并处理空值识别并处理异常值使用箱线图或Z-score等方法检测,根据情况决定删除或替换数据转换变量类型转换在R中使用as.numeric、as.factor等函数;在Excel中通过数据菜单下的文本分列功能创建新变量在R中使用mutate或直接赋值;在Excel中使用公式计算数据重塑在R中,使用tidyr包的pivot_longer和pivot_wider函数在长格式和宽格式之间转换;在Excel中,可使用数据透视表功能重新组织数据结构,便于后续分析和可视化概率的基本概念样本空间事件概率的定义随机试验中所有可能结果的集合,通常样本空间的子集,代表我们感兴趣的某在频率学派中,概率定义为大量重复试用表示些结果的集合验中事件发生的相对频率Ω例如掷一枚骰子的样本空间例如掷骰子得到偶数的事件在贝叶斯学派中,概率表示对事件发生Ω={1,2,A={2,4,的信念程度3,4,5,6}6}概率值在到之间,表示不可能发生,010表示必然发生1概率的基本性质规范性非负性样本空间的概率等于ΩPΩ1任何事件的概率都大于或等于A PA0加法定理互斥事件与的并集概率∪A B PA B=PA+PB乘法定理独立事件与的交集概率A BPA∩B减法定理=PA×PB事件的互补事件概率A PĀ=1-PA这些基本性质构成了概率论的基础,在生物统计中有广泛应用例如,在基因遗传研究中,利用乘法定理计算独立遗传特征同时出现的概率;在医学诊断中,利用贝叶斯定理结合先验概率和似然度计算疾病的后验概率条件概率与贝叶斯公式条件概率的定义贝叶斯公式应用实例事件已经发生的条件下,事件发生贝叶斯公式用于更新对事件概率的认临床诊断中已知某疾病在人群中的B A的概率,记为识,结合先验知识和新证据患病率先验概率为,诊断测试的PA|B1%灵敏度阳性患病为,特异度P|95%计算公式,公式PA|B=PA∩B/PB PA|B=[PB|A×PA]/PB阴性未患病为P|90%其中PB0其中,是事件的先验概率,PA A若某人测试呈阳性,其实际患病的概例如已知某人携带某基因突变,是获得证据后事件的后验概BPA|B BA率患病阳性为P|他发展为某种疾病的概率率A[
0.95×
0.01]/[
0.95×
0.01+
0.1×,即约
0.99]≈
0.
0888.8%离散型概率分布二项分布泊松分布描述次独立重复试验中,每描述在固定时间或空间内,n次试验只有两种可能结果成随机事件发生次数的概率分功或失败,且成功概率保布,特别适用于描述罕见事p持不变时,成功次数的概件X率分布数学表达式PX=k=λ^k数学表达式PX=k=×e^-λ/k!Cn,k×p^k×1-p^n-k其中是单位时间或空间内事λ应用实例在遗传学中,如件的平均发生次数果某基因的显性等位基因频应用实例细胞培养皿中突率为,则在个独立个体中p n变细胞的数量、单位时间内有个显示显性性状的概率服k放射性元素的衰变次数、特从二项分布定区域内罕见物种的出现次数等连续型概率分布正态分布最常见的连续分布,描述受多种微小随机因素影响的变量分布t小样本情况下估计总体均值的抽样分布卡方分布用于方差分析和分类数据检验分布F两个样本方差比值的分布,用于方差分析指数分布描述事件之间的等待时间,如细胞分裂间隔这些分布在生物统计学中有广泛应用正态分布适用于描述许多生物测量指标,如身高、血压等;t分布用于小样本时进行均值的区间估计和假设检验;卡方分布用于拟合优度检验和独立性检验,如基因型频率是否符合哈迪-温伯格平衡;F分布用于比较不同治疗组之间的方差差异;指数分布则常用于描述生存分析中的生存时间中心极限定理随机变量从任意分布中抽取独立同分布的随机变量求和平均计算这些随机变量的和或平均值近似正态当样本量足够大时,均值的抽样分布近似服从正态分布推断应用为许多统计推断方法提供理论基础中心极限定理是统计学中最重要的定理之一,它指出无论总体分布形态如何,只要样本量足够大(通常n≥30),样本均值的抽样分布将近似服从正态分布,且该正态分布的均值等于总体均值,标准差等于总体标准差除以样本量的平方根在生物统计学中,由于我们常常无法获得总体的完整信息,需要通过样本来推断总体特征,中心极限定理为我们提供了样本均值分布的重要性质,使得即使在总体分布未知的情况下,也能够进行可靠的统计推断这为各类均值的区间估计和假设检验提供了理论基础概率分布在生物中的应用疾病风险评估利用正态分布分析人群中的血压、血糖等指标,确定异常值的界定标准和患病风险例如根据大样本研究确定空腹血糖的均值和标准差,利用正态分布特性,将高于某个百分位数(如95%)的值定义为异常,作为糖尿病筛查的切点基因突变分析使用泊松分布描述DNA序列中随机突变的发生频率,为进化分析提供数学模型例如在研究微生物在不同环境条件下的突变率时,通过泊松分布计算特定时间内发生n次突变的概率,评估环境因素对基因稳定性的影响药物反应预测应用对数正态分布描述人群对药物的血药浓度分布,指导个体化给药方案例如某抗生素在人群中的清除率服从对数正态分布,通过测定患者的药物代谢酶活性,预测其可能属于分布的哪一部分,从而调整给药剂量和间隔生存分析使用指数分布和威布尔分布模拟生物体的生存时间,评估治疗方案的有效性例如在癌症临床试验中,采用威布尔分布拟合患者的生存曲线,比较不同治疗方案下的生存函数参数,评估治疗效果参数估计基础点估计区间估计使用样本统计量对总体参数进行单一数值的估计构建一个区间,使总体参数以指定的置信水平落入其中常用方法区间估计比点估计提供了更多信息,包含了估计的不确定性矩估计法使用样本矩来估计总体矩,简单直观•常见的区间估计形式最大似然估计法选择使观测数据出现概率最大的参数•值均值的置信区间•最小二乘法使估计值与观测值之间偏差平方和最小•比例的置信区间•例如样本均值作为总体均值的点估计,样本方差作为方差的置信区间x̄μs²•总体方差的点估计σ²区间的宽度反映了估计的精确度,受样本量和样本变异性的影响置信区间的理解与计算置信水平置信水平(通常表示为1-α,如95%)表示采用相同方法构建区间时,这些区间包含真实参数值的比例它反映了我们对估计精确度的信心程度,常用的置信水平有90%、95%和99%一般计算形式大多数置信区间的一般形式为点估计值±临界值×标准误其中,临界值取决于所选的置信水平和使用的概率分布(如z分布或t分布),标准误则与抽样分布的标准差有关区间宽度影响因素影响置信区间宽度的主要因素包括置信水平(较高的置信水平导致更宽的区间)、样本量(较大的样本量导致更窄的区间)以及样本的变异性(较大的样本标准差导致更宽的区间)常见误解置信区间的常见误解是认为它表示参数落在区间内的概率实际上,参数是固定的,要么在区间内,要么不在区间内置信水平95%意味着如果重复抽样构建区间,长期来看约95%的区间会包含真实参数值单总体均值的区间估计确定是否已知总体标准差当总体标准差σ已知时,使用Z分布;当σ未知时(大多数实际情况),使用t分布并用样本标准差s代替σ计算样本统计量计算样本均值x̄和样本标准差s样本均值x̄=∑xi/n;样本标准差s=√[∑xi-x̄²/n-1]确定置信水平和临界值选择置信水平(如95%),确定对应的临界值(对于t分布,临界值依赖于自由度df=n-1)例如,95%置信水平对应的双侧Z临界值为
1.96计算标准误和置信区间标准误SE=s/√n;95%置信区间=x̄±tdf,
0.025×SE,其中tdf,
0.025为自由度为df、右侧概率为
0.025的t分布临界值实例在一项测量小鼠血糖水平的实验中,随机抽取25只小鼠,测得其血糖均值为120mg/dL,标准差为15mg/dL计算总体均值的95%置信区间标准误SE=15/√25=3;t24,
0.025≈
2.064;95%置信区间=120±
2.064×3=120±
6.192=[
113.808,
126.192]mg/dL比例与方差的区间估计参数类型点估计量标准误置信区间公式适用条件总体比例样本比例且p p̂=x/n SEp̂=√[p̂1-p̂/n]p̂±zα/2×SEp̂np̂≥5n1-p̂≥5总体方差样本方差基于卡方分布总体近似服从正态分σ²s²[n-1s²/χ²α/2,n-布1s²/χ²1-α/2]比例区间估计实例在一项药物不良反应研究中,名患者中有人报告轻微头痛计算不良反应发生率的置信区间3004595%样本比例;标准误;置信区间p̂=45/300=
0.15SEp̂=√[
0.15×
0.85/300]≈
0.020695%=
0.15±
1.96×
0.0206=
0.15±,即约至
0.0404=[
0.1096,
0.1904]
11.0%
19.0%方差区间估计实例某生物指标测量值的样本方差,样本量计算总体方差的置信区间s²=25n=2095%对于,,,;置信区间df=19α=
0.05χ²
0.975≈
8.91χ²
0.025≈
32.8595%=[19×25/
32.85,19×25/
8.91]=[
14.46,
53.31]假设检验的基本思想提出假设确立原假设H₀和备择假设H₁选择检验方法根据数据类型和研究问题选择适当的统计检验计算检验统计量根据样本数据计算相应的统计量做出决策比较P值与显著性水平,决定接受或拒绝原假设假设检验是用于评估样本数据是否提供足够证据支持特定假设的统计方法原假设H₀通常表示无差异或无效应,而备择假设H₁则是研究者希望证明的主张例如,在测试新药效果时,原假设可能是新药与安慰剂相比没有效果差异,备择假设则是新药比安慰剂更有效假设检验过程中,我们根据样本数据计算特定的统计量(如t统计量),并判断在原假设为真的情况下观察到此样本结果的概率(P值)如果这个概率非常小(通常小于预设的显著性水平α,如
0.05),我们就拒绝原假设,认为数据支持备择假设第一类错误与第二类错误₀为真₀为假H H拒绝₀第一类错误正确决策Hα1-β接受₀正确决策第二类错误H1-αβ在假设检验中,可能发生两种类型的错误第一类错误错误第二类错误错误αβ当原假设₀实际为真时,错误地拒绝了它这种错误的概率等于显当原假设₀实际为假时,错误地接受了它这种错误的概率为,H Hβ著性水平而称为检验的统计效力α1-β例如当新药实际上与标准治疗无差异时,错误地得出新药更有效例如当新药实际上比标准治疗更有效时,错误地得出无显著差异的结论的结论在医学研究中,第一类错误可能导致采用实际无效的治疗方法,增加在医学研究中,第二类错误可能导致错过有效的治疗方法,延迟医学医疗成本,并可能对患者造成不必要的风险进步,无法改善患者预后显著性水平与值P显著性水平值αP研究者预先设定的犯第一类错误的最大允在原假设为真的条件下,获得当前或更极许概率端样本结果的概率通常取、或较小的值表示样本结果不太可能在原•
0.
050.
010.001•P假设下观察到表示在原假设为真时,拒绝原假设的•概率值越小,证据越强•P常见误解判断规则值的正确理解P比较值与显著性水平P值不是原假设为真的概率•P当时,拒绝原假设•P≤α值不是研究结果偶然出现的概率•P当时,不拒绝原假设•Pα值小不一定意味着效应量大•P单样本均值的检验t检验问题用于检验样本均值是否与已知的总体均值μ₀存在显著差异假设设定H₀:μ=μ₀样本来自均值为μ₀的总体H₁:μ≠μ₀双侧检验或μμ₀或μμ₀单侧检验计算统计量tt=x̄-μ₀/s/√n其中x̄为样本均值,s为样本标准差,n为样本量做出决策若|t|t临界值或Pα,则拒绝H₀t临界值由自由度df=n-1和显著性水平α决定实例研究人员想知道某地区成年人的平均血糖水平是否与全国参考值
5.6mmol/L不同随机抽取20名该地区成年人,测得平均血糖为
5.8mmol/L,标准差为
0.4mmol/L进行双侧t检验,α=
0.05计算t统计量t=
5.8-
5.6/
0.4/√20=
0.2/
0.089≈
2.25对于df=19,α=
0.05的双侧检验,t临界值为±
2.093由于|t|t临界值,拒绝原假设,认为该地区成年人的平均血糖水平与全国参考值存在显著差异两独立样本均值检验t检验目的生物学实验设计实例比较两个独立总体的均值是否存在显著差异常用于比较两个不同处理组研究问题新开发的生长因子是否能显著促进实验小鼠的体重增加?的效果,如药物组与对照组实验设计假设•随机将40只相同年龄和基因背景的小鼠分为两组•H₀:μ₁=μ₂两总体均值相等•实验组n=20注射生长因子•H₁:μ₁≠μ₂两总体均值不相等•对照组n=20注射等量生理盐水检验统计量t=x₁̄-x₂̄/sqrts₁²/n₁+s₂²/n₂•处理4周后测量体重增加量结果分析其中x̄₁,x̄₂为两组样本均值,s₁²,s₂²为样本方差,n₁,n₂为样本量实验组平均增重
5.2g,标准差
1.1g对照组平均增重
4.3g,标准差
0.9g计算t统计量t=
5.2-
4.3/sqrt
1.1²/20+
0.9²/20≈
2.91对于df≈38,α=
0.05的双侧检验,t临界值为±
2.024由于|t|t临界值,拒绝原假设,认为生长因子能显著促进小鼠体重增加配对样本检验t适用情景当每对观测值来自相同的受试对象或匹配的受试对象时,如同一患者治疗前后的指标变化,或匹配的双胞胎研究配对设计可以排除个体间差异的影响,提高检验的敏感性计算差值配对样本t检验的核心是计算每对数据的差值d=x₁-x₂,然后对这些差值进行分析通过这种方式,我们实际上将双样本问题转化为单样本问题这些差值的均值是否显著不同于零3进行检验假设H₀:μd=0差值的总体均值为零;H₁:μd≠0双侧检验检验统计量为t=d̄/sd/√n,其中d为̄差值的均值,sd为差值的标准差,n为配对样本数解释结果根据计算得到的t值和相应的P值,判断是否拒绝原假设如果拒绝,则说明干预前后存在显著差异还应计算效应量(如Cohens d)来评估差异的实际意义临床实例研究降压药物的效果,招募15名高血压患者,记录用药前和用药4周后的收缩压mmHg差值的均值d̄=-
18.5mmHg,差值的标准差sd=
8.2mmHg进行配对t检验t=-
18.5/
8.2/√15≈-
8.74,df=14,P
0.001结果表明,该降压药物显著降低了患者的收缩压方差分析基础ANOVA基本概念总方差分解方差分析用于比较三个或更多组的均值差异将总方差分解为组间方差和组内方差结果判断检验F若F统计量显著,则至少存在一对组间的差异比较组间方差与组内方差的比值单因素方差分析One-way ANOVA是最基本的方差分析形式,用于检验一个分类因素对应的多个水平(组)之间是否存在显著差异其核心思想是比较组间变异与组内变异的相对大小假设H₀:μ₁=μ₂=...=μ所有组均值相等;H₁:至少有两组均值不相等ₖF统计量=组间方差MSB/组内方差MSW,其中MSB=SSB/k-1,MSW=SSW/N-k,SSB为组间平方和,SSW为组内平方和,k为组数,N为总样本量在H₀为真的情况下,F统计量服从自由度为k-1,N-k的F分布如果计算的F值大于临界值,则拒绝H₀,认为各组之间存在显著差异方差分析结果的解释检验假设条件评估效应量检查方差分析的假设条件是否满足1各进行多重比较统计显著性不等同于实际意义,应计算效组样本独立;2各组内数据近似服从正态检查检验结果F如果F检验显著,需要进行事后检验post-应量以评估差异的大小ANOVA中常用分布;3各组方差相等(方差齐性)如首先观察ANOVA表中的F统计量和P值hoc tests以确定具体哪些组之间存在差异的效应量指标包括η²(eta squared)和ω²果假设严重违背,应考虑使用非参数方法如果Pα(通常为
0.05),则拒绝原假设,常用的多重比较方法包括Tukey HSD、(omega squared),分别表示因素解释或数据转换认为至少有两组之间存在显著差异F值Bonferroni、Scheffe、LSD等这些方法的方差比例和对总体的估计越大,组间差异越显著通过调整P值或临界值来控制总体第一类错误率例如,在比较三种不同培养基对细胞生长速率影响的实验中,ANOVA分析显示F2,27=
8.75,P=
0.001,表明培养基类型对生长速率有显著影响通过Tukey HSD事后检验发现,培养基A与C之间P=
0.
0008、B与C之间P=
0.015存在显著差异,而A与B之间无显著差异P=
0.42计算得到η²=
0.39,表明培养基类型解释了约39%的生长速率变异非参数检验方法简介非参数检验的适用情况常用的秩和检验当数据不满足参数检验的假设条件时,可使用常见的秩和检验方法包括非参数检验•Mann-Whitney U检验两独立样本比较•样本不服从正态分布的非参数方法,t检验的替代方案•样本量小•Wilcoxon符号秩检验配对样本比较的非•数据为顺序型或名义型参数方法,配对t检验的替代方案•存在极端值•Kruskal-Wallis检验三个或更多独立样本比较,单因素ANOVA的非参数替代方案•Friedman检验重复测量数据的非参数方法,重复测量ANOVA的替代方案卡方检验用于分析分类变量之间的关联•拟合优度检验检验观察频数与理论频数的差异•独立性检验检验两个分类变量是否相互独立•同质性检验检验不同组的分布是否相同χ²=∑[O-E²/E],其中O为观察频数,E为期望频数相关分析原理相关分析是研究两个连续变量之间关系强度和方向的统计方法皮尔逊相关系数是最常用的相关指标,其值介于到之间表r-1+1+1示完全正相关,表示完全负相关,表示无线性相关-10皮尔逊相关系数的计算公式为,其中和为两个变量的观测值,和为各自的均值r=∑x-x̄y-ȳ/√[∑x-x̄²∑y-ȳ²]x y x̄ȳ相关系数的平方称为决定系数,表示一个变量的变异能够被另一个变量解释的比例例如,时,,表示约的变r²r=
0.7r²=
0.4949%异可以被解释需要注意的是,相关并不意味着因果关系,两个变量可能都受第三个变量影响而表现出相关性相关分析实例与解读患者ID年龄x血压yx-x̄y-ȳx-x̄y-x-x̄²y-ȳ²ȳ145120-10-15150100225250125-5-1050251003551300-50025460140552525255651501015150100225均值55135--∑=375∑=250∑=600在上表的医学研究数据中,我们分析了年龄x与收缩压y之间的相关性根据计算,皮尔逊相关系数r=∑x-x̄y-ȳ/√[∑x-x̄²∑y-ȳ²]=375/√250×600=375/
387.3≈
0.97这个结果表明年龄与收缩压之间存在很强的正相关关系r接近1,即随着年龄的增长,收缩压也倾向于升高决定系数r²=
0.94,说明约94%的收缩压变异可以由年龄变异来解释通过假设检验t=r√n-2/√1-r²,可确定这种相关性在统计上是显著的P
0.01这一发现与已知的年龄是高血压风险因素的医学认识一致,但相关不等于因果,其他因素如饮食习惯、遗传因素等可能同时影响年龄和血压简单线性回归基本概念拟合优度评估简单线性回归分析用于建立一个自变量与一个因变量决定系数是评估回归模型拟合优度的重要指标,衡量模x yR²之间的线性关系模型型解释的因变量变异比例回归方程₀₁y=β+βx+εR²=SSR/SST=1-SSE/SST₀截距,表示时的期望值总平方和•βx=0y•SST=∑y-ȳ²₁斜率,表示每增加一个单位,的期望变化量回归平方和•βx y•SSR=∑ŷ-ȳ²随机误差项,假设服从均值为的正态分布误差平方和•ε0•SSE=∑y-ŷ²根据样本数据估计得到的回归方程₀₁介于和之间,值越大表示模型解释力越强ŷ=b+b xR²01其中₀和₁分别是₀和₁的估计值,通常使用最小二乘除了外,还可以通过均方误差、平均绝对误差b bββR²MSE法求解、赤池信息量准则等指标评估模型性能MAE AIC简单线性回归案例多元线性回归简介基本模型多元线性回归是简单线性回归的扩展,考虑多个自变量对因变量的影响模型形式y=β₀+β₁x₁+β₂x₂+...+βx+ε,其中y为因变量,x₁到x为p个自变ₚₚₚ量,β₀到β为回归系数,ε为随机误差项ₚ参数估计通常使用最小二乘法估计回归系数在矩阵形式下,β̂=XX⁻¹XY,其中X为自变量矩阵,Y为因变量向量现代统计软件能够快速计算这些参数,并提供标准误、t值和P值等统计量模型评估评估多元回归模型的指标包括调整后R²考虑模型复杂度的R²修正版、F检验检验模型整体显著性、t检验检验单个回归系数的显著性、残差分析检查模型假设条件和多重共线性诊断检测自变量间相关性问题变量选择在多元回归中,需要选择最优的变量子集常用方法包括向前选择从无变量开始逐步添加变量、向后消除从全部变量开始逐步删除变量、逐步回归结合向前和向后的方法以及基于信息准则如AIC、BIC的方法多元回归实际案例分析回归基础logistic模型特点logistic回归是用于分析二分类因变量如是/否、成功/失败与一组自变量之间关系的统计方法与线性回归不同,logistic回归预测的是事件发生的概率p,取值范围为0到1数学模型logistic回归模型采用sigmoid函数S形曲线,将线性组合转换为概率p=1/1+e^-z,其中z=β₀+β₁x₁+β₂x₂+...+βx常用对数优势比log odds或logit函数表示ₚₚlogitp=lnp/1-p=β₀+β₁x₁+...+βxₚₚ参数估计logistic回归通常使用最大似然估计MLE而非最小二乘法来估计参数模型评估指标包括似然比检验检验模型整体显著性、Wald检验检验单个系数显著性、Hosmer-Lemeshow检验评估模型拟合优度和ROC曲线下面积评估模型区分能力结果解释logistic回归系数的指数expβ代表优势比OR,表示自变量每增加一个单位,发生比不发生的相对几率的变化倍数例如,expβ=
1.5意味着自变量每增加一个单位,发生的几率增加50%回归实例logistic变量回归系数β标准误P值优势比OR95%置信区间截距-
4.
320.
580.001--年龄每增加1岁
0.
060.
010.
0011.
061.04-
1.08性别男vs女
0.
750.
220.
0012.
121.38-
3.26吸烟是vs否
1.
280.
230.
0013.
602.29-
5.65BMI每增加1kg/m²
0.
090.
030.
0031.
091.03-
1.16总胆固醇每增加
0.
320.
080.
0011.
381.18-
1.611mmol/L上表展示了一项研究2型糖尿病风险因素的logistic回归分析结果研究对象为2000名初始无糖尿病的成年人,随访5年,观察是否发展为2型糖尿病二分类因变量是/否模型整体拟合优度良好Hosmer-Lemeshow检验P=
0.78,ROC曲线下面积为
0.81,表明模型有较好的区分能力所有纳入的风险因素均显著相关P
0.05吸烟是最强的风险因素,吸烟者患2型糖尿病的几率是非吸烟者的
3.6倍OR=
3.60男性患病风险是女性的
2.12倍OR=
2.12年龄每增加1岁,患病几率增加6%OR=
1.06;BMI每增加1kg/m²,患病几率增加9%OR=
1.09;总胆固醇每增加1mmol/L,患病几率增加38%OR=
1.38生存分析与寿命表删失数据处理生存分析概念处理研究期间未观察到事件发生的受试者研究从起点到特定事件发生的时间分布生存函数估计Kaplan-Meier方法计算各时间点的生存概率风险因素评估Cox比例风险模型分析多个因素对生存时间的影组间比较响4Log-rank检验比较不同组的生存曲线差异生存分析是研究特定事件如死亡、疾病复发发生时间的统计方法,能够处理随访期间的删失数据如失访、研究结束时仍未发生事件Kaplan-Meier方法是最常用的非参数估计方法,通过计算每个事件发生时间点的条件概率来估计生存函数St寿命表是展示生存分析结果的一种形式,包含时间间隔、每个间隔内的事件数、删失数、风险集大小以及生存概率估计Log-rank检验用于比较两个或多个独立组的生存曲线,检验统计量近似服从卡方分布Cox比例风险模型是一种半参数模型,用于评估多个因素对生存时间的影响,估计的参数为风险比HazardRatio,HR,表示风险因素对事件发生风险的影响程度生物统计在医学研究中的应用临床试验设计确定样本量、随机化方案和分析策略数据收集过程确保数据质量和减少偏倚数据分析阶段应用适当统计方法评估疗效和安全性结果报告与解释科学准确地呈现研究发现在医学研究中,生物统计学在各个阶段都发挥着关键作用以随机对照试验RCT为例,统计学家参与试验设计,计算所需样本量以确保足够的统计效力,设计随机化方案减少选择偏倚,规划分析策略明确主要和次要终点在流行病学调查中,生物统计学用于评估疾病风险因素、估计人群归因风险和分析疾病空间分布模式例如,在一项前瞻性队列研究中,Cox比例风险模型用于评估饮食模式与心血管疾病风险的关联,考虑年龄、性别等混杂因素的影响在诊断试验评价中,生物统计学方法用于计算敏感度、特异度、预测值和ROC曲线下面积,评估诊断工具的性能例如,某新型生物标志物用于早期肺癌筛查,通过比较其ROC曲线下面积与传统标志物,评估其诊断价值基因组学与高通量数据分析基因表达数据分析在基因表达研究中,每个样本可能同时测量成千上万个基因的表达水平统计挑战包括多重比较问题、数据维度高于样本量、基因间相关性等常用方法包括差异表达分析如t检验、ANOVA配合FDR校正、聚类分析和主成分分析PCA来识别表达模式全基因组关联研究全基因组关联研究GWAS分析数百万个SNP与表型之间的关联主要统计方法包括单点关联分析通常使用线性或logistic回归、基因集分析和通路分析为控制错误发现率,采用Bonferroni校正或其他多重检验校正方法,通常将显著性阈值设为5×10⁻⁸大数据统计方法生物大数据分析需要特殊的统计方法处理高维、异质性和复杂性如机器学习方法(随机森林、支持向量机、深度学习)用于分类和预测;贝叶斯方法整合先验信息;网络分析方法研究基因、蛋白质或代谢物之间的相互作用网络这些方法为揭示复杂生物系统的工作机制提供了新途径公共卫生决策中的生物统计疫情趋势预测时间序列分析和数学模型预测疾病传播趋势空间流行病学空间统计分析疾病地理分布和聚集性人群风险分层多变量模型识别高风险人群,优化资源分配干预效果评估4实验和观察性研究评估公共卫生措施的影响卫生经济学分析成本效益分析指导资源优化配置在新冠肺炎COVID-19疫情防控中,生物统计学扮演了核心角色统计学家使用SIR易感-感染-恢复等传染病动力学模型预测感染曲线,评估各种干预措施如社交距离、口罩政策对传播速度的影响,从而为决策提供科学依据风险评估中,统计模型帮助识别疾病的高风险人群和地区例如,通过多变量logistic回归分析确定高血压的主要风险因素,并计算不同风险因素组合下的发病概率,为社区卫生服务提供精准干预策略在卫生经济学中,统计方法用于评估不同预防和治疗策略的成本效益比,为有限卫生资源的分配提供依据统计软件在生物统计学中的应用语言和其他常用软件R SPSSSAS是生物统计学研究中最流行的开源统这两款商业软件在医学和公共卫生研除了上述主流软件外,还有多种专业R计软件之一,具有强大的数据分析和究中广泛应用软件满足特定需求图形可视化能力界面友好,适合有限统计生物医学研究•SPSS•GraphPad Prism丰富的软件包提供背景的研究者常用,操作简单,图形美观•Bioconductor了大量专门用于基因组学数据分析强大的数据处理能力,适合流行病学研究常用,命令•SAS•Stata的包大型数据集分析简洁,特别适合纵向数据分析灵活性强用户可以编写自定义函•两者都提供全面的统计分析功能和与并列的数据科学语言,••Python R数和包详细的文档在机器学习和深度学习方面有优势优秀的可视化包提供高度•ggplot2缺点软件成本高,功能扩展不如•可定制的图形开源软件灵活专业软件如药代动力•NONMEM缺点学习曲线较陡,对初学者不学、贝叶斯分析•WinBUGS友好课程内容小结概率论基础不确定性的数学描述描述性统计•概率基本性质数据特征的概括与展示•条件概率与贝叶斯公式•集中趋势与离散程度指标2•概率分布及其应用•数据分布类型•图形化展示方法统计推断从样本到总体的科学推理•参数估计•假设检验实际应用•置信区间统计方法在生命科学中的运用统计建模•医学研究设计4变量关系的数学表达•基因组学数据分析•相关与回归分析•公共卫生决策•方差分析•生存分析展望与学习建议生物统计学的未来趋势后续学习路径随着大数据时代的到来,生物统计学正朝着以下根据不同兴趣和需求,可选择以下深入学习方向方向发展•机器学习与人工智能方法在医学诊断和预测•临床试验设计与分析进阶学习适应性设计、中的应用剂量探索设计等•贝叶斯方法在临床试验设计中的广泛使用•生物信息学学习基因组学分析方法和管道•精准医疗背景下的个体化预测模型•数据科学掌握机器学习和深度学习在医学中的应用•多组学数据整合分析方法•实时健康监测数据的统计分析方法•流行病学方法深入研究因果推断和大规模队列研究设计实践建议理论学习与实践结合是掌握生物统计学的关键•使用真实数据集进行分析练习,如公开的临床试验或基因组数据•参与科研项目,从设计阶段就应用统计学原理•定期阅读顶级期刊的统计方法学文章•加入生物统计学社区,参与讨论和交流•持续学习新兴统计方法和工具。
个人认证
优秀文档
获得点赞 0