还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
新概率论与数理统计课件概率论与数理统计是数学的重要分支,为我们理解随机性和处理不确定性数据提供了坚实基础本课程将带领您深入了解概率理论和统计分析的精髓,从基本概念到高级方法,系统讲授这一领域的核心知识无论您是初学者还是希望深化理解的学生,本课程都将提供清晰的解释和丰富的实例,帮助您掌握这些强大的数学工具,并将其应用于实际问题的分析和解决让我们一起踏上这段学习的旅程,探索数据背后的规律和真相课程简介课程目标学习内容概览12本课程旨在帮助学生掌握概率课程内容涵盖概率论基础、随论与数理统计的基本理论和方机变量、数理统计基础、参数法,培养学生的随机思维和数估计、假设检验、回归分析、据分析能力通过系统学习,方差分析等核心章节,并延伸学生将能够理解随机现象的内至时间序列分析、非参数统计在规律,并运用统计方法分析、贝叶斯统计等高级主题,形和解决实际问题成完整的知识体系教学方法3采用理论讲解与实例分析相结合的教学方式,强调概念的直观理解和方法的实际应用课程将通过大量习题和案例分析,帮助学生深化对理论的理解,提高解决实际问题的能力第一章概率论基础随机事件样本空间概率的定义随机事件是在随机试验中可能发生也可样本空间是随机试验所有可能结果的集概率是对随机事件发生可能性的度量,能不发生的事件例如,掷骰子得到点合,通常用Ω表示例如,掷一枚骰子的可通过频率方法或公理化方法定义在数1是一个随机事件随机事件是概率论样本空间为Ω={1,2,3,4,5,6}样本空间公理化定义中,概率是满足一定公理的研究的基本对象,理解随机事件的性质的构建是进行概率计算的基础,明确样集合函数,为概率计算提供了严格的数是掌握概率论的第一步本空间有助于清晰地描述随机现象学基础概率的性质非负性规范性可加性任何事件A的概率PA样本空间Ω的概率等于对于互不相容的事件A都大于或等于0,即1,即PΩ=1这表示和B,其并集的概率等PA≥0这一性质表明随机试验的结果必定是于各事件概率之和,即概率是一个非负量,反样本空间中的某个元素PA∪B=PA+PB映了事件发生可能性的,体现了概率的完备性这一性质可扩展到有限基本特征在实际应用规范性为概率分配提或可数个互不相容事件中,这确保了我们不会供了总量约束,确保了的情况,是概率计算的得到负的概率值,保持概率度量的合理性基本工具了概率作为可能性度量的合理性条件概率定义计算方法条件概率PA|B表示在事件B已计算条件概率可以直接应用定义经发生的条件下,事件A发生的公式,也可以利用条件概率的性概率其数学定义为质和相关公式进行计算在实际PA|B=PA∩B/PB,其中问题中,常常需要根据具体情境PB0条件概率是处理相关事构建合适的条件概率模型,并结件的基本工具,反映了信息更新合其他概率工具进行分析对概率评估的影响应用实例条件概率在医学诊断、风险评估、决策分析等领域有广泛应用例如,在医学诊断中,医生常常需要计算在观察到某些症状的条件下,患者患有特定疾病的概率,这正是条件概率的典型应用全概率公式定义全概率公式是概率论中的一个基本定理,用于计算复杂事件的概率如果事件B₁、B₂、...、Bₙ构成样本空间的一个完备事件组(即它们互不相容且并集为样本空间),则对任意事件A,有PA=PA|B₁PB₁+PA|B₂PB₂+...+PA|BₙPBₙ推导过程全概率公式可从条件概率定义和概率的可加性推导得出由于A=A∩B₁∪A∩B₂∪...∪A∩Bₙ,且A∩Bᵢ与A∩Bⱼ互不相容i≠j,所以PA=PA∩B₁+PA∩B₂+...+PA∩Bₙ再利用条件概率公式PA∩Bᵢ=PA|BᵢPBᵢ,即可得到全概率公式应用场景全概率公式常用于将复杂问题分解为较简单的子问题例如,在分析产品合格率时,可以考虑不同生产线的情况;在评估疾病风险时,可以考虑不同年龄组或性别的风险水平,然后通过全概率公式综合得出总体概率贝叶斯公式定义1贝叶斯公式是条件概率的重要推论推导过程2由条件概率定义得到医学诊断应用3评估检测结果的可靠性贝叶斯公式为PB|A=[PA|BPB]/PA,其中PA可以通过全概率公式计算这一公式允许我们利用已知的条件概率PA|B来计算逆向条件概率PB|A,体现了由果溯因的思想在医学诊断中,贝叶斯公式被广泛应用于评估诊断检测的准确性例如,已知某疾病在人群中的流行率(先验概率)和检测的灵敏度与特异度,医生可以通过贝叶斯公式计算出患者在检测呈阳性时真正患病的概率(后验概率),从而做出更准确的诊断决策事件的独立性定义判断方法重要性如果事件A和B满足PA∩B=PAPB,则判断两个事件是否独立,可以检验PA∩B事件独立性的概念在概率论和统计学中具称事件A和B相互独立独立性表明一个事是否等于PAPB对于三个或更多事件有重要地位许多概率模型和统计方法的件的发生不影响另一个事件发生的概率,,除了需要满足每对事件的独立性,还需建立都基于独立性假设,如二项分布、泊即PA|B=PA或PB|A=PB事件的要满足更高阶的独立性条件在实际问题松过程等理解和正确应用独立性是解决独立性是概率论中的重要概念,为多事件中,事件的独立性常常需要基于问题的物复杂概率问题的关键,也是构建概率模型概率计算提供了简化方法理或逻辑特性来判断的基础第二章随机变量连续型随机变量连续型随机变量的取值在某一区间内连续变概率分布函数化例如,某产品的寿命、某地区的年降雨离散型随机变量量等连续型随机变量通过概率密度函数(概率分布函数Fx=PX≤x描述了随机变量XPDF)来描述其概率分布离散型随机变量的取值是有限个或可数无限的取值不超过x的概率,是描述随机变量分布个例如,掷骰子的点数、某地区一天内交的通用方法,适用于离散型和连续型随机变通事故的数量等离散型随机变量通过概率量它具有单调非减、右连续等重要性质质量函数(PMF)来描述其概率分布213离散型随机变量的分布二项分布泊松分布12二项分布Bn,p描述了n次独立泊松分布Pλ描述了单位时间(重复试验中成功次数的概率分布或空间)内随机事件发生次数的,其中每次试验成功的概率为p概率分布,其中λ是单位时间(二项分布是最基本的离散分布或空间)内事件的平均发生率之一,在抽样调查、质量控制等泊松分布在排队理论、可靠性分领域有广泛应用其概率质量函析等领域有重要应用其概率质数为PX=k=Cn,kp^k1-量函数为PX=k=λ^k/k!e^-λp^n-k,其中k=0,1,...,n,其中k=0,1,2,...几何分布3几何分布描述了在独立重复试验中,首次成功出现时所需的试验次数的概率分布几何分布是无记忆性分布,在可靠性理论和寿命分析中有重要应用其概率质量函数为PX=k=1-p^k-1p,其中k=1,2,...,p是单次试验成功的概率二项分布详解n p试验次数成功概率总共进行的独立重复试验次数每次试验中事件发生的概率Cn,k组合数表示从n个元素中选取k个的方式数二项分布的定义基于n次独立重复的伯努利试验(成功概率为p的二值试验)若X表示n次试验中成功的次数,则X服从参数为n和p的二项分布,记为X~Bn,p其概率质量函数为PX=k=Cn,kp^k1-p^n-k,k=0,1,...,n二项分布的期望EX=np,方差VarX=np1-p这些统计量直观反映了分布的中心位置和离散程度二项分布在质量控制、市场调研、医学临床试验等领域有广泛应用,例如在抽样检验中估计产品的不合格率、在新药测试中评估药物的有效性等泊松分布详解发生次数k概率PX=k泊松分布是描述单位时间或空间内随机事件发生次数的概率分布其概率质量函数为PX=k=λ^k/k!e^-λ,其中λ是单位时间(或空间)内事件的平均发生率,k=0,1,2,...泊松分布的期望和方差均为λ泊松分布与二项分布有密切关系当二项分布Bn,p中n很大而p很小,且np保持为常数λ时,二项分布会收敛到参数为λ的泊松分布这就是著名的泊松近似泊松分布广泛应用于排队理论、可靠性分析、保险精算等领域,例如描述电话交换机接到的呼叫数、网站每分钟的访问量、放射性衰变中粒子的释放数等上图展示了λ=3时的泊松分布概率质量函数可以看出,当k接近λ时,概率达到最大值,随后随着k的增加而逐渐减小连续型随机变量的分布连续型随机变量通过概率密度函数PDF来描述其分布特性均匀分布Ua,b的PDF为fx=1/b-a,当a≤x≤b时,表示随机变量在区间[a,b]内取任何值的概率密度相同,常用于模拟随机数生成指数分布Expλ的PDF为fx=λe^-λx,当x≥0时,是描述相邻事件发生时间间隔的重要分布,具有无记忆性特点,广泛应用于可靠性分析和排队理论其期望为1/λ,方差为1/λ²正态分布Nμ,σ²是最重要的连续分布,其PDF为fx=1/√2πσ²e^-x-μ²/2σ²,具有钟形曲线特征由于中心极限定理,正态分布在自然和社会科学中有广泛应用,如身高、体重、测量误差等现象都近似服从正态分布正态分布详解广泛应用自然和社会科学中的基础分布1数学优美性2具有良好的代数性质标准正态分布3μ=0,σ=1的特殊情况钟形曲线4对称分布,中心最高正态分布是统计学中最基本、应用最广泛的连续概率分布其概率密度函数为fx=1/√2πσ²e^-x-μ²/2σ²,其中μ是分布的均值,σ²是方差正态分布曲线关于x=μ对称,形如钟形,密度函数在x=μ处取得最大值标准正态分布是指μ=0,σ=1的特殊正态分布,其累积分布函数通常用Φx表示通过变换Z=X-μ/σ,可以将任何正态随机变量X转换为标准正态随机变量Z,这大大简化了概率计算正态分布在统计学中的重要性源于中心极限定理在适当条件下,大量独立同分布随机变量的和近似服从正态分布随机变量的数字特征特征数学定义物理意义主要性质期望EX离散∑xᵢPX=xᵢ连随机变量的平均值EaX+b=aEX+b续∫xfxdx,反映分布的中心,位置EX+Y=EX+EY方差VarX E[X-EX²]描述随机变量围绕VaraX+b=a²Var均值的波动程度X,独立时VarX+Y=VarX+VarY标准差σ√VarX与随机变量具有相标准差越大,数据同量纲的离散程度分散程度越高度量随机变量的数字特征是描述随机变量分布特性的重要工具期望EX反映了随机变量的平均水平,是分布的位置参数;方差VarX和标准差σ衡量随机变量取值的分散程度,是分布的尺度参数期望和方差具有重要的代数性质,如线性性质EaX+bY=aEX+bEY,这使得复杂随机变量的数字特征计算变得简便在实际应用中,这些数字特征常用于总结数据、比较不同分布以及构建统计模型和进行统计推断协方差与相关系数观测点变量X变量Y协方差CovX,Y=E[X-EXY-EY]=EXY-EXEY是衡量两个随机变量线性相关程度的重要指标当协方差为正时,表示两个变量倾向于同向变化;当协方差为负时,表示两个变量倾向于反向变化;当协方差为零时,表示两个变量不存在线性相关性相关系数ρ=CovX,Y/σₓσᵧ是标准化的协方差,其值在-1到1之间|ρ|越接近1,表示线性相关性越强;ρ等于0时,表示无线性相关性;ρ等于±1时,表示完全线性相关相关系数的一个重要优点是其值不受变量线性变换的影响,便于不同尺度变量间相关性的比较相关系数是数据分析和统计建模中的重要工具,广泛应用于经济学、心理学、生物学等领域上图展示了具有强正相关性的两个变量的散点图示例,其相关系数接近1大数定律切比雪夫不等式切比雪夫不等式指出,对于任意随机变量X,其取值偏离期望EX的绝对值超过任意正数kσ的概率不超过1/k²,即P|X-EX|≥kσ≤1/k²,其中σ是X的标准差这一不等式为随机变量取值的集中趋势提供了一般性保证,是大数定律的理论基础伯努利大数定律伯努利大数定律是最早的大数定律形式,适用于独立重复的伯努利试验它表明,随着试验次数n的增加,事件A发生的频率nA/n几乎必然地收敛于事件A的概率p这一定律解释了为什么随着抛硬币次数的增加,正面朝上的频率会越来越接近
0.5辛钦大数定律辛钦大数定律是适用于独立同分布随机变量的一般形式它表明,如果X₁,X₂,...,Xₙ是独立同分布的随机变量,且具有有限的期望μ,则其算术平均值X₁+X₂+...+Xₙ/n几乎必然地收敛于μ这一定律为样本均值作为总体均值估计的可靠性提供了理论保证中心极限定理定义1中心极限定理是概率论中的基本定理,指出在适当条件下,大量独立同分布随机变量的标准化和近似服从标准正态分布具体地,若X₁,X₂,...,Xₙ是独立同分布的随机变量,具有期望μ和有限方差σ²,则当n足够大时,随机变量X₁+X₂+...+Xₙ-nμ/σ√n的分布近似于标准正态分布意义2中心极限定理解释了为什么正态分布在自然和社会现象中如此普遍许多实际现象可以看作多个独立因素共同作用的结果,根据中心极限定理,这些现象往往表现出正态分布的特征此外,定理为基于正态分布的统计推断方法提供了理论基础应用3中心极限定理在统计学中有广泛应用例如,它为抽样分布理论提供基础,使得样本均值的抽样分布可以通过正态分布近似;在区间估计中,为构造置信区间提供依据;在假设检验中,为构造检验统计量提供理论支持该定理也在金融、保险、质量控制等领域有重要应用第三章数理统计基础总体与样本抽样方法统计量总体是研究对象的全体,样本是从总体中抽取简单随机抽样是基本的抽样方法,每个个体被统计量是样本的函数,用于估计总体参数或进的部分个体数理统计的核心任务是通过样本抽到的概率相等其他常用方法包括分层抽样行假设检验常用统计量包括样本均值、样本信息推断总体特征样本应具有代表性,这通(按特征将总体分层后在各层内随机抽样)、方差、样本中位数等良好的统计量应具有无常通过随机抽样来保证样本统计量(如样本系统抽样(按固定间隔选取样本)、整群抽样偏性(期望等于被估计参数)、一致性(样本均值、样本方差)是总体参数(如总体均值、(以群为单位进行抽样)等抽样方法的选择量增大时收敛于被估计参数)和有效性(方差总体方差)的估计量应考虑研究目的、总体特征和可行性较小)等特性常用统计量样本均值样本方差样本均值x̄=∑x/n是总体均值μ的无偏样本方差s²=∑x-x̄²/n-1是总体方差估计,其中x是样本观测值,n是样本σ²的无偏估计分母使用n-1而非n是容量样本均值是描述样本集中趋势为了消除由于使用样本均值代替总体的基本统计量,具有计算简便、理解均值引入的偏差样本方差衡量样本直观的优点根据中心极限定理,当数据的离散程度,是构建许多统计推样本量足够大时,样本均值近似服从断方法的基础,如t检验、方差分析等正态分布,这为区间估计和假设检验提供了理论基础样本标准差样本标准差s=√s²是总体标准差σ的估计与方差相比,标准差具有与原始数据相同的单位,更便于理解和解释在描述数据分散程度时,标准差常与均值一起使用,例如报告均值±标准差,特别是当数据近似服从正态分布时抽样分布分布分布分布χ²t Fχ²分布是k个独立的标准正态随机变量的t分布是标准正态随机变量与独立的χ²随机F分布是两个独立的χ²随机变量(分别除以平方和的分布,其中k称为自由度χ²分变量的平方根的比值的分布t分布形状类各自的自由度)的比值的分布F分布是非布是非对称的右偏分布,随着自由度k的似于标准正态分布,但尾部更厚,随着自对称的右偏分布,有两个自由度参数F分增加逐渐接近对称χ²分布在假设检验中由度的增加逐渐接近标准正态分布t分布布主要用于方差比的假设检验、回归显著广泛应用,如适合度检验、独立性检验、主要用于小样本下均值的区间估计和假设性检验和方差分析,这些方法在比较不同方差的区间估计和假设检验等检验,以及回归系数的显著性检验处理或组间差异时非常重要参数估计点估计区间估计1用单一数值估计总体参数构建包含参数的区间2矩估计最大似然估计4样本矩等于相应总体矩3寻找使观测数据概率最大的参数值参数估计是统计推断的基本任务之一,目的是通过样本信息对总体分布的未知参数进行估计点估计提供参数的单一数值估计,如用样本均值估计总体均值;区间估计则提供一个区间,该区间以一定的置信度包含真实参数值最大似然估计MLE是最常用的参数估计方法之一,其基本思想是选择能使观测数据出现概率最大的参数值作为估计值MLE具有许多良好的统计性质,如渐近正态性、渐近有效性等矩估计是另一种重要方法,通过设定样本矩等于相应总体矩来确定参数估计值,计算简便但效率可能不如MLE假设检验基本步骤假设检验的基本步骤包括1提出原假设H₀和备择假设H₁;2选择合适的检验统计量;3确定显著性水平α;4计算检验统计量的值;5根据临界值或p值作出接受或拒绝原假设的决定;6给出统计结论并进行解释这一系统程序确保检验过程的严谨性和结果的可靠性显著性水平显著性水平α是犯第一类错误(拒绝真实的原假设)的概率上限,通常取
0.05或
0.01显著性水平的选择反映了研究者对第一类错误的容忍程度p值是在原假设为真的条件下,获得观测结果或更极端结果的概率当p值小于显著性水平α时,拒绝原假设;否则,不拒绝原假设第一类错误和第二类错误第一类错误是指原假设为真但被错误地拒绝,其概率为α;第二类错误是指原假设为假但未被拒绝,其概率为β两类错误通常不能同时最小化,需要根据实际问题的特点和重要性进行权衡检验的功效1-β表示当备择假设为真时正确拒绝原假设的概率,是评价检验方法优劣的重要指标单个总体均值的检验检验类型适用条件检验统计量决策规则z检验σ已知或n足够z=x̄-|z|z_{α/2}时大μ₀/σ/√n拒绝H₀t检验σ未知且n较小t=x̄-μ₀/s/√n|t|t_{α/2,n-1}时拒绝H₀单个总体均值的假设检验是统计推断中最基本的检验类型之一,用于判断总体均值μ是否等于某个特定值μ₀根据总体标准差σ是否已知以及样本量大小,可以选择z检验或t检验当σ已知或样本量n足够大(通常n≥30)时,使用z检验;当σ未知且n较小时,使用t检验在进行单侧检验时,原假设和备择假设分别为H₀:μ=μ₀和H₁:μμ₀(右侧检验)或H₁:μμ₀(左侧检验)双侧检验的假设为H₀:μ=μ₀和H₁:μ≠μ₀选择单侧还是双侧检验取决于研究问题的具体要求和先验知识实际应用中,这些检验被广泛用于质量控制、临床试验、市场研究等领域两个总体均值差的检验独立样本配对样本实际应用独立样本t检验用于比较两个独立总体的配对样本t检验用于比较相关总体的均值两总体均值差的检验在医学、心理学、均值差异当两总体方差相等时,检验差异,如对同一组受试者在两种条件下教育学、市场研究等领域有广泛应用统计量为t=x̄₁-x̄₂/s_p√1/n₁+1/n₂,或处理前后的测量此时,关注的是差例如,在医学研究中比较两种药物的疗其中s_p是合并样本标准差当两总体方值d=x₁-x₂的均值是否为0,检验统计量效,在教育学中比较两种教学方法的效差不等时,使用Welch-Satterthwaite为t=d̄/s_d/√n配对设计通过控制个体果,在产品开发中比较不同配方的产品修正的t检验此检验广泛应用于比较两差异减少了误差方差,因此通常比独立性能等检验结果的解释应结合效应大种处理方法、两个群体或两个时期的平样本设计更有效率小和实际意义进行均水平方差的检验χ²检验用于单个总体方差的假设检验当原假设H₀:σ²=σ₀²,检验统计量为χ²=n-1s²/σ₀²,服从自由度为n-1的χ²分布对于右侧检验H₁:σ²σ₀²,当χ²χ²_{α,n-1}时拒绝H₀;对于左侧检验H₁:σ²σ₀²,当χ²χ²_{1-α,n-1}时拒绝H₀F检验用于比较两个总体方差是否相等原假设为H₀:σ₁²=σ₂²,检验统计量为F=s₁²/s₂²,其中分子是较大的样本方差当FF_{α,n₁-1,n₂-1}时,拒绝原假设,认为两个总体方差存在显著差异F检验对正态性假设较为敏感,当总体分布偏离正态时,可考虑非参数方法如Levene检验方差的检验在质量控制、制造过程监控、实验设计的前提检验等领域有重要应用例如,在比较两种生产工艺的稳定性,评估测量系统的精度,或检验数据是否满足方差分析的齐性假设等列联表的独立性检验支持反对中立χ²独立性检验用于判断两个分类变量是否相互独立检验基于r×c列联表,其中r是行变量的水平数,c是列变量的水平数原假设H₀为两变量相互独立,检验统计量χ²=∑∑O_{ij}-E_{ij}²/E_{ij},其中O_{ij}是观测频数,E_{ij}=n_{i·}n_{·j}/n是期望频数(假设独立时的理论频数)检验统计量χ²在原假设为真时近似服从自由度为r-1c-1的χ²分布当χ²χ²_{α,r-1c-1}时,拒绝原假设,认为两变量之间存在显著关联为确保近似有效,通常要求所有期望频数E_{ij}都不小于5当样本量较小或有期望频数小于5时,可使用Fisher精确检验上图展示了一个关于教育水平与政策态度关系的3×3列联表数据通过χ²独立性检验,可以评估教育水平与政策态度之间是否存在显著关联,帮助研究者了解教育因素对政策观点的潜在影响第四章回归分析简单线性回归1简单线性回归分析一个自变量X与一个因变量Y之间的线性关系,模型为Y=β₀+β₁X+ε,其中β₀是截距,β₁是斜率,ε是随机误差项通过最小二乘法估计参数,使得观测点到回归直线的垂直距离平方和最小简单线性回归是最基本的回归形式,为更复杂的回归模型奠定了基础多元线性回归2多元线性回归考察多个自变量X₁,X₂,...,Xₖ与因变量Y之间的线性关系,模型为Y=β₀+β₁X₁+β₂X₂+...+βₖXₖ+ε多元回归允许同时考虑多个预测变量的影响,更符合现实中因果关系的复杂性通过偏回归系数可以分析在控制其他变量的情况下单个自变量对因变量的影响非线性回归3非线性回归用于拟合自变量与因变量之间的非线性关系,如多项式回归、指数回归、对数回归等非线性回归能更灵活地适应各种数据模式,特别是当理论或先验知识表明关系是非线性时某些非线性模型可通过适当变换转化为线性模型,而其他则需要专门的非线性估计方法简单线性回归模型观测点广告支出X万元销售额Y万元简单线性回归模型的基本假设包括线性关系、误差项的独立性、同方差性(误差方差恒定)、误差项的正态性,以及自变量无测量误差这些假设为参数估计和统计推断提供了理论基础,在实际应用中需要通过残差分析等方法进行验证最小二乘法是估计回归系数的标准方法,通过最小化残差平方和∑y_i-ŷ_i²来确定最优参数值回归系数的估计公式为β₁=∑x_i-x̄y_i-ȳ/∑x_i-x̄²,β₀=ȳ-β₁x̄这些估计量具有良好的统计性质,如无偏性和最小方差(在高斯-马尔可夫条件下)上图展示了广告支出X与销售额Y的散点图及其线性回归拟合线可以看出,两者之间存在明显的正线性关系,回归方程可以用于预测不同广告支出水平下的预期销售额,或评估广告效果回归方程的显著性检验检验检验决定系数1F2t3R²F检验用于检验回归方程的整体显著性,t检验用于检验单个回归系数的显著性,决定系数R²衡量回归方程对因变量变异即检验所有回归系数是否同时为零原即检验某个特定自变量是否对因变量有的解释程度,计算公式为R²=SS_{回归假设H₀:β₁=β₂=...=βₖ=0,备择假设H₁:至显著影响对于第j个回归系数,原假设}/SS_{总}=1-SS_{残差}/SS_{总}R²的值少有一个βⱼ≠0检验统计量F=MS_{回H₀:βⱼ=0,备择假设H₁:βⱼ≠0检验统在0到1之间,越接近1表示模型拟合越好归}/MS_{残差}服从自由度为k,n-k-1的计量t=b_j/seb_j服从自由度为n-k-1的调整R²R²_{adj}=1-1-R²n-1/n-k-F分布当FF_{α,k,n-k-1}时,拒绝原t分布当|t|t_{α/2,n-k-1}时,拒绝原1考虑了自变量数量的影响,适用于比假设,认为回归方程整体显著假设,认为该自变量对因变量有显著影较不同复杂度的模型响多元线性回归模型建立参数估计多重共线性问题多元线性回归模型为多元回归的参数估计通常采用最小二乘法,多重共线性指自变量之间存在高度相关性,Y=β₀+β₁X₁+β₂X₂+...+βₖXₖ+ε,其中Y是因可以用矩阵形式表示为β̂=XX⁻¹XY,其导致估计的回归系数不稳定、标准误差增大变量,X₁,X₂,...,Xₖ是k个自变量,中X是自变量矩阵,Y是因变量向量每个,从而影响统计推断的可靠性检测多重共β₀,β₁,...,βₖ是待估计的参数,ε是随机误差回归系数βⱼ的估计值表示在控制其他自变线性的常用方法包括计算方差膨胀因子VIF项多元回归模型假设各自变量与因变量之量的情况下,自变量Xⱼ每变化一个单位,和条件数当VIF10时,通常认为存在严重间存在线性关系,且各自变量之间可能存在因变量Y的平均变化量这种控制效应使的多重共线性解决多重共线性的方法包括相关性,但不存在完全共线性多元回归成为分析复杂关系的强大工具删除高度相关的自变量、使用主成分回归或岭回归等缩减方法第五章方差分析单因素方差分析双因素方差分析12单因素方差分析One-way双因素方差分析考察两个因素及其ANOVA用于比较三个或更多总体交互作用对因变量的影响无交互均值是否相等它将总变异分解为作用模型假设两因素的效应是可加组间变异(由因素水平差异引起)的;有交互作用模型则认为一个因和组内变异(随机误差),通过比素的效应依赖于另一个因素的水平较组间均方与组内均方来判断因素双因素方差分析可以同时检验两影响的显著性F检验统计量为个主效应和交互效应的显著性,提F=MS_{组间}/MS_{组内},当高了实验效率并提供了更全面的信FF_{α,k-1,n-k}时,拒绝各组均值息相等的原假设实验设计3实验设计是统计学与实验科学的结合,旨在高效获取关于因果关系的可靠信息常见的实验设计包括完全随机设计、随机区组设计、拉丁方设计等良好的实验设计应考虑随机化(消除偏差)、重复(控制误差)和区组(消除已知变异来源)等原则,以提高统计结论的效度和精确度单因素方差分析变异来源平方和SS自由度df均方MS F统计量组间处理SST=∑nⱼk-1MST=F=x̄ⱼ-x̄²SST/k-1MST/MSE组内误差SSE=∑∑xᵢn-k MSE=ⱼ-x̄ⱼ²SSE/n-k总变异SSTotal=n-1∑∑xᵢⱼ-x̄²单因素方差分析的模型假设包括各组内的观测值服从正态分布、各组方差相等(方差齐性)以及各观测值相互独立在实际应用中,应通过正态性检验和方差齐性检验(如Bartlett检验、Levene检验)来验证这些假设是否满足当假设严重违背时,可以考虑数据变换或使用非参数方法F检验的计算步骤包括计算总平方和、组间平方和和组内平方和;计算相应的自由度和均方;计算F统计量并与临界值比较若FF_{α,k-1,n-k},则拒绝原假设,认为因素水平间存在显著差异当发现显著差异时,通常需要进行多重比较(如Tukey法、Bonferroni法)以确定具体哪些组间存在差异双因素方差分析低水分中水分高水分无重复试验的双因素方差分析适用于每个因素组合只有一个观测值的情况此时,无法估计交互作用,模型中只包含两个主效应方差分析表包括因素A、因素B和误差三个变异来源,相应的F检验用于判断两个主效应的显著性这种设计在资源有限但需要考察两个因素的实验中较为常用有重复试验的双因素方差分析要求每个因素组合有多个观测值,可以估计和检验交互作用方差分析表包括因素A、因素B、交互作用A×B和误差四个变异来源交互作用的检验是判断一个因素的效应是否依赖于另一个因素的水平,是理解复杂关系的重要工具上图展示了一个农业实验的结果,研究不同肥料类型(因素A)和水分水平(因素B)对作物产量的影响通过双因素方差分析,可以评估两个因素的主效应和潜在的交互作用,为农业生产提供科学依据第六章时间序列分析时间序列的组成趋势分析季节性分析时间序列通常可以分解为四个组成部分趋趋势分析旨在识别和描述时间序列的长期变季节性分析关注固定周期内的规律性波动,势成分T,表示长期变化趋势;季节成分化趋势,常用方法包括移动平均法、指数平如年内月度变化、周内日变化等季节性调S,表示周期性变化;循环成分C,表示滑法和回归分析法移动平均法通过计算连整的常用方法包括季节指数法、移动平均法非固定周期的波动;不规则成分I,表示随续k个观测值的平均值来平滑序列;指数平和回归分析法通过季节性分析,可以识别机波动分解模型可以是加法模型滑法给予近期观测值更高的权重;回归分析季节性模式、消除季节性影响(得到季节性X_t=T_t+S_t+C_t+I_t或乘法模型则通过拟合时间函数来描述趋势趋势分析调整后的序列)或利用季节性模式进行预测X_t=T_t×S_t×C_t×I_t,根据成分间关系的对于长期预测和理解基本变化模式至关重要季节性分析在销售预测、资源规划等领域特点选择适当模型有重要应用时间序列的平稳性定义检验方法处理非平稳序列平稳时间序列是指其统计特性(如均值检验时间序列平稳性的常用方法包括当时间序列表现为非平稳时,常用的处、方差和自相关函数)不随时间变化的视觉检查(通过时序图、自相关函数ACF理方法包括差分法,通过计算序列的序列严格平稳要求所有联合概率分布和偏自相关函数PACF图);单位根检验一阶或高阶差分消除趋势;对数变换或不随时间平移而变化;弱平稳(或宽平,如Dickey-Fuller检验DF和增广幂变换,用于稳定方差;季节性差分,稳)仅要求一阶矩和二阶矩(均值、方Dickey-Fuller检验ADF,原假设为存用于消除季节性波动;移除趋势成分,差和自协方差)不随时间变化平稳性在单位根(非平稳);KPSS检验,原假如使用回归方法估计并移除趋势这些是时间序列建模的重要前提,因为它允设为序列平稳这些方法互为补充,转换通常可以将非平稳序列转化为近似许我们从过去数据推断未来行为综合使用可提高判断的可靠性平稳的序列,便于后续建模模型ARMA自回归模型移动平均模型混合模型AR MAARMAARp模型假设当前值是过去p个观测值的线性组MAq模型假设当前值是当前和过去q个随机误差ARMAp,q模型结合了AR和MA模型的特点,表合加随机误差,表示为X_t=c+φ₁X_{t-1}+φ₂X_{t-的线性组合,表示为X_t=μ+ε_t+θ₁ε_{t-1}+θ₂ε_{t-示为X_t=c+φ₁X_{t-1}+...+φₚX_{t-p}+ε_t+θ₁ε_{t-2}+...+φₚX_{t-p}+ε_t,其中φ₁,φ₂,...,φₚ是自回归2}+...+θₑε_{t-q},其中θ₁,θ₂,...,θₑ是移动平均系数1}+...+θₑε_{t-q}ARMA模型能更灵活地拟合时间系数,ε_t是白噪声AR模型捕捉序列的记忆效,ε_t是白噪声MA模型描述随机冲击如何持续影序列,通常基于简约原则选择合适的p和q值,应,即当前值如何依赖于过去值AR过程的阶数p响序列MA过程的阶数q通常通过自相关函数使模型尽可能简单同时提供足够的拟合效果常用通常通过偏自相关函数PACF确定,PACF在滞后ACF确定,ACF在滞后q后截尾的模型选择准则包括AIC赤池信息准则和BIC贝p后截尾叶斯信息准则第七章非参数统计方法符号检验秩和检验1检验中位数或配对数据差异比较两个独立样本的分布位置2检验检验Kruskal-Wallis4Wilcoxon多个独立样本的非参数方法3配对样本的非参数替代方法非参数统计方法不对总体分布做严格假设,特别适用于样本量小、数据不服从正态分布或测量尺度为序数尺度的情况与参数方法相比,非参数方法通常计算简便,对异常值不敏感,在数据不满足参数方法假设时更为稳健符号检验是最简单的非参数方法之一,用于检验单个总体的中位数是否等于某个指定值,或配对样本的差值中位数是否为零其基本思想是,如果原假设为真,则正号和负号的数量应大致相等秩和检验(如Mann-Whitney U检验)则基于数据的秩次而非原始值,通过比较两个独立样本的秩和来判断是否来自相同分布Wilcoxon符号秩检验是配对样本t检验的非参数替代方法,不仅考虑差值的符号,还考虑差值的大小Kruskal-Wallis检验是单因素方差分析的非参数替代方法,用于比较三个或更多独立样本的分布位置检验Mann-Whitney U原理计算步骤Mann-Whitney U检验(也称为计算U统计量的步骤为1将两组样本Wilcoxon秩和检验)是比较两个独立合并并按值的大小排序;2为每个观样本是否来自同一分布的非参数方法测值分配秩次,相同值分配平均秩次;其基本思想是将两个样本合并,按大3计算每组的秩和R₁和R₂;4计算U小排序并赋予秩次;计算各组的秩和;统计量U₁=n₁n₂+n₁n₁+1/2-R₁,如果两个总体分布相同,则两组的秩和U₂=n₁n₂+n₂n₂+1/2-R₂,取应大致与各自的样本量成比例U检验U=minU₁,U₂;5对照临界值表或计不要求总体服从正态分布,仅假设观测算p值做决策值可以按大小排序应用场景Mann-Whitney U检验适用于样本量小且不满足正态性假设时;数据为序数尺度而非等距尺度时;存在极端值可能影响t检验结果时常见应用包括比较两种治疗方法的效果、两个群体的满意度评分、两种产品的耐用性等当样本量大于约20时,U统计量近似服从正态分布,可使用正态近似计算p值检验Kruskal-Wallis HKruskal-Wallis H检验是单因素方差分析的非参数替代方法,用于比较三个或更多独立样本的分布位置其原假设为所有样本来自具有相同分布的总体,备择假设为至少有一个样本来自分布位置不同的总体与方差分析类似,Kruskal-Wallis检验仅指出是否存在显著差异,但不指明具体哪些组间存在差异检验的基本步骤包括1将所有样本观测值合并并按大小排序;2为每个观测值分配秩次,相同值分配平均秩次;3计算每组的秩和R_j和平均秩次;4计算H统计量H=12/NN+1∑R_j²/n_j-3N+1,其中N是总样本量,n_j是第j组的样本量;5当样本量较大时,H近似服从自由度为k-1的χ²分布,据此作出决策上图展示了四种教学方法对学生成绩影响的Kruskal-Wallis检验结果平均秩次的差异反映了各组在排序后的相对位置,方法B的平均秩次最高,表明其可能有最好的教学效果,而方法D的平均秩次最低,可能效果最差H统计量及其p值可用于判断这些差异是否具有统计显著性第八章贝叶斯统计贝叶斯推断基于先验知识和观测数据进行统计推断1先验分布2反映参数的先验信息似然函数3描述观测数据相对于参数的可能性后验分布4结合先验和似然的参数更新信息贝叶斯统计以贝叶斯定理为基础,将概率解释为信念的度量,并通过数据不断更新这种信念与传统频率派统计不同,贝叶斯方法将未知参数视为随机变量,通过先验分布表达对参数的初始信念,然后结合数据的似然函数,得到参数的后验分布先验分布可以是信息性的(反映实质性先验知识)或无信息性的(表达最小先验信息)常见的先验分布包括共轭先验(使后验分布与先验同族)、Jeffreys先验(不变性先验)和引用先验(最大化先验与后验的信息差异)似然函数表示在特定参数值下观测到当前数据的概率,是连接数据与模型的桥梁后验分布通过贝叶斯定理计算pθ|x∝px|θpθ,其中pθ是先验分布,px|θ是似然函数,pθ|x是后验分布后验分布综合了先验信息和数据信息,是贝叶斯推断的核心,用于参数估计、假设检验和预测贝叶斯估计贝叶斯点估计基于后验分布的特征值,常用的估计量包括后验均值、后验中位数和后验众数(最大后验估计,MAP)选择哪种点估计取决于损失函数在平方误差损失下,后验均值是最优估计;在绝对误差损失下,后验中位数是最优估计;在0-1损失下,后验众数是最优估计贝叶斯点估计综合考虑了先验信息和数据信息,特别是在小样本情况下优势明显贝叶斯区间估计通过后验分布构建,称为可信区间,以区别于频率派的置信区间最常用的贝叶斯区间是后验等尾区间,即取后验分布的α/2和1-α/2分位数作为区间端点与置信区间不同,可信区间有确定的概率解释参数落在可信区间内的概率为1-α此外,贝叶斯方法还支持构建最高后验密度HPD区间,即最短的给定覆盖概率区间贝叶斯估计与频率派方法的主要区别在于贝叶斯方法利用先验信息、将参数视为随机变量、结果有直接概率解释、不依赖大样本渐近理论在实际应用中,贝叶斯方法特别适用于复杂模型、小样本问题和需要整合多种信息源的情况贝叶斯因子₁₀BF10:1贝叶斯因子强证据模型比较的贝叶斯方法支持备择假设的强证据临界值1/10强证据支持原假设的强证据临界值贝叶斯因子是比较两个假设或模型相对支持度的贝叶斯方法,定义为边际似然之比BF₁₀=px|H₁/px|H₀,其中px|H₁和px|H₀分别是在假设H₁和H₀下数据x的边际似然贝叶斯因子可以解释为数据对两个假设相对支持度的变化比率,即数据如何改变了从先验到后验的假设相对概率贝叶斯因子的优势在于不需要指定显著性水平;可以支持原假设而非仅仅不拒绝;可以比较非嵌套模型;可以整合多个研究结果;对假设空间具有本质的敏感性贝叶斯因子的解释通常基于Jeffreys或Kass Raftery提出的分类标准,例如BF₁₀10表示强证据支持H₁,BF₁₀1/10表示强证据支持H₀在模型选择中,贝叶斯因子提供了一种自然的方法来平衡模型拟合与复杂性,避免了过度拟合问题与传统的信息准则(如AIC和BIC)相比,贝叶斯因子有更坚实的理论基础,特别是在样本量小时表现更好贝叶斯因子在认知科学、生物统计学和社会科学等领域的应用日益广泛第九章方法Bootstrap基本原理置信区间估计假设检验Bootstrap(自助法)是一种基于重复抽样的计Bootstrap方法提供了几种构建置信区间的方法Bootstrap可应用于假设检验,特别是当理论分算密集型统计方法,用于估计统计量的抽样分布标准Bootstrap置信区间利用Bootstrap样本布难以确定时最常用的是置换检验(和相关特性其基本原理是从原始样本中有放回统计量的标准差;百分位数Bootstrap置信区间permutation test)和Bootstrap假设检验地重复抽样,生成多个Bootstrap样本,每个样直接使用Bootstrap统计量分布的百分位数;偏置换检验通过随机重排观测值来生成原假设为真本与原始样本具有相同的大小通过计算每个差校正和加速BCaBootstrap置信区间通过修时的检验统计量分布;Bootstrap假设检验则通Bootstrap样本上的统计量,可以得到该统计量正偏差和考虑偏度提高精确度这些方法允许在过从符合原假设的模型中生成Bootstrap样本的经验分布,进而估计其标准误、置信区间等不做分布假设的情况下构建可靠的置信区间这些方法为复杂结构数据提供了灵活的检验方案在回归分析中的应用Bootstrap参数估计1在回归分析中,Bootstrap方法用于估计回归系数的标准误差和置信区间,特别是当样本量小或残差分布未知时配对Bootstrap通过重采样x_i,y_i对,保持了自变量和因变量的关联结构;残差Bootstrap则重采样模型残差,适用于误差项同分布的情况Bootstrap提供的估计对异方差性等问题更为稳健,不依赖于线性回归经典假设模型诊断2Bootstrap在回归模型诊断中有多种应用,包括检测离群点和高杠杆点的影响、评估模型稳定性、验证变量选择的合理性等通过比较不同Bootstrap样本得到的回归模型,可以识别对样本变化特别敏感的模型组分或观测值交叉验证与Bootstrap相结合,可以提供更可靠的模型评价指标,如均方预测误差MSPE的估计实例分析3考虑一个房价预测模型,自变量包括房屋面积、卧室数量、地段评分等传统方法可能假设残差正态性,而实际数据常有偏态和异方差性通过Bootstrap,我们可以获得回归系数的稳健置信区间,评估预测的不确定性,并检验模型形式的适当性,如是否需要包含交互项或非线性变换Bootstrap结果表明,房屋面积系数的影响稳定,而地段评分的影响可能因样本构成而波动较大第十章主成分分析观测点主成分1主成分2主成分分析PCA是一种降维技术,旨在将可能相关的多维变量转换为线性不相关的低维变量(主成分),同时保留数据的最大方差其基本原理是寻找多维数据空间中方差最大的方向(特征向量),这些方向代表了数据变异的主要模式每个主成分是原始变量的线性组合,且各主成分之间正交(不相关)从数学角度看,PCA通过计算数据协方差矩阵的特征值和特征向量来实现特征向量代表主成分的方向,特征值表示对应主成分的方差大小通常将特征向量按特征值大小降序排列,前几个特征向量(对应最大特征值)形成的主成分包含了数据的大部分信息主成分分析广泛应用于数据压缩、特征提取、噪声消除和可视化在实际应用中,经常需要决定保留多少主成分,常用的准则包括累积方差贡献率(如保留解释90%总方差的主成分)、特征值大于1的准则(适用于相关矩阵的PCA)或通过碎石图(scree plot)判断上图展示了样本在前两个主成分上的散点图,反映了降维后的数据分布情况因子分析与主成分分析的区别因子提取因子旋转尽管因子分析和主成分分析都是降维技术,但因子提取是确定潜在因子数量和估计因子载荷因子旋转旨在获得更易解释的因子结构,使每它们的目标和假设不同PCA旨在找到解释最的过程常用的因子提取方法包括主成分法(个变量主要由少数几个因子解释正交旋转(大数据方差的正交方向,强调数据的整体变异利用PCA进行初始提取)、主轴因子法(逐步如Varimax)保持因子间正交,适用于因子理;因子分析则假设观测变量是由少数潜在因子估计共同度)、最大似然法(假设多元正态分论上不相关的情况;斜交旋转(如Promax、决定的,着重解释变量间的共变关系PCA是布)等决定提取因子数量的准则包括Kaiser Oblimin)允许因子间相关,往往更符合实际纯粹的数据转换,不假设潜在结构;因子分析准则(特征值1)、碎石图、平行分析、解释情况良好的旋转结果应具有简单结构特征基于潜变量模型,假设数据由公共因子和特殊方差百分比等不同提取方法可能得到不同结每个变量主要在少数因子上有高载荷,每个因子组成果,选择应基于数据特性和理论考虑因子只对部分变量有高载荷,不同因子的高载荷变量集合应有明显区别第十一章判别分析线性判别分析二次判别分析判别123Fisher线性判别分析LDA是一种分类方法,旨二次判别分析QDA是LDA的扩展,允许Fisher判别是LDA的一种特殊形式,直接在找到能够最大化组间差异并最小化组内各组有不同的协方差矩阵,导致决策边界寻找能最大化类间方差与类内方差比率的差异的线性组合LDA假设各组具有相同为二次曲面而非直线或超平面QDA比线性判别函数,而不假设数据服从多元正的协方差矩阵,基于贝叶斯判别规则,将LDA更灵活,能捕捉更复杂的分组结构,态分布Fisher判别特别适用于二分类问新观测分配到后验概率最大的组LDA不但需要估计更多参数,对样本量要求更高题,提供了一种直观理解数据分离结构的仅可用于分类,还可用于降维,特别是在当各组数据分布确实有明显不同的离散方法在多分类问题中,可以构造多个需要保留类别区分信息的情况下LDA在模式时,QDA通常比LDA表现更好Fisher判别函数Fisher判别的几何解释人脸识别、图像处理和生物标记物识别等QDA在模式识别和医学诊断等领域有重要是,寻找使投影后类别最分离的方向领域有广泛应用应用逻辑回归观测点自变量X概率PY=1逻辑回归是分析二分类因变量与一组自变量关系的统计模型与线性回归不同,逻辑回归预测的是事件发生的概率,而非连续数值其核心是逻辑函数(或Sigmoid函数)PY=1=1/1+e^-β₀+β₁X₁+...+βₚXₚ,它将线性预测值转换到0,1区间,表示类别1的概率逻辑回归的参数估计通常采用最大似然法,即寻找使观测数据概率最大的参数值逻辑回归系数的解释与线性回归不同βᵢ表示自变量Xᵢ增加一个单位,事件发生的对数几率log-odds增加βᵢ个单位几率比oddsratioe^βᵢ是更直观的解释方式,表示自变量增加一个单位时事件发生几率的倍数变化ROC曲线(受试者工作特征曲线)是评价逻辑回归模型性能的重要工具,展示了不同分类阈值下真阳性率和假阳性率的权衡关系曲线下面积AUC是衡量模型区分能力的综合指标,AUC=
0.5表示随机猜测,AUC接近1表示接近完美分类逻辑回归在医学诊断、信用评分、市场营销等领域有广泛应用第十二章聚类分析聚类K-meansK-means是最流行的聚类算法之一,将n个观测分配到预定义的k个聚类中,使得每个观测归属于最近的聚类中心,同时最小化各聚类内点到中心的平方距离和算法通过迭代优化首先选择k个初始中心点,然后重复两个步骤直至收敛1分配将每个观测分配到最近的中心点所代表的聚类;2更新重新计算每个聚类的中心点(均值)层次聚类层次聚类构建一个聚类层次结构,可分为自底向上的凝聚法和自顶向下的分裂法凝聚法从每个观测作为单独聚类开始,然后逐步合并最相似的聚类;分裂法从所有观测作为一个聚类开始,然后逐步分裂层次聚类的结果通常以树状图(dendrogram)展示,便于可视化聚类结构和选择合适的聚类数量不同的距离度量(如欧氏距离、曼哈顿距离)和链接方法(如单链接、完全链接、平均链接)适用于不同类型的数据和聚类目标密度聚类密度聚类算法基于密度概念,将高密度区域划分为聚类,适合发现任意形状的聚类和识别噪声点DBSCAN(基于密度的带噪声应用空间聚类)是代表性算法,它定义核心点(其ε-邻域内至少有minPts个点)、边界点和噪声点,然后通过连接直接密度可达的核心点形成聚类密度聚类不需要预先指定聚类数量,且能处理任意形状的聚类,但对参数设置较敏感,在处理高维数据或密度差异大的数据集时可能表现不佳算法详解K-means初始化K-means算法的第一步是选择k个初始聚类中心最简单的方法是随机选择k个数据点作为初始中心,但这可能导致收敛到局部最优解更高级的初始化方法包括K-means++(按与现有中心的距离加权选择新中心)和多次随机初始化然后选择最佳结果初始中心的选择对最终聚类结果有显著影响,是算法成功的关键因素迭代优化K-means的核心是迭代优化过程,包括两个交替步骤1分配步骤将每个数据点分配到最近的聚类中心所代表的聚类,通常使用欧氏距离作为相似性度量;2更新步骤重新计算每个聚类的中心点,即该聚类中所有点的均值这两个步骤重复执行,直到聚类分配不再变化或达到预设的迭代次数限制评估结果K-means算法的目标函数是最小化所有点到其聚类中心的平方距离和(WCSS,Within-Cluster Sumof Squares)评估聚类质量的内部指标包括轮廓系数、Calinski-Harabasz指数和Davies-Bouldin指数等确定最佳聚类数k的方法包括肘部法则(观察WCSS随k变化的曲线拐点)、轮廓分析和间隙统计量在实际应用中,聚类结果的解释和有效性还需结合领域知识进行评估第十三章生存分析时间月生存率生存分析是研究时间-事件数据的统计方法,特别适用于分析事件发生前的等待时间数据生存函数St=PTt表示生存时间T超过时间t的概率,是描述生存过程的基本函数生存函数通常为单调递减,从S0=1开始,随时间逐渐减小在临床研究中,生存函数展示了患者从研究起点活过特定时间的概率风险函数ht表示在时间t前存活的条件下,在时间t瞬间发生事件的瞬时概率率,定义为ht=ft/St,其中ft是生存时间的概率密度函数风险函数描述了风险如何随时间变化,可以是增加、减少、恒定或更复杂的非单调形式累积风险函数Ht=∫0,thudu与生存函数有简单关系Ht=-logStKaplan-Meier估计是生存函数的非参数估计方法,能有效处理删失数据(研究期间未观察到事件发生的情况)其基本思想是将时间轴分割为一系列区间,每个区间由观察到的事件时间定义,并在每个事件时间计算条件生存概率Kaplan-Meier曲线是生存分析中最常用的可视化工具,上图展示了某种治疗方法下患者的24个月生存曲线比例风险模型Cox模型假设参数估计应用实例Cox比例风险模型是生存分析中最常用的Cox模型的参数估计通常采用偏极大似然在一项癌症临床试验中,研究者使用Cox半参数模型,其核心假设是不同协变量法,这种方法不需要指定基准风险函数模型分析了新药对患者生存时间的影响组合的风险函数之比是恒定的,即h₀t的形式,而只关注事件发生的顺序,同时控制了年龄、性别、肿瘤阶段等ht|X=h₀texpβX,其中h₀t是基对于回归系数β_j,其指数expβ_j表协变量结果显示,新药治疗组的风险准风险函数,X是协变量向量,β是回归示对应协变量每增加一个单位,风险率比为
0.6595%CI:
0.48-
0.88,表明与对系数比例风险假设意味着各预测变量的倍数变化,称为风险比hazard ratio照组相比,新药降低了35%的死亡风险对风险率的影响是乘性的且不随时间变标准误和置信区间可通过信息矩阵的模型还发现肿瘤阶段是最强的预后因化该假设可通过Schoenfeld残差检验逆矩阵估计,用于评估效应的统计显著素,而年龄和性别的影响相对较小或引入时间相关项检验性和精确度第十四章数据挖掘简介数据挖掘是从大量数据中提取有价值信息和知识的过程,综合运用统计学、机器学习、数据库技术等多学科方法关联规则挖掘旨在发现项目集间的关联关系,如购买尿布的顾客也倾向于购买啤酒典型算法包括Apriori和FP-growth,广泛应用于市场篮分析、推荐系统等领域决策树是一种直观的分类和回归方法,通过一系列规则将数据递归分割为越来越纯的子集决策树的优势在于易解释性和处理混合数据类型的能力,常用算法包括ID
3、C
4.5和CART决策树可以可视化为树状结构,内部节点代表特征测试,叶节点代表分类或回归结果,适用于信用评分、医疗诊断等领域神经网络是一类模拟生物神经系统的算法,由多层互连的节点(神经元)组成神经网络,特别是深度学习,在图像识别、自然语言处理、推荐系统等领域取得了突破性成就尽管计算复杂且解释性较差,但在处理复杂非线性关系和大规模数据方面表现出色现代神经网络架构包括卷积神经网络CNN、循环神经网络RNN和变换器Transformer等关联规则挖掘支持度和置信度算法Apriori关联规则的两个基本度量是支持度和置信Apriori算法是最经典的关联规则挖掘算法度支持度support表示规则覆盖的数据,基于频繁项集的任何子集也是频繁的比例,定义为项目集A和B同时出现的交易这一性质(即Apriori原理)算法分两步比例supA→B=PA∩B置信度1生成频繁项集首先找出所有频繁1-confidence衡量规则的可靠性,定义为项集,然后迭代生成候选频繁k-项集,并在A出现的条件下B也出现的条件概率通过数据库扫描确定真正的频繁项集;2confA→B=PB|A=supA∩B/supA从频繁项集生成关联规则对每个频繁项挖掘过程通常设置最小支持度和最小置集,生成所有可能的非空子集组合,计算信度阈值,只保留满足条件的规则置信度并保留满足最小置信度的规则实际应用关联规则挖掘在零售、电子商务、医疗、金融等领域有广泛应用在零售业,通过分析购物篮数据发现的规则可用于商品布局优化、交叉销售和促销活动设计在医疗领域,关联规则可用于发现症状、疾病和治疗之间的关系在金融领域,可用于发现信用卡欺诈模式评估关联规则时,除支持度和置信度外,还应考虑提升度lift、杠杆率leverage等多种兴趣度度量决策树算法算法算法算法ID3C
4.5CARTID3Iterative Dichotomiser3算法是最早的C
4.5是ID3的改进版本,引入了信息增益率作为CARTClassification AndRegression Trees决策树算法之一,使用信息增益作为特征选择标特征选择标准,缓解了ID3偏向多值特征的问题能同时处理分类和回归问题对于分类,CART准信息增益基于信息熵,衡量特征对样本类别GainRatioS,A=GainS,A/SplitInfoS,A,使用基尼指数Gini index作为不纯度度量的区分能力对于每个节点,ID3选择最大化信其中SplitInfo衡量特征分裂产生的信息C
4.5还GiniS=1-∑pᵢ²,其中pᵢ是类别i的比例CART构息增益的特征进行分裂能处理连续特征(通过二分法寻找最佳分裂点)建二叉树,每次分裂选择最小化子节点加权基尼GainS,A=EntropyS-∑[|Sᵥ、处理缺失值(根据已知值的分布进行概率估计指数的特征和分裂点对于回归,CART选择最|/|S|×EntropySᵥ]ID3的局限性包括只能)、使用悲观剪枝避免过拟合C
4.5在各领域应小化子节点均方误差的分裂CART的剪枝基于处理分类特征、倾向于选择取值较多的特征、不用广泛,平衡了计算效率和模型性能成本复杂度参数,通过交叉验证确定最优子树,能处理缺失值,且容易过拟合有效控制过拟合第十五章大数据统计大数据特点分布式计算1数据规模大、类型多样、生成速度快跨多台计算机并行处理数据2在线算法框架4MapReduce单次扫描处理流数据的方法3将任务分解为映射和规约两阶段大数据时代的统计分析面临数据规模大Volume、类型多样Variety、生成速度快Velocity和真实性挑战Veracity等特点传统的统计方法在内存中处理所有数据的做法不再可行,需要采用分布式计算、抽样方法、在线算法等技术大数据分析不仅关注数据中的相关性,还需挖掘因果关系,区分虚假相关和有意义的模式分布式计算框架如Hadoop和Spark是大数据处理的基础设施,允许跨多台计算机并行处理数据MapReduce是一种编程模型,将复杂计算分解为映射Map和规约Reduce两个阶段Map阶段将输入记录转换为中间键值对;Reduce阶段合并具有相同键的所有值这种范式能有效处理PB级数据集,适用于许多统计计算,如计数、求和、平均值和线性模型等大数据统计还涉及在线算法、流处理、近似计算和维度约简等技术在线算法允许在单次数据扫描中更新统计模型,适用于流数据;近似计算如Count-Min Sketch和HyperLogLog提供高效的概率估计;维度约简技术如随机投影有助于处理高维数据这些方法共同构成了大数据统计分析的工具箱实践应用语言基础1RR语言是统计分析和数据可视化的专业编程语言,具有丰富的统计库和绘图功能R的基本数据结构包括向量、矩阵、数据框和列表,支持函数式编程和面向对象编程核心包如stats提供了基本统计功能,ggplot2提供了强大的可视化系统,dplyr和tidyr简化了数据操作R的优势在于统计分析的专业性、社区开发的丰富扩展包和高质量的可视化能力统计分析2PythonPython在数据科学领域日益流行,关键库包括NumPy数值计算、Pandas数据处理、SciPy科学计算、Statsmodels统计模型和Scikit-learn机器学习Python的统计分析工作流通常包括数据导入、清洗、探索性分析、建模和可视化使用Matplotlib或SeabornPython的优势在于通用编程能力、易读的语法、与生产系统的集成便利性和深度学习框架如TensorFlow、PyTorch的支持案例研究3以某电商平台的用户行为分析为例,我们可以应用多种统计方法使用描述统计和可视化探索用户访问模式;应用假设检验比较不同用户组的购买转化率;使用时间序列分析预测销售趋势;通过回归分析识别影响购买决策的因素;利用聚类分析进行用户分群;采用关联规则挖掘发现产品组合模式这些分析为营销策略、产品推荐和用户体验优化提供数据支持课程总结知识点回顾学习方法建议未来发展趋势123本课程系统地介绍了概率论与数理统计的基统计学习应注重理论与实践结合理解基本统计学正在经历数据科学时代的转型,未来本理论和方法,从概率论基础、随机变量、概念和定理;通过实际问题巩固理论知识;发展趋势包括大数据和计算统计的融合;数理统计基础、参数估计、假设检验,到回利用统计软件处理真实数据;多练习、多思机器学习与传统统计的协同;贝叶斯方法和归分析、方差分析、时间序列分析等高级主考、多讨论建议采用渐进式学习,先掌握因果推断的深入发展;高维数据分析方法的题我们还探讨了非参数统计、贝叶斯统计基础知识,再学习高级方法;建立知识图谱创新;统计可视化技术的进步;统计软件和、Bootstrap方法等现代统计方法,以及主,理解各方法间的联系与区别;关注统计思计算平台的演进随着数据量增加和问题复成分分析、判别分析、聚类分析等多变量统维培养,而非仅仅记忆公式;定期复习和应杂性提高,统计学将继续发挥关键作用,并计技术在大数据时代背景下,我们还介绍用,防止遗忘多阅读经典教材和前沿论文与计算机科学、领域知识深度融合,催生新了数据挖掘技术和大数据统计方法,参与实际项目,加深理解和应用能力的方法和应用保持学习热情,跟踪前沿发展,将是统计学习者的长期任务参考文献与推荐阅读经典教材学术论文在线资源《概率论与数理统计》,陈希孺著,中国科学技术Efron,B.Tibshirani,R.
1986.Bootstrap Coursera:斯坦福大学、约翰霍普金斯大学等机构大学出版社methods forstandard errors,confidence提供的统计与数据科学课程intervals,and othermeasures ofstatistical《数理统计学教程》,茆诗松等著,高等教育出版统计之都Capital ofStatistics:中文统计学习社accuracy.Statistical Science.社区,含丰富的教程和论坛Benjamini,Y.Hochberg,Y.
1995.《应用回归分析》,王松桂等著,科学出版社Kaggle:数据科学竞赛平台,含真实数据集和案例Controlling thefalse discoveryrate:a分析《Statistical Inference》,Casella,G.practical andpowerful approachto multipleBerger,R.L.著testing.Journal ofthe Royal Statistical RProject:R语言官方网站,含文档和软件包Society.《The Elementsof StatisticalLearning》,Tibshirani,R.
1996.Regression shrinkagePython数据科学生态:NumPy,Pandas,SciPy,Hastie,T.,Tibshirani,R.Friedman,J.著and selectionvia thelasso.Journal ofthe Statsmodels等库的官方文档RoyalStatisticalSociety.《Bayesian DataAnalysis》,Gelman,A.et al.著NIST/SEMATECH EngineeringStatisticsPearl,J.
2010.Causal inferencein statistics:Handbook:全面的统计方法参考An overview.Statistics Surveys.Breiman,L.
2001.Statistical modeling:Thetwo cultures.Statistical Science.。
个人认证
优秀文档
获得点赞 0