还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
概率统计期末复习欢迎参加概率统计期末复习课程!本次复习将全面涵盖概率论与数理统计的核心知识点,帮助大家系统梳理课程内容,掌握解题技巧,为期末考试做好充分准备我们将从基础概念到进阶应用,逐步深入,确保每位同学都能掌握必要的理论和计算方法希望通过这次复习,大家能够对概率统计有更加清晰和深入的理解让我们一起开始这段学习之旅,共同迎接期末考试的挑战!课程概述课程目标考试范围12本课程旨在帮助学生掌握概率期末考试将涵盖概率论和数理统计的基本理论和方法,培养统计两大部分,包括但不限于学生的概率思维和统计分析能随机事件与概率、随机变量及力通过系统的学习和练习,其分布、数字特征、大数定律使学生能够运用概率统计知识与中心极限定理、参数估计、解决实际问题,为后续专业课假设检验、回归分析等内容程和科研工作奠定基础重点考察基本概念的理解和计算方法的应用复习重点3复习重点包括概率计算、常见分布的应用、统计量的计算与分布、各类统计推断方法的选择与应用等建议同学们重点关注公式推导、例题分析和综合应用题的解题思路,提高解决复杂问题的能力第一章概率论基础随机试验样本空间随机事件随机试验是指在相同条件下可重复进样本空间是随机试验所有可能结果的随机事件是样本空间的子集,表示随行的,并且事先无法预知确切结果的集合,通常用表示每次随机试验机试验可能出现的某些结果的集合Ω试验随机试验具有三个基本特性必然会产生一个且仅一个样本点例基本事件是只包含一个样本点的事件可重复性、可观察性和不确定性例如,掷一枚骰子的样本空间为必然事件是包含全部样本点的事件如,抛硬币、掷骰子、抽取样本等都Ω,抛一枚硬币的样本空(即样本空间本身)不可能事件是={1,2,3,4,5,6}属于随机试验间为Ω正面,反面不包含任何样本点的事件(即空集)={}事件的关系与运算包含关系并集、交集若事件的每个样本点都是事件事件与事件的并集,记作∪A B A B A B的样本点,则称事件包含于事,表示事件或事件发生;事件A A B件,记作⊂例如,在掷骰与事件的交集,记作,表∩B A BA BA B子试验中,若表示点数为偶数示事件和事件同时发生;事件AA B即,表示点数大于即的补集,记作,表示事件A={2,4,6}B1A A^c A,则有⊂不发生这些运算满足交换律、B={2,3,4,5,6}A B结合律和分配律互斥事件如果事件与事件不可能同时发生,即∅,则称事件与事件互斥∩A BA B=A B或互不相容例如,在掷骰子试验中,事件点数为奇数和事件点数为偶数就是互斥事件互斥事件的概率满足加法规则∪PA B=PA+PB概率的定义与性质古典概型几何概型概率的公理化定义当随机试验满足有限性(样本点有限)和等当随机试验的样本空间是某个区域,事件是概率是定义在事件域上的非负实值函数,P可能性(每个样本点出现的概率相等)时,其子区域,且每个样本点出现的概率与其位满足以下三条公理
①非负性对任意事件称为古典概型在古典概型中,事件的概置无关,只与区域的大小有关时,称为几,;
②规范性对必然事件,ΩAA PA≥0率计算公式为事件包含的样本点数何概型在几何概型中,事件的概率计算;
③可列可加性对互不相容的事件ΩPA=A/A P=1样本空间的样本点总数例如,掷一枚均匀公式为事件对应的度量样本空间的序列,有∪∪PA=A/A₁,A₂,...PA₁A₂...=PA₁+PA₂+...骰子,点数为偶数的概率是度量度量可以是长度、面积或体积等从公理可导出概率的基本性质3/6=1/2条件概率定义1条件概率表示在事件已经发生的条件下,事件发生的概率其定义为PA|B BAPA|B=PA∩B/PB,其中PB0条件概率是一种新的概率,它满足概率的所有性质例如,在抽取两张扑克牌的试验中,若已知第一张是红桃,则第二张也是红桃的条件概率是12/51乘法公式2乘法公式是计算事件交集概率的一种方法PA∩B=PBPA|B=PAPB|A对于n个事件的情况,有PA₁∩A₂∩...∩A=PA₁PA₂|A₁PA₃|A₁∩A₂...PA|A₁∩A₂∩...∩A₁这是解决复ₙₙₙ₋杂概率问题的重要工具全概率公式3若B₁,B₂,...,B构成样本空间Ω的一个完备事件组(即它们互不相容且并集为Ω)ₙ,则对任意事件,有全概率公A PA=PB₁PA|B₁+PB₂PA|B₂+...+PB PA|Bₙₙ式将一个直接计算困难的概率问题,转化为已知条件下的概率计算,常用于求解分层抽样问题贝叶斯公式定义贝叶斯公式是条件概率的一个重要应用,用于计算已知结果求原因的概率问题若B₁,B₂,...,B构成样本空间Ω的一个完备事件组,对任意事件ₙA(PA0),有PBᵢ|A=PBᵢPA|Bᵢ/[PB₁PA|B₁+PB₂PA|B₂+...+PB PA|B]ₙₙ应用场景贝叶斯公式广泛应用于医学诊断、模式识别、机器学习等领域例如,在医学诊断中,可以计算已知患者出现某症状,患有某种疾病的概率;在垃圾邮件识别中,可以计算含有某些关键词的邮件是垃圾邮件的概率计算步骤使用贝叶斯公式的计算步骤通常包括
①确定完备事件组;B₁,B₂,...,Bₙ
②计算各先验概率PBᵢ;
③计算条件概率PA|Bᵢ;
④应用贝叶斯公式计算后验概率PBᵢ|A解题时需要注意分清因与果的关系事件的独立性判断方法判断事件是否独立,可以检验是否成立对于三个事件∩PA B=PAPB A、、的相互独立,需要满足B C,,定义2PA∩B=PAPB PA∩C=PAPC,∩∩∩PB C=PBPC PA B C=PAPBPC如果,则称事件与事件∩PAB=PAPB AB相互独立独立性表示一个事件的发生与1独立重复试验否不影响另一个事件发生的概率,即独立重复试验是指在相同条件下重复进行的或独立性是事件之PB|A=PB PA|B=PA,且各次试验结果相互独立的随机试验例间的一种特殊关系,与互斥性完全不同如,重复抛掷硬币、多次抽奖(有放回)等3在次独立重复试验中,事件恰好发生n Ak次的概率计算使用二项分布,其中是单次试PX=k=Cn,kp^k1-p^n-k p验事件发生的概率A随机变量及其分布离散型随机变量取值为有限个或可列无限个的随机变量称为离散型随机变量其概率分布可用概率质量函数表示,满足1PX=x且ΣPX=x≥0PX=x=1连续型随机变量取值在某区间上的随机变量称为连续型随机变量其概率分布可用概率密度函数表2fx示,满足且fx≥0∫fxdx=1分布函数分布函数适用于描述任何类型的随机变量,具有右连3Fx=PX≤x续、单调不减且,的性质F-∞=0F+∞=1随机变量是随机现象数量化的数学描述,建立了随机现象与数学分析之间的桥梁它将样本空间中的每个元素映射到实数上,使得我们可以对随机现象进行定量分析分布函数是研究随机变量的重要工具,能够完整地描述随机变量的概率分布特征离散型随机变量的分布分布0-11只有两种可能取值和01二项分布2次独立重复试验中成功次数n泊松分布3单位时间内随机事件发生次数分布是最简单的离散型分布,随机变量只取或两个值,其分布律为,,期望,方差它通常用于表示一次试验中0-1X01PX=1=p PX=0=1-p EX=p DX=p1-p事件是否发生A二项分布描述次独立重复试验中成功次数的分布,其分布律为,期望,方差当试验次数大且接近Bn,p nPX=k=Cn,kp^k1-p^n-k EX=np DX=np1-p p0时,可用泊松分布近似泊松分布Pλ描述单位时间内随机事件发生次数的分布,其分布律为PX=k=λ^k·e^-λ/k!,期望和方差均为λ泊松分布常用于描述罕见事件的出现次数,如通信系统中的误码数、单位时间内的顾客到达数等连续型随机变量的分布均匀分布描述随机变量在区间上均匀分布的情况,其概率密度函数为,当时;其他情况为期望为,方差为均Ua,b[a,b]fx=1/b-a a≤x≤b0EX=a+b/2DX=b-a²/12匀分布常用于模拟随机数生成指数分布Expλ的概率密度函数为fx=λe^-λx,当x0时;x≤0时为0其分布函数为Fx=1-e^-λx,x0期望为EX=1/λ,方差为DX=1/λ²指数分布具有无记忆性,常用于描述元件的寿命、等待时间等正态分布Nμ,σ²是最重要的连续型分布,其概率密度函数为fx=1/√2πσ²·e^-x-μ²/2σ²标准正态分布N0,1的分布函数记为Φx正态分布广泛应用于自然和社会科学中,具有良好的数学性质,是统计推断的基础随机变量的数字特征期望方差随机变量的期望(或均值)随机变量的方差是描述随机X EX X DX是描述随机变量集中趋势的数字变量取值分散程度的数字特征,特征对离散型随机变量,定义为DX=E[X-EX²]=EX²-[EX]²Σ;对连续型随机变量方差越大,随机变量的取值越EX=xPX=x,期望具有线性性分散,随机性越强方差有性质EX=∫xfxdx质对独立随机对独立随机变EaX+b=aEX+b DaX+b=a²DX变量,有量,有EXY=EXEY DX±Y=DX+DY标准差标准差是方差的算术平方根,记作标准差与随机变量具有相同σX=√DX的量纲,因此在实际问题中更易于理解和应用在正态分布中,约的取68%值在范围内,约的取值在范围内,约的取值μσμσμσμσ[-,+]95%[-2,+2]
99.7%在范围内μσμσ[-3,+3]协方差与相关系数定义计算方法相关系数协方差对离散型随机变量,协方差计算公式相关系数ρσσ是CovX,Y=E[X-EXY-X,Y=CovX,Y/[X Y]是描述两个随机为标准化的协方差,取值范围在之ΣᵢᵢᵢᵢEY]=EXY-EXEY CovX,Y=x-EXy-EYPX=x,Y=y[-1,1]变量线性相关程度的数字特征协方;对连续型随机变量,协方差计算间ρ表示完全线性相关;ρ表||=1=0差大于表示正相关,小于表示负相公式为示不相关;接近表示高度相关;ρ00CovX,Y=∫∫x-EXy-||1关,等于表示不相关协方差的缺协方差满足性质接近表示低相关相关系数是无ρ0EYfx,ydxdy||0点是与随机变量的量纲有关,难以直量纲的,可以比较不同随机变量间的CovaX+b,cY+d=acCovX,Y观比较不同随机变量间的相关程度相关程度大数定律切比雪夫不等式伯努利大数定律辛钦大数定律切比雪夫不等式给出伯努利大数定律是最辛钦大数定律表明,了随机变量与其期望早的大数定律,描述独立同分布随机变量偏离程度的一个上界了频率稳定性在次序列的算术平均值几n对任意随机变量,独立重复试验中,事乎必然收敛于其期望X对任意正数,件发生的频率随即若是独εP|X-A n₁/n X₁,X₂,...εε这是着的增大几乎必然收立同分布的随机变量EX|≥≤DX/²n大数定律的理论基础敛于事件的概率序列,具有相同的期A p,表明具有有限方差数学表达为对任意望,则对任意正数με的随机变量,其取值正数ε,,limn→∞P|X̄-ₙ主要集中在期望附近→με,其中limn∞P|n₁/n-|=1ε这揭示了概̄p|=1X=X₁+X₂+...+X/nₙₙ率的频率意义中心极限定理定义应用示例123中心极限定理是概率论中最重要的定中心极限定理广泛应用于抽样调查、掷骰子的例子单次掷骰子点数的均理之一,它表明在满足一定条件的情质量控制、信号处理等领域它是大值μ,方差σ,当掷骰子次=
3.5²=35/12况下,大量相互独立的随机变量之和样本统计推断的理论基础,使我们能数足够大时,次点数和的分布可近n n的分布趋近于正态分布具体地,若够利用正态分布的良好性质进行参数似为正态分布这意味N
3.5n,35n/12是独立同分布的随机变量,估计和假设检验例如,样本均值的着,通过使用正态分布的性质,我们X₁,X₂,...,Xₙ均值为μ,方差为σ,则随机变量抽样分布、二项分布的正态近似等都可以方便地计算次点数和落在某区间²0nμσ的分布近似基于中心极限定理的概率Z=X₁+X₂+...+X-n/√nₙ于标准正态分布N0,1第二章数理统计基础总体与样本统计量抽样分布总体是研究对象的全体,通常是一个统计量是样本的函数,不含任何未知抽样分布是统计量的概率分布了解分布样本是从总体中抽取的部分个参数常见的统计量有样本均值、样统计量的抽样分布是进行统计推断的体,用于推断总体的特征样本的随本方差、样本标准差等统计量是随关键常见的抽样分布有正态分布、机性和代表性是统计推断的基础简机变量,具有一定的分布,称为抽样分布、χ分布和分布等这些分布t²F单随机抽样要求样本中的每个个体都分布统计量用于估计总体参数,其之间存在密切关系,在不同场景下用是从总体中随机抽取的,且相互独立分布特性对参数估计和假设检验至关于描述不同统计量的分布特性重要常见统计量及其分布分布分布分布χ²t F如果是独立的标准正态随机变量如果,,且与相互独立如果,,且与相互独立χχχZ₁,Z₂,...,Z Z~N0,1Y~²n ZY U~²n₁V~²n₂U Vₙ,则随机变量服从自由,则随机变量服从自由度为的,则随机变量服从自由度为χ²=Z₁²+Z₂²+...+Z²t=Z/√Y/n nt F=U/n₁/V/n₂ₙ度为的分布,记作分布的分布,记作分布是对称的,形状的分布,记作分布是非χχχχn²²~²n²t~tn tn₁,n₂F F~Fn₁,n₂F期望为,方差为分布常用于总体方与标准正态分布相似,但尾部更重当趋对称的,取值范围为分布常用于χn2n²n[0,+∞F差的区间估计和假设检验于无穷时,分布趋于标准正态分布分两个总体方差比的假设检验和方差分析t t布常用于小样本条件下总体均值的区间估计和假设检验参数估计点估计点估计是用样本统计量直接估计总体参数的方法常用的点估计方法有矩估计法和最大似然估计法常见的点估计量有用样本均值X̄估计总体均值μ,用样本方差S²估计总体方差σ²,用样本比例p̂估计总体比例p等点估计的优劣可以通过无偏性、有效性和一致性等评价区间估计区间估计是给出参数可能取值的区间范围置信区间是区间估计的结果,表示以一定的置信度(如)认为参数落在该区间内常见的区间估计有正态总95%体均值的区间估计、正态总体方差的区间估计、总体比例的区间估计等置信水平1-α越高,置信区间越宽,估计精度越低最大似然估计最大似然估计是根据已知的样本结果,求参数的最可能取值设总体的概率X密度(或分布律)为fx;θ,其中θ是待估参数对于样本x₁,x₂,...,x,似然函数ₙ为Lθ=∏fxᵢ;θ最大似然估计就是求使Lθ达到最大值的参数θ的值最大似然估计具有强一致性和渐近正态性等良好性质假设检验基本步骤1假设检验的基本步骤包括
①提出原假设和备择假设;
②确定检验统计量及其H₀H₁在H₀下的分布;
③确定显著性水平α并计算临界值;
④计算检验统计量的观测值;
⑤做出决策(拒绝或不拒绝)并给出结论假设检验是统计推断的重要方法,广H₀泛应用于质量控制、医学研究、经济分析等领域显著性水平2显著性水平α是拒绝域的概率,表示当原假设H₀为真时,错误拒绝H₀的概率常用的显著性水平有、和显著性水平越小,要求的证据强度越大,做出
0.
050.
010.001拒绝的决策越谨慎在实际应用中,显著性水平的选择应根据问题的性质和犯错H₀误的后果而定第一类错误与第二类错误3第一类错误是当H₀为真时拒绝H₀的错误,其概率为α(显著性水平)第二类错误是当H₁为真时不拒绝H₀的错误,其概率记为β1-β称为检验的功效,表示当H₁为真时正确拒绝H₀的概率理想的检验应同时控制α和β,但在样本量固定的情况下,降低α会导致β增大,两者之间存在权衡正态总体均值的检验单个总体均值的检验当总体方差σ²已知时,检验统计量Z=X̄-μ₀/σ/√n~N0,1;当总体方差σ²未知时,检验统计量t=X̄-μ₀/S/√n~tn-1假设形式包括双侧检验H₀:μ=μ₀,H₁:μ≠μ₀,右侧检验H₀:μ≤μ₀,H₁:μμ₀,左侧检验H₀:μ≥μ₀,H₁:μμ₀两个总体均值的检验当总体方差σ₁²,σ₂²已知时,检验统计量Z=X̄₁-X̄₂-d₀/√σ₁²/n₁+σ₂²/n₂~N0,1;当总体方差未知但假设相等时,检验统计量t=X̄₁-X̄₂-d₀/S_p√1/n₁+1/n₂~tn₁+n₂-2,其中S_p是合并样本标准差配对数据的均值检验通过计算差值D=X-Y,将两个相关样本的比较转化为单一样本的检验问题检验统计量为t=D̄/S_D/√n~tn-1,其中D̄是差值的平均数,S_D是差值的样本标准差这种方法常用于前后测试比较方差的假设检验单个总体检验正态总体方差σ²是否等于某个指定值σ₀²,假设形式为H₀:σ²=σ₀²,H₁:σ²≠σ₀²(或σ₀²,或σ₀²)检验统计量为χ²=n-1S²/σ₀²~χ²n-1对于双侧检验,当χ²χ²₁₋α/₂n-1或χ²χ²α/₂n-1时拒绝H₀;对于右侧检验,当χ²χ²αn-1时拒绝H₀;对于左侧检验,当χ²χ²₁₋αn-1时拒绝H₀两个总体检验两个正态总体方差是否相等,假设形式为H₀:σ₁²=σ₂²,H₁:σ₁²≠σ₂²(或σ₂²,或σ₂²)检验统计量为F=S₁²/S₂²~Fn₁-1,n₂-1,其中S₁²和S₂²分别是两个样本的方差对于双侧检验,当FFα/₂n₁-1,n₂-1时拒绝H₀;对于右侧检验,当FFαn₁-1,n₂-时拒绝;对于左侧检验,当1H₀F检验F检验是检验两个总体方差比的重要方法,基于统计量的分布特性在实际应F F用中,通常将较大的样本方差放在分子上,使统计量大于,这样只需查分布F1F右尾的临界值检验对数据的正态性假设很敏感,当数据明显偏离正态分布F时,应谨慎使用检验不仅用于方差的比较,还是方差分析的基础F列联表的独立性检验类别属性属性属性属性合计\
①整个方程的显著性检验,判断所有自变量是否对因变量有显著影响;
②各个回归系数的显著性检验,判断特定自变量是否对因变量有显著影响多元回归分析中需要注意多重共线性问题,即自变量之间存在高度相关,可能导致参数估计不稳定解决方法包括删除高度相关的变量、使用岭回归或主成分回归等相关分析皮尔逊相关系数r是度量两个连续变量线性相关程度的统计量,定义为r=Σ[xᵢ-x̄yᵢ-ȳ]/[√Σxᵢ-x̄²√Σyᵢ-ȳ²]r的取值范围在[-1,1]之间,r0表示正相关,r0表示负相关,|r|越接近1表示相关性越强,表示不相关皮尔逊相关系数的假设检验通常采用检验,检验统计量为r=0t t=r√n-2/√1-r²~tn-2斯皮尔曼等级相关系数是一种非参数方法,用于度量两个变量之间的单调关系,不要求变量服从正态分布或线性相关计算方法是将原始数据转换为等级数据,然后应用皮尔逊相关系rₛ数公式,即r=1-6Σd²/[nn²-1],其中d是对应等级的差值斯皮尔曼等级相关系数在处理序数型数据或含有异常值的数据时特别有用ₛ相关性的显著性检验用于判断观察到的相关是否可能由随机因素引起对于皮尔逊相关系数,假设形式为H₀:ρ=0,H₁:ρ≠0(或ρ0,或ρ0)需要注意的是,相关不等于因果,两个变量之间存在显著相关不足以证明它们之间存在因果关系,可能存在共同的原因或其他解释确定因果关系通常需要设计合适的实验或引入更多的控制变量第三章常见概率分布复习期望方差二项分布描述次独立重复试验中成功次数的分布,期望为,方差为二项分布具有可加性,即如果,,且和独立,则当很大且很小时,Bn,p nEX=np DX=np1-p X~Bn,p Y~Bm,p X Y X+Y~Bn+m,p npBn,p可以用泊松分布Pλ=np近似;当n很大时,可以用正态分布Nnp,np1-p近似泊松分布Pλ的分布律为PX=k=λ^k·e^-λ/k!,k=0,1,2,...期望和方差均为λ泊松分布具有可加性,即如果X~Pλ₁,Y~Pλ₂,且X和Y独立,则X+Y~Pλ₁+λ₂泊松分布常用于描述单位时间(或空间)内随机事件发生次数的分布,如单位时间内的顾客到达数、单位面积内的缺陷数等正态分布的标准化是将一般正态分布X~Nμ,σ²转换为标准正态分布Z~N0,1的过程,转换公式为Z=X-μ/σ标准化后,可以使用标准正态分布表查找概率如果X~Nμ,σ²,则对于任意常数a和bb0,aX+b~Naμ+b,a²σ²如果X~Nμ₁,σ₁²,Y~Nμ₂,σ₂²,且X和Y独立,则X+Y~Nμ₁+μ₂,σ₁²+σ₂²,X-Y~Nμ₁-μ₂,σ₁²+σ₂²概率密度函数的性质非负性归一性对于任意∈,概率密度函数概率密度函数在整个取值范围上的x Rfx≥0这是因为概率不可能为负值,所积分等于,即这是因为1∫fxdx=1以描述概率分布的函数必须是非负随机变量必然取某个值,所有可能的需要注意的是,特定点上的概取值的概率之和为对于只在特定1率密度值可以大于,但概率不会大区间上取值的随机变量,其概1[a,b]于这是因为连续型随机变量在单率密度函数在区间外为,且ₐᵇ10∫点上的概率为,只有区间上的概率归一性是构建合法概率密0fxdx=1才有意义度函数的必要条件概率计算连续型随机变量在区间上的概率等于概率密度函数在该区间上的积分,即[a,b]特别地,,这是连续型随机变量的重要特性概率ₐᵇPa≤X≤b=∫fxdx PX=a=0密度函数的图形下方与轴之间的面积表示相应区间上的概率,总面积为利x1用这一特性,可以通过几何方法直观理解和计算概率随机变量函数的分布离散型随机变量的函数连续型随机变量的函数变量替换法若是离散型随机变量,其分布律为若是连续型随机变量,概率密度函对于非单调函数,可以将其分解为几X Xᵢᵢ,,则也是离数为,是的严格单调函个单调区间,分别计算后合并也可PX=x=p i=1,2,...Y=gX f_Xx Y=gX X散型随机变量,其分布律可以直接计数,则的概率密度函数为以使用分布函数法先求的分Y Y=gX算ⱼᵢ,其中求和范⁻⁻,其中布函数,然后PY=y=∑PX=xf_Yy=f_Xg¹y|dg¹y/dy|F_Yy=PY≤y=PgX≤y围是所有满足ᵢⱼ的值这种方⁻是的反函数这种方法称为分对求导得到概率密度函数gx=y ig¹g y法通常称为直接法或枚举法,适用于布函数法,基于变量替换原理,通过复杂情况下,可以f_Yy=dF_Yy/dy简单的函数变换求导得到概率密度函数使用矩母函数或特征函数等工具多维随机变量联合分布函数边缘分布条件分布二维随机变量的联合分布函数定义为二维随机变量的边缘分布是指单独考给定,的条件分布描述了在取特定值X,Y X,Y Y=y X Y,表示随机变量的取值不虑或的分布离散情况下,的边缘分的条件下的分布情况离散情况下,条件Fx,y=PX≤x,Y≤y X X YX X超过且的取值不超过的概率联合分布布律为ⱼ,连续情况下概率质量函数为x Yy PX=x=∑PX=x,Y=y函数具有非负性、单调性、有界性和右连,的边缘概率密度为通;连续情况下X f_Xx=∫fx,ydy PX=x|Y=y=PX=x,Y=y/PY=y续性等性质对于离散型随机变量,有过边缘分布,可以从联合分布中提取单个,条件概率密度函数为,fx|y=fx,y/f_Yyᵢⱼ,求和范围是所有满随机变量的分布特征,但无法反映两个变其中条件分布反映了随机变量之Fx,y=∑∑PX=x,Y=yf_Yy0足ᵢ且ⱼ的量之间的关系间的依赖关系,是构建概率模型的重要工x≤x y≤y i,j具独立性与相关性随机变量的独立性不相关与独立的关系线性相关系数的性质如果对于任意实数和,如果,即线性相关系数x y EXY=EXEY有Fx,y=F_XxF_Yy,则称CovX,Y=0,则称随机变量ρX,Y=CovX,Y/[σXσY]随机变量X和Y相互独立X和Y不相关独立一定导具有以下性质
①-1≤ρ≤1;对于离散型随机变量,独致不相关,但不相关不一
②|ρ|=1当且仅当X和Y之间立性等价于定导致独立只有在特殊存在严格的线性关系对情况下,如和服从二维;
③如果和PX=x,Y=y=PX=xPY=y XY Y=aX+ba≠0XY所有可能的x,y都成立;正态分布时,不相关与独独立,则ρ=0,但反之不对于连续型随机变量,独立等价不相关仅表示和成立;X立性等价于Y之间不存在线性相关关系
④ρaX+b,cY+d=signac·ρ对几乎所,但可能存在其他形式的,其中线性相fx,y=f_Xxf_Yy X,Y a,c≠0有的都成立独立性依赖关系关系数是度量线性相关强x,y表示一个随机变量的取值度的重要指标,但不能反不影响另一个随机变量的映非线性相关关系分布条件期望定义1给定随机变量,随机变量的条件期望是关于条件分布的Y=y XEX|Y=y Xfx|y期望对离散情况,;对连续情况,EX|Y=y=∑xPX=x|Y=y性质条件期望是的函数,它本身也是一个随机变量,2EX|Y=y=∫xfx|ydx EX|Y Y可以看作的基于信息的最佳预测XY条件期望具有以下性质
①线性性;
②如果和独立EaX+b|Y=aEX|Y+b XY,则;
③,即条件期望的期望等于无条件期望;
④EX|Y=EX E[EX|Y]=EX对任意函数,有;
⑤;gY E[gY|Y]=gY E[gYX|Y]=gYEX|Y全期望公式3
⑥,即的函数的期望不受条件化的影响E[gY]=E[EgY|X]=E[gY]Y全期望公式(也称为迭代期望公式或期望的分解定理)表明,随机变量X的期望可以通过条件期望的加权平均来计算对离散情况EX=E[EX|Y],;对连续情况,全期望公式在EX=∑EX|Y=yPY=yEX=∫EX|Y=yf_Yydy理论分析和实际计算中都有重要应用,特别是在复杂随机系统的分析中特征函数定义性质12随机变量的特征函数定义为特征函数具有以下重要性质Xφ_Xt=Ee^itX,t∈R,其中i是虚数
①φ_X0=1;
②|φ_Xt|≤1;
③φ_X-单位对离散型随机变量,t=φ_Xt^*(共轭对称性);
④如果Xφ_Xt=∑e^itxPX=x;对连续型随机和Y独立,则φ_X+Yt=φ_Xtφ_Yt;变量,φ_Xt=∫e^itxfxdx特征函数
⑤对于任意常数a和b,是随机变量分布的另一种表达方式,φ_aX+bt=e^itbφ_Xat;
⑥φ_Xt在与分布函数、概率密度函数等价但具处的阶导数与的阶原点矩直接t=0k Xk有不同的数学性质相关φ_X^k0=i^k·EX^k;
⑦特征函数唯一确定分布应用3特征函数在概率论和数理统计中有广泛应用
①求随机变量和的分布利用独立随机变量的特征函数的乘积性质;
②计算矩通过特征函数在原点处的导数;
③证明中心极限定理分析标准化随机变量和的特征函数极限行为;
④构建统计量分布的理论基础,如分布、分布等;
⑤处理无穷可分布、稳定分布等特殊分布t F大数定律的应用蒙特卡洛方法频率与概率的关系实际问题中的应用蒙特卡洛方法是基于随机抽样的数值大数定律揭示了频率与概率之间的关大数定律在保险精算、金融投资、质计算方法,其理论基础是大数定律系在大量重复试验中,事件发生的量控制等领域有重要应用例如,保通过生成大量随机样本,可以近似计频率几乎必然收敛于事件的概率这险公司根据大数定律确定保费虽然算积分、求解方程、优化问题等例种频率解释为概率提供了实验基础,个体索赔是随机的,但大量保单的平如,计算定积分ₐᵇ可转化为估使得我们可以通过频率来估计概率均索赔额会稳定在期望值附近,使得∫fxdx计随机变量的期望,其中在例如,通过大量抛硬币实验,可以验风险可控同样,投资组合理论也基fX X[a,b]上均匀分布证硬币正面朝上的概率接近于大数定律,通过分散投资降低整体
0.5风险中心极限定理的应用抽样分布的近似正态总体的抽样非正态总体的大样本推断中心极限定理使我们可以用正态分布近似对于正态总体μσ,样本均值̄精确服从中心极限定理保证了当样本量足够大时,N,²X样本均值的分布,无论原始总体分布如何正态分布μσ样本方差与总体方即使原始总体严重偏离正态分布,样本均N,²/n S²(只要方差有限)这极大地简化了统计差σ的关系为σχ这些精确值的分布仍然近似正态这使得我们可以²n-1S²/²~²n-1推断过程,特别是在处理非正态总体时分布是参数估计和假设检验的理论基础对各种总体进行标准的统计推断一般认例如,样本均值̄近似服从正态分布例如,在小样本情况下,构造统计量̄为,当样本量时,正态近似通常是合X tX-n≥30μσ,其中μ和σ分别是总体均值和方μ进行均值检验理的对于偏斜总体,可能需要更大的样N,²/n²/S/√n~tn-1差,是样本量本量n参数估计方法比较矩估计最大似然估计12矩估计法的基本思想是用样本矩来最大似然估计法基于似然函数估计相应的总体矩,然后解方程组Lθ=∏fxᵢ;θ,选择使似然函数最大求出参数估计值设总体的概率的参数值作为估计实际计算中,X分布含有k个未知参数θ₁,θ₂,...,θ,通常最大化对数似然函数lnLθ,ₖ则构造k个矩等式EX^j=μ_j,通过求导数等于零得到方程组,解,用样本矩代出参数估计值最大似然估计具有j=1,2,...,k M_j=∑X_i^j/n替μ_j,解出参数估计值矩估计渐近无偏性、渐近有效性和渐近正法计算简单,但估计效率通常低于态性等良好的大样本性质,是最常最大似然估计用的参数估计方法贝叶斯估计3贝叶斯估计将参数视为随机变量,结合先验分布πθ和样本信息,通过贝叶斯公式计算后验分布πθ|x∝Lθπθ参数估计可以是后验分布的均值、中位数或众数等贝叶斯估计的优点是能够融合先验信息,在小样本情况下表现更好;缺点是需要指定先验分布,结果可能受到主观因素影响假设检验的功效分析功效函数样本量的确定功效与显著性水平的关系功效函数定义为当参数θ取特定值时,正确拒绝在设计实验时,需要确定适当的样本量n,使得在样本量固定的情况下,提高显著性水平α(放原假设H₀的概率,即Powerθ=P拒绝H₀|θ当检验在指定的显著性水平α下,对特定的参数差宽拒绝标准)会增加功效1-β,但同时也增加了θ∈Θ₀(原假设参数空间)时,Powerθ=α(显异具有足够高的功效1-β例如,对正态总体均第一类错误的风险反之,降低α会减少第一类著性水平);当θ∈Θ₁(备择假设参数空间)时值的双侧检验,若要在显著性水平α下检测到效错误风险,但也降低了功效,增加了第二类错误,Powerθ=1-βθ,其中βθ是第二类错误概率应大小d=|μ-μ₀|/σ,功效为1-β,则需要的样本量风险因此,在实际应用中需要根据具体问题的理想的检验应在保持α不变的前提下,使功效约为n=z_{α/2}+z_β²/d²,其中z是标准正态分布性质和不同类型错误的后果,权衡α和β的取值函数在Θ₁上尽可能大的分位数非参数检验方法符号检验秩和检验检验Wilcoxon符号检验是一种简单的非参数方法,用于检秩和检验(也称为检符号秩检验用于配对样本比较,是符Wilcoxon Mann-Whitney UWilcoxon验中位数或配对样本的差异其基本思想是验)用于比较两个独立样本是否来自相同分号检验的改进版本计算配对差值的绝对值,如果原假设为真(如总体中位数等于某个布将两组样本合并排序,计算秩和(通排序,然后加上原始差值的符号,得到有符W值μ),则样本值大于μ和小于μ的个数应常是较小样本组的秩和)当两总体分布相号秩检验统计量为正秩和⁺或负秩和⁻₀₀₀W W大致相等检验统计量为大于μ的样本个数同时,近似服从正态分布与检验相比,当零假设(两组数据没有系统性差异)为₀S Wt,当原假设为真时,近似服从二项分布秩和检验不要求总体正态分布,对异常值的真时,⁺或⁻的分布可以通过表格查询或S WW符号检验不要求总体分布的具体形敏感性较低,适用范围更广正态近似计算相比符号检验,符号秩检验Bn,1/2式,只假设总体分布连续利用了差值的大小信息,效率更高方法Bootstrap应用场景适用于统计量分布未知或难以推导的情况,Bootstrap2可用于构造置信区间、进行假设检验或估计标准误原理对复杂统计量如中位数、相关系数或回归系数等尤为方法是一种基于重复抽样的非参数统计推断有用Bootstrap1方法其核心思想是将观测样本视为总体,通过有放回抽样生成多个样本,然后基于这些样本Bootstrap优缺点分析计算统计量的分布特性优点包括不依赖分布假设、适用于小样本、操作简单3;缺点是计算量大、对原始样本依赖性强,且在某些情况下(如重尾分布)可能不可靠方法的具体步骤包括
①从原始样本中有放回抽取个观测值,组成一个样本;
②计算该样本的统计量值;
③重复步骤
①和
②多次(通常Bootstrap nBootstrap次);
④基于得到的统计量值集合,计算经验分布、标准误或置信区间等1000-10000方法有多种变体,如参数(假设总体分布形式已知,仅参数未知)、分层(考虑数据的分层结构)、块(处理时间序列数Bootstrap Bootstrap Bootstrap Bootstrap据中的相关性)等每种变体针对特定类型的数据结构设计,以提高推断的准确性在实际应用中,需要注意的局限性当原始样本不能很好地代表总体时,结果可能有偏差对于样本量极小的情况,可能生成的不BootstrapBootstrapBootstrap同样本过少,影响推断质量因此,在使用前应评估其适用性,必要时结合其他方法进行交叉验证Bootstrap时间序列分析基础平稳时间序列自相关函数平稳时间序列是指其统计特性(如均值自相关函数描述了时间序列与其自ACF、方差、自相关函数等)不随时间变化身滞后值之间的线性相关程度,定义为的序列严格平稳要求所有维度的联合ρ=CovX,X/VarX自相关ₖₜₜ₊ₖₜ分布不变,而弱平稳(或宽平稳)仅要函数有助于识别时间序列的周期性、记求均值和协方差结构不变平稳性是时忆性和依赖结构对于平稳时间序列,间序列建模的重要前提,许多经典模型自相关函数只依赖于时间间隔,不依赖k如模型都基于平稳假设非平稳序于时间点样本自相关函数是估计总体ARMA t列通常需要通过差分等变换转化为平稳自相关的重要工具,通过观察其衰减模序列才能进行建模式可以初步判断序列类型偏自相关函数偏自相关函数衡量了时间序列值与其步滞后值之间的直接相关性,去除了中间滞PACF k后值的影响它定义为对条件下,与的条件相关系数XX₁,...,X₁XXₜₜ₊ₜ₊ₖ₋ₜₜ₊ₖ偏自相关函数在模型识别中起关键作用模型的在滞后后截尾(变为ARMA ARpPACF p),而模型的在滞后后截尾通过同时分析和的特征,可以确定0MAq ACFq ACF PACF模型的适当阶数ARMA模型ARMA模型AR1自回归模型表示当前值与其过去值的线性关系,阶数的模型记为p ARARp模型MA2移动平均模型表示当前值与当前及过去白噪声的线性组合,阶数的模型记为q MAMAq模型识别与估计3使用和图识别模型类型,通过极大似然法或最小二乘法估计参数ACF PACFARp模型的数学表达式为X=φ₁X₁+φ₂X₂+...+φX+ε,其中ε是白噪声AR模型的特征是PACF在滞后p后截尾,而ACF呈指数或振荡衰减AR模型的ₜₜ₋ₜ₋ₚₜ₋ₚₜₜ平稳性通过特征方程1-φ₁z-φ₂z²-...-φzᵖ=0的所有根都在单位圆外来保证ₚMAq模型的数学表达式为X=ε+θ₁ε₁+θ₂ε₂+...+θₑεₑ,其中ε是白噪声MA模型的特征是ACF在滞后q后截尾,而PACF呈指数或振荡衰减所有有限阶ₜₜₜ₋ₜ₋ₜ₋ₜMA模型都是平稳的,但可能存在可逆性问题,需要特征方程1+θ₁z+θ₂z²+...+θₑzᵍ=0的所有根在单位圆外ARMAp,q模型结合了AR和MA模型的特性,表达式为X=φ₁X₁+...+φX+ε+θ₁ε₁+...+θₑεₑ模型识别后,需要进行参数估计和模型诊断,包括残差ₜₜ₋ₚₜ₋ₚₜₜ₋ₜ₋分析(检验残差是否为白噪声)、信息准则(如、)比较和预测精度评估等,以确定最终模型模型是时间序列预测的基础工具,可进一步扩展为处理非AIC BICARMA平稳序列的模型ARIMA主成分分析原理主成分分析是一种降维技术,旨在将高维数据转换为较低维度的表示,同时保留数据PCA的主要变异其核心思想是找到数据中方差最大的方向(主成分),这些方向是原始变量的线性组合第一主成分解释了数据中最大的方差,第二主成分解释了剩余方差中最大的部分,依此类推主成分之间相互正交,形成一组新的坐标系计算步骤主成分分析的计算步骤包括
①数据中心化(减去均值)或标准化(减均值除标准差);
②计算协方差矩阵或相关矩阵;
③求解协方差矩阵的特征值和特征向量;
④按特征值大小降序排列特征向量;
⑤选择前个特征向量形成投影矩阵;
⑥将原始数据投影到新空间选k择主成分数量可基于累积方差贡献率(通常选择解释方差的主成分)或陡坡图k80%~90%()scree plot应用实例主成分分析在各领域有广泛应用在图像处理中用于面部识别(特征脸);在金融中用于构建投资组合和风险管理;在生物信息学中用于基因表达数据分析;在社会科学中用于构建综合指标(如发展指数)的优点是简单直观、计算效率高;缺点是只能捕捉线性PCA关系,对异常值敏感,且主成分的解释可能不直观在应用时,需要根据具体问题选择适当的数据预处理方法和主成分数量因子分析模型假设1因子分析假设观测变量可以表示为少数几个潜在因子的线性组合加上独特成分数学模型为X=ΛF+ε,其中X是p维观测向量,F是m维共同因子向量m因子提取2因子提取是估计因子载荷矩阵Λ的过程常用的方法包括
①主成分法基于相关矩阵的特征分解,将较大特征值对应的特征向量作为因子载荷;
②主轴法迭代估计共同度(共同因子解释的变量方差比例),直至收敛;
③最大似然法假因子旋转3设多元正态分布,最大化似然函数因子数量的确定可基于特征值大于的准则、1初始因子解通常不易解释,因此需要旋转以获得更简单的结构旋转方法分为正陡坡图或累积方差解释率等交旋转(保持因子间正交,如、)和斜交旋转(允许因子间相Varimax Quartimax关,如、)旋转是最常用的方法,它最大化每个因子上Promax ObliminVarimax载荷平方差异,使每个因子仅与少数变量高度相关旋转后,需要根据高载荷变量的共同特性为因子命名,赋予实质性解释判别分析线性判别判别判别函数的评价Fisher线性判别分析是一种用于分类判别分析是的等价形式,判别分析模型的评价通常基于分类准LDA FisherLDA的统计方法,基于贝叶斯决策理论不假设分布形式,直接寻找最能分离确率或误分率为避免过拟合,应使对于两个类别,假设它们服从多元正类别的投影方向目标是最大化类间用交叉验证或独立测试集评估性能态分布且共享相同的协方差矩阵,则方差与类内方差的比率(即准混淆矩阵显示了各类别的正确分类和Fisher最优决策边界是线性的判别函数为则),数学上等价于求解特定矩阵的误分类情况,便于分析模型的优缺点,其中权重向量与两类特征值问题对于个类别,可以得其他评价指标还包括敏感性、特异dx=wx+w₀w k均值差成比例,与协方差矩阵成反比到最多个判别函数,每个对应一个性、曲线等实际应用中,需要k-1ROC不仅可以分类,还可以用于降特征向量判别的优点是计算考虑先验概率(各类别的出现频率)LDA Fisher维,找到最能区分类别的线性组合简单、不需要严格的分布假设;缺点和误分类成本,以优化决策边界是仅考虑线性边界,且敏感于异常值聚类分析系统聚类法聚类聚类结果的评价K-means系统聚类法(又称层次聚类)通过逐步合并最是一种基于质心的划分聚类方法,将数聚类结果评价分为内部评价(不使用外部信息K-means相似的簇(凝聚法)或分裂最异质的簇(分裂据分为预先指定的个簇算法步骤
①随机选)和外部评价(与已知类别比较)内部评价K法)构建聚类层次结构结果通常以树状图(择个初始质心;
②将每个点分配给最近的质心指标包括轮廓系数(衡量簇的紧密度和分离度K)表示,可以在不同层次截断获得所在的簇;
③重新计算每个簇的质心;
④重复)、指数(簇内距离与簇间距离dendrogram Davies-Bouldin不同数量的簇关键步骤包括选择距离度量(步骤
②和
③直至收敛(质心变化很小或分配不的比率)等外部评价指标包括兰德指数、调如欧氏距离、曼哈顿距离)和簇间距离定义(再变化)计算简单高效(复杂度为整兰德指数(比较两个聚类结果的一致性)等K-means如最近邻、最远邻、平均距离)系统聚类不,其中是迭代次数),但结果依赖于初聚类有效性验证通常结合多种指标,同时考OnKt t需要预先指定簇数,能处理各种形状的簇,但始质心选择,且只适合发现凸形、大小相近的虑统计显著性和实际解释价值计算复杂度高(通常为或)簇On²logn On³回归Logistic模型评价参数估计回归模型的评价指标包括
①似然比检验Logistic模型假设回归的参数通常使用最大似然估计法估计或检验,评估模型整体显著性和各参数显著Logistic WaldLogistic回归是一种处理二分类问题的统计模型,似然函数为Lβ=∏[PY=1|Xᵢ]^Yᵢ·[1-PY=1|Xᵢ]^1-Yᵢ性;
②伪R²(如Cox-SnellR²、NagelkerkeR²),将线性组合通过Logistic函数映射到[0,1]区间,表,对数似然函数为ℓβ=∑[YᵢlnPY=1|Xᵢ+1-Yᵢln1-衡量模型拟合优度;
③Hosmer-Lemeshow检验,示属于某类的概率模型形式为PY=1|X=1/1+e^-PY=1|Xᵢ]由于对数似然函数是凹函数,可以使评估校准度;
④分类准确率、精确率、召回率、β₀+β₁X₁+...+βₚXₚ,其中β是待估参数用牛顿-拉夫森迭代法或梯度上升法找到使之最大F1值等,评估分类性能;
⑤ROC曲线和AUC值,Logistic回归不假设自变量与因变量间的线性关系的参数值评估模型的区分能力在实际应用中,还需考虑,而是假设自变量与之间存在logitP=lnP/1-P多重共线性、异常值影响和模型过拟合等问题线性关系生存分析基础生存函数风险函数截尾数据生存函数表示生存时风险函数(又称为瞬截尾数据是生存分析中常St ht间大于的概率,即时失效率或危险率)表示见的不完全观测数据右T t,其中在时间存活的条件下,截尾是指研究结束时,某St=PTt=1-Ft t是生存时间的累积分在下一瞬间发生事件的瞬些对象尚未发生感兴趣的Ft布函数生存函数是单调时概率率,定义为事件,只知道其生存时间非增的,,Δ→大于观察时间左截尾是S0=1ht=lim t0[Pt≤T→生存函指只观察到超过某时间阈limt∞St=0数的估计是生存分析的核值的对象区间截尾是指心任务,常用的非参数估只知道事件发生在某个时计方法是估间区间内生存分析的特Kaplan-Meier计生存函数描述了研究殊之处在于能够有效利用对象的生存状况随时间的截尾数据,而不是简单地变化趋势删除这些不完全观测估计Kaplan-Meier生存曲线的比较比较两个或多个组的生存曲线,可以使用对数秩检验()该检验基于各Log-rank test时间点观察到的事件数与期望事件数之差的加权和,在原假设(各组生存曲线相同)下近似服从卡方分布对数秩检验对生存曲线的整体差异最敏感,而检验则更着Wilcoxon生存函数的非参数估计重于生存时间早期的差异进行多组比较时,需要考虑多重检验的问题,采用适当的方估计(又称乘积极限估计)是生存函数最常用的非参数估计方法设法调整值Kaplan-Meier t₁p123中位生存时间中位生存时间是生存时间分布的中位数,即满足的时间点当曲St₀=
0.5t₀Kaplan-Meier线从未降到以下时,中位生存时间不存在或记为未达到中位生存时间是概括生存
0.5分布的常用指标,不受极端值影响,比平均生存时间更稳健在临床研究中,中位生存时间常用于比较不同治疗方法的效果比例风险模型Cox模型假设比例风险模型是一种半参数回归模型,用于分析多因素对生存时间的影响模型形Cox式为ht|X=h₀texpβ₁X₁+β₂X₂+...+βX,其中h₀t是基线风险函数(未指定参数形式ₚₚ),X是协变量向量,β是回归系数核心假设是比例风险假设不同协变量值对应的风险函数之比不随时间变化,即ht|X₁/ht|X₂=exp[βX₁-X₂]参数估计模型的参数估计使用偏似然方法,避开了对基线风险函数的估计偏似然函数基于Cox事件发生时间点的条件概率,形式为Lβ=∏j=1ⁿ[expβXⱼ/∑i∈RtⱼexpβXᵢ]^δⱼ,其中Rtⱼ是时间tⱼ的风险集,δⱼ是事件指示变量最大化对数偏似然函数可得β的估计,通常使用迭代法估计的标准误可用于构造置信区间和进行假Newton-Raphson设检验模型检验模型的检验包括整体模型显著性检验和个别参数显著性检验整体显著性可使用似Cox然比检验、检验或得分检验;个别参数显著性通常使用检验或似然比检验Wald Wald比例风险假设的检验方法包括
①图形法观察残差与时间的散点图和平滑Schoenfeld曲线;
②加入时间相关项检验交互项的显著性;
③基于分层分析的检验等若比例风险假设不成立,可考虑使用分层模型或时间依赖模型Cox Cox试验设计完全随机设计随机区组设计12完全随机设计(随机区组设计(Completely RandomizedBlock)是最简单的)将实验单元按某种特性Randomized Design,CRD Design,RBD试验设计,实验单元被随机分配到各分成若干同质区组,每个区组内随机处理组数学模型为Yᵢⱼ=μ+τᵢ+εᵢⱼ,分配各处理数学模型为Yᵢⱼ=μ+τᵢ+β其中μ是总均值,τᵢ是第i个处理效应,ⱼ+εᵢⱼ,其中βⱼ是第j个区组效应εᵢⱼ是随机误差完全随机设计的优点随机区组设计通过控制已知的变异来是设计和分析简单,缺点是不能控制源(区组因素),减小误差,提高试实验单元的异质性,可能导致较大的验精度在区组内差异小于区组间差实验误差适用于实验单元比较均匀异的情况下,随机区组设计比完全随的情况机设计更有效析因设计3析因设计()同时研究两个或多个因素及其交互作用对响应变量的影Factorial Design响双因素析因设计的数学模型为Yᵢⱼ=μ+αᵢ+βⱼ+αβᵢⱼ+εᵢⱼ,其中αᵢ是因素A的ₖₖ主效应,βⱼ是因素B的主效应,αβᵢⱼ是交互效应析因设计的主要优点是能够研究因素间的交互作用,且比单独研究各因素更高效常见的析因设计有设计、设2^k3^k计和混合水平设计等方差分量模型因素因素交互作用误差AB固定效应模型假设研究的因素水平是研究者固定选择的,推断仅限于这些特定水平模型参数通常表示为处理效应τᵢ,受到Σᵢτᵢ=0等约束固定效应模型的假设检验关注处理均值是否相等,即H₀:τ₁=τ₂=...=τₐ=0这种模型适用于研究特定处理间的比较随机效应模型假设研究的因素水平是从更大的总体中随机抽取的,推断扩展到整个因素水平总体模型参数通常表示为随机变量αᵢ~N0,σ²ₐ,关注的是方差分量σ²ₐ随机效应模型的假设检验关注因素方差分量是否为零,即H₀:σ²ₐ=0这种模型适用于估计各种来源的变异贡献混合效应模型同时包含固定效应和随机效应例如,在重复测量设计中,处理可能是固定效应,而受试者是随机效应混合模型的优势在于能够处理缺失数据、不平衡设计和复杂协方差结构估计方法包括最大似然法、限制最大似然法和贝叶斯方法等混合效应模型在生物学、医学、社会科学等领域有广泛应用多重比较LSD法(最小显著差异法)是Fisher提出的一种简单多重比较方法当方差分析F检验显著后,使用t检验比较各对处理均值,临界差异为LSD=t_α/2,df_e·√2MS_e/n,其中n是每组样本量法的优点是计算简单,功效较高;缺点是不控制总体第一类错误率,当比较数量增加时,错误拒绝的概率迅速增大法适用于事先计划好的少量比较LSD LSDTukey法(也称HSD法,诚实显著差异法)控制了整个实验的第一类错误率,特别适用于所有可能的两两比较临界差异为HSD=q_α,k,df_e·√MS_e/n,其中q是学生化极差分布的临界值,是处理组数法比法更保守,在进行大量比较时能有效控制错误发现率,但可能降低发现真实差异的能力k TukeyLSDDunnett法专门用于将多个处理组与单一对照组进行比较,控制了与对照组比较的总体第一类错误率临界差异为D=d_α,k-1,df_e·√2MS_e/n,其中d是Dunnett分布的临界值与同等样本量下的检验相比,法需要较大的差异才能达到显著,但比法在与对照组比较时更敏感法在医学和生物学研究中特别有用,如比较多种药物与安慰剂的效果t DunnettTukey Dunnett非线性回归模型迭代最小二乘法非线性最小二乘估计linearization某些非线性模型可以通过适当的变量对于不能线性化的模型,可以使用迭非线性最小二乘估计的目标是找到参变换转化为线性模型,这种方法称为代最小二乘法进行参数估计其基本数向量β,使残差平方和ᵢᵢRSS=∑[y-fx模型例如,指数模型思想是将非线性模型在当前参数估计β最小与线性模型不同,非线性linearization;]²可通过取对数转化为值附近进行展开,得到近似线模型的参数估计通常没有解析解,需y=aexpbx Taylor,幂函数模型可性模型,然后使用线性最小二乘法更要通过数值优化方法求解参数估计lny=lna+bx y=ax^b转化为这种方法的新参数估计,重复这一过程直至收敛的标准误和置信区间可以基于近似线lny=lna+blnx优点是计算简单,可以利用现有的线这类方法包括算法、性化或自举法获得非线性回归模型Gauss-Newton性回归方法;缺点是变换可能改变误算法等,后者的评价包括残差分析、拟合优度度量Levenberg-Marquardt差结构,导致参数估计偏差通过引入阻尼因子提高算法稳定性,(如伪)和模型选择准则(如R²AIC特别适合处理病态问题、)等BIC广义线性模型联系函数偏差分析12广义线性模型是线性模型的扩展偏差是衡量拟合优度的重要指标GLM GLM,允许因变量服从指数族分布,并通,定义为Dy;μ̂=2[ly;y-ly;μ̂],其中l是过联系函数g·将期望值μ=EY与线性对数似然函数,μ̂是模型预测值偏差预测器η=Xβ联系起来,即gμ=η常分析类似于线性模型中的方差分析,见的联系函数包括
①恒等联系函数通过比较嵌套模型的偏差变化来评估gμ=μ,用于正态分布;
②对数联系变量的重要性偏差的渐近分布在某函数gμ=lnμ,用于泊松分布;些条件下近似为卡方分布,可用于构
③logit联系函数gμ=lnμ/1-μ,用于建似然比检验偏差分析表通常包括二项分布联系函数的选择基于数据自由度、偏差、偏差减少量及其显著特性和理论考虑性等信息过度离散3过度离散是指数据的实际方差大于理论模型预测的方差,常见于计数数据和二项数据过度离散的可能原因包括观测间相关、重要协变量遗漏、非线性关系未捕捉等检测过度离散的方法包括皮尔逊卡方统计量与自由度比值、残差分析等处理过度离散的方法包括
①使用拟泊松或负二项模型;
②引入离散参数φ调整标准误;
③使用稳健标准误估计;
④考虑混合效应模型或等方法GEE时间序列的预测移动平均法移动平均法是一种简单的非参数预测方法,通过计算过去个时间点的观测值的平均k来预测下一个值值的选择影响平滑程度较小的对最近数据更敏感但可能受噪声k k影响,较大的提供更平滑的趋势但对新变化反应较慢移动平均法适用于无明显趋k势和季节性的平稳时间序列,或作为更复杂模型的基准指数平滑法指数平滑法通过加权平均过去所有观测值来预测,权重随时间呈指数衰减简单指数平滑公式为ŷ₁=αy+1-αŷ,其中α是平滑参数0α1Holt方法扩展了ₜ₊ₜₜ简单指数平滑,增加了趋势项;方法进一步增加了季节性项指数平Holt-Winters滑法计算高效、易于理解,适用于短期预测,但不提供预测区间,且难以处理复杂模式模型预测ARIMA模型结合了自回归、差分和移动平均成分,是处理非平稳时间序ARIMAp,d,q列的强大工具预测步骤包括
①序列平稳化(通过阶差分);
②模型识别d(通过和图确定值);
③参数估计;
④模型诊断;
⑤预测ACFPACFp,q模型进一步扩展了,添加季节性成分模型能提供预测区SARIMA ARIMAARIMA间,考虑了时间依赖性,但要求较大的样本量,且模型选择可能复杂多元统计分析综合应用案例分析软件操作结果解释多元统计分析在实际应用中常需要综合使用多常用的多元统计分析软件包括、、和多元统计分析结果的解释需要综合统计显著性SPSS SASR种方法典型案例包括
①市场细分研究中,等提供图形界面,操作简便,适和实际意义关键解释要点包括
①了解输出Python SPSS先用因子分析降维,然后用聚类分析划分消费合初学者;功能强大,适合处理大型数据集表格中各项指标的含义;
②评估模型拟合度和SAS者群体,最后用判别分析建立分类规则;
②医和复杂分析;和提供灵活的编程环境和假设条件满足程度;
③识别显著的变量和效应R Python学研究中,使用主成分分析处理高维基因表达丰富的扩展包软件操作要点包括
①数据准;
④将统计结论转化为实际问题的解答常见数据,再用回归预测疾病风险;
③环境备(导入、清洗、变换);
②描述性分析和可误区包括过度解释相关关系为因果关系、忽Logistic监测中,结合主成分分析和多元回归分析识别视化;
③选择合适的分析方法和设置参数;
④视样本代表性问题、未考虑模型稳定性等良污染源和评估影响因素综合应用时需注意各结果解释和报告撰写掌握至少一种统计软件好的结果解释应结合领域知识和实际背景,平方法的前提假设和局限性的基本操作是应用多元统计方法的必要条件衡统计严谨性和实用价值概率统计在机器学习中的应用朴素贝叶斯是基于贝叶斯定理的分类算法,假设特征间相互条件独立对于给定类别y和特征向量x=x₁,x₂,...,x,应用贝叶斯定理计算Py|x∝Py∏Pxᵢ|y虽然独立性假设在现实中常不成立,但朴ₙ素贝叶斯在文本分类、垃圾邮件过滤等高维问题上表现良好,其优点是计算高效、参数少、处理缺失值能力强,适合小样本学习决策树通过一系列问题将数据划分为越来越小的子集,直到达到足够纯的类别构建决策树的关键是特征选择准则,如信息增益(基于熵)、基尼指数等这些准则源自信息论和概率统计,用于量化特征的区分能力决策树的优点是易于理解和解释,能处理分类和回归问题,不受数据缩放影响;缺点是容易过拟合,对数据旋转敏感,难以表达复杂关系支持向量机SVM寻找最大化类别间边界的超平面线性可分情况下,目标是最大化几何边界2/||w||,等价于最小化||w||²/2,受约束于yᵢw·xᵢ+b≥1对非线性问题,SVM使用核技巧将数据映射到高维空间的统计基础是维理论和结构风险最小化原则,目标是在经验风险和模型复杂度间取得平衡对高维小样本问题有良好表现,但计算复杂度较高,参数选择敏感SVM VCSVM统计模拟与方法Monte Carlo随机数生成1构建各种分布的随机样本基础重要性抽样2提高罕见事件模拟效率的技术马尔可夫链Monte Carlo3用于从复杂分布抽样的方法随机数生成是统计模拟的基础均匀随机数通常通过线性同余等算法生成,然后转换为其他分布常见的变换方法包括逆变换法(基于概率积分变换)、接受拒绝法(对-复杂分布)、变换(生成正态随机数)等在实际应用中,需要验证生成的随机数序列的独立性和分布符合性,并注意伪随机数生成器的周期性限制Box-Muller重要性抽样是一种方差减少技术,用于提高罕见事件模拟的效率其核心思想是从另一个分布(重要性分布)抽样,然后通过加权调整得到目标分布下的期望估计数学上,,其中是目标分布,是重要性分布重要性抽样在风险评估、可靠性分析和计算贝叶斯后验期望等领域有广泛应用,但重要性分布的选择对E_p[fX]=E_q[fXpX/qX]p q方法效率至关重要马尔可夫链是一类从复杂高维分布抽样的算法,通过构造马尔可夫链使其平稳分布为目标分布常用算法包括算法和吉布斯抽样Monte CarloMCMCMetropolis-Hastings算法通过提议分布生成候选点,然后计算接受概率决定是否移动;吉布斯抽样则通过条件分布依次更新各个维度在贝叶斯统计、统计物理、生Metropolis-Hastings MCMC物信息学等领域有重要应用,但需要注意链的收敛性、混合性和自相关性问题统计软件应用语言基础操作编程R SPSSSAS是专为统计分析设计的开源编程语言和环境基本是以图形界面为主的商业统计软件,广泛用于社是一套功能强大的商业统计软件系统,广泛用于R SPSSSAS操作包括数据导入()、基会科学研究基本操作包括数据视图与变量视图的企业和研究机构编程基于数据步(步,用read.csv,read.table SASDATA本统计()、数据可视化(切换、变量类型和测量水平设置、描述性统计(于数据处理)和过程步(步,用于分析和报告mean,sd,summary PROC)、统计检验()、均值比较()常用过程包括描述plot,hist,boxplot t.test,AnalyzeDescriptive StatisticsPROC MEANS/UNIVARIATE)和线性模型()等的强大)、相关与回归(统计、均值比较、chisq.test lm,glm RCompare MeansCorrelate,PROC TTEST/ANOVAPROC之处在于其扩展包生态系统数据可视化、)、非参数检验()回归分析、回归、ggplot2Regression NonparametricTests REG/GLMPROC LOGISTICLogistic数据处理、数据整理、机器学习等还提供了高级模块如复杂样本、决策树和神混合模型等的优势是处理大数据dplyrtidyrcaretSPSS PROCMIXEDSAS、混合效应模型等的优势是免费开源经网络等的优势是操作简便、输出规范,特别能力强、输出稳定、质量控制严格,特别适合大型企nlme/lme4R SPSS、功能全面、统计前沿,但学习曲线较陡适合问卷数据分析,但在处理大数据和定制分析方面业和监管机构,但价格昂贵,学习周期长灵活性较低期末复习重点总结123重要公式回顾典型例题分析常见陷阱提醒必须掌握的核心公式包括条件概率公式复习时应重点关注以下类型例题随机事件的概率计算、概率统计考试中的常见陷阱包括混淆条件概率与联合概PB|A=PA∩B/PA、全概率公式PA=∑PB_iPA|B_i、贝叶随机变量分布的变换、参数估计的区间计算、各类假设检率、忽略总体分布假设、错误理解假设检验的结论、忘记斯公式PB_i|A=PB_iPA|B_i/PA、中心极限定理X̄-验的应用、回归分析与相关分析等解题技巧包括正确检查回归模型的假设条件等避免这些陷阱的方法是仔μ/σ/√n~N0,
1、各种抽样分布、区间估计公式、假设检识别问题类型、清晰列出已知条件和求解目标、选择适当细审题,理清概率事件的关系;理解各种方法的适用条件验统计量等这些公式是解题的基础工具,需要理解其含的公式和方法、注意计算精度和单位一致性、检查结果的;准确表达统计推断的结论;养成检查假设和验证结果的义和适用条件,能够灵活运用合理性习惯复习过程中,建议采用理解记忆应用的策略首先确保对基本概念和原理的理解,特别是概率、随机变量、统计推断的核心思想;然后记忆必要的公式和方法,构建知识体系;--最后通过大量习题练习,提高应用能力和解题速度考试时,遇到复杂问题可采用分解求解整合的策略将问题分解为熟悉的子问题,逐一解决后整合结果遇到难题不要慌张,可以先解简单题目,积累信心和时间,然后返回处--理难题注意时间分配,确保能够完成所有必答题结语与答疑课程总结学习建议答疑时间安排本学期我们系统学习了概率论与数理统概率统计学习的几点建议
①重视概念期末考试前,我们将安排以下答疑时间计的基本理论和方法,从随机事件与概理解,不仅知其然,更要知其所以然;
①每周五下午在教室进行集2:00-4:00率、随机变量及其分布、多维随机变量
②加强公式推导,理解公式的来源和假体答疑;
②每天晚上在线上答8:00-9:
00、大数定律与中心极限定理,到参数估设条件;
③注重实际应用,通过例题和疑平台回答问题;
③可通过邮件预约个计、假设检验、回归分析、方差分析等案例体会统计思想;
④借助计算工具,别答疑时间答疑过程中,请准备好具统计推断方法概率统计不仅是一门理如、等软件辅助统计计算和可视化体问题,并尽量提前思考,这样能使答Excel R论学科,更是解决实际问题的有力工具;
⑤建立知识体系,将离散的知识点连疑效果最大化请积极参与答疑活动,,它在现代科学研究、工程技术、经济接成网络;
⑥保持学习兴趣,发现统计及时解决学习中的疑难问题,为期末考管理、医学等各领域有着广泛应用在日常生活和专业领域的应用价值试做好充分准备最后,祝愿大家在复习过程中能够查漏补缺,巩固知识,提高解题能力和统计思维水平希望通过本课程的学习,不仅能够顺利通过期末考试,更能够掌握一种分析不确定性世界的科学方法,为今后的学习和工作奠定良好基础感谢大家本学期的积极参与和努力学习!期待在期末考试中看到你们出色的表现!。
个人认证
优秀文档
获得点赞 0