还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
概率论与数理统计复习课件欢迎参加概率论与数理统计复习课程本课件将系统地回顾概率论与数理统计的核心概念、理论及应用方法,帮助同学们掌握这门重要的数学基础课程概率论与数理统计是现代科学研究的重要工具,广泛应用于工程、经济、医学等各个领域通过本课程的学习,你将能够理解随机现象的数学描述,掌握数据分析的科学方法,为后续的专业课程和科研工作打下坚实基础让我们一起开始这段数学之旅!课程概述课程目标学习重点掌握概率论与数理统计的基本理概率论部分重点包括随机事件、论和方法,培养应用概率统计方随机变量及其分布、数字特征和法分析和解决实际问题的能力极限定理数理统计部分重点包培养学生的科学思维能力和创新括参数估计、假设检验和回归分意识,为后续专业课程打下坚实析等内容特别注重概念理解和的数学基础实际应用能力的培养考试说明考试形式为闭卷笔试,满分分题型包括选择题、填空题、计算题和应100用题考核内容覆盖所有章节,特别强调基本概念、计算能力和应用能力的综合评价第一章随机事件及其概率随机事件的基本概念概率的定义随机试验是在相同条件下可重复进行的试验,其结果具有不确定概率是描述随机事件发生可能性大小的数量指标概率的定义方性随机事件是随机试验的可能结果法主要有三种古典概型定义、几何概型定义和公理化定义样本空间是随机试验所有可能结果的集合,记为样本点ΩΩ={e}是中的元素,表示随机试验的一个基本结果公理化定义设随机试验的样本空间为,对于每一个事件⊂,eΩΩAΩ定义一个实值函数,如果满足一定的公理,则称为事件PA PA A随机事件是样本空间的子集,记为⊂当试验的结果属于AΩAΩ的概率事件时,称事件发生A A概率的基本性质非负性规范性对于任意事件,其概率样本空间的概率等于,即A PAΩ1总是大于或等于零,即这表示随机试验的结PA≥0PΩ=1这意味着任何事件发生的可能果必然是样本空间中的某个元性不可能是负数,这与我们的素,试验的结果一定会出现直觉相符例如,投掷骰子得比如投掷骰子,结果一定是到1到点的概率是,不可能是之间的某个数61/6-
60.2可列可加性对于互不相容的事件有∪∪例如,A₁,A₂,...,PA₁A₂...=PA₁+PA₂+...抽取一张扑克牌,得到红桃的概率与得到黑桃的概率之和等于得到红A A桃或黑桃的概率AA古典概型定义条件古典概型是指满足两个条件的随机试验试验的样本空间只包含有限个元素;12每个基本事件发生的可能性相等在古典概型中,事件的概率计算公式为事件包含的基本事件数样本空间A PA=A/包含的基本事件总数计算方法通常采用计数方法来计算事件包含的基本事件数,常用的计数方法包括排列数和组合数排列数从个不同元素中取出个并排成一列,记为n mA_n^m=nn-
1...n-m+1组合数从个不同元素中取出个但不考虑顺序,记为n mC_n^m=A_n^m/m!应用示例例从一副扑克牌(张)中随机抽取张牌,求至少有一张红桃的概率525解事件至少有一张红桃的反事件是没有红桃计算方法至少有一张红桃P=没有红桃1-P=1-C_39^5/C_52^5几何概型定义几何概型是指随机试验的样本空间对应于几何区域上的点的集合,且样本点落在区域中某一位置的概率与区域的度量(长度、面积或体积)成正比在几何概型中,事件的概率计算公式为事件对应的几何区域的度量样本A PA=A/空间对应的几何区域的度量基本特征几何概型的基本特征是样本空间中的基本点无穷多,无法一一列举,需要借助几何度量来计算概率几何概型常见的一维情况是长度比,二维情况是面积比,三维情况是体积比应用示例例在圆面上随机取一点,求该点到圆心的距离小于等于半径一半的概率解圆的面积为,距离圆心小于等于的点构成一个半径为的小圆,其面积πR²R/2R/2为因此概率πR/2²=πR²/4P=πR²/4÷πR²=1/4条件概率条件概率计算,其中PA|B=PAB/PB PB0乘法公式PAB=PBPA|B=PAPB|A条件概率的概念已知事件发生的条件下,事件发生的概率B A条件概率是概率论中的一个重要概念,它描述了在一个事件已经发生的情况下,另一个事件发生的可能性条件概率的直观解释是,当我们获得新信息后,对事件概率的重新评估例如一个家庭有两个孩子,已知其中至少有一个是女孩,求两个孩子都是女孩的概率解设表示两个孩子都是女孩,表示至少AB有一个是女孩则PA|B=PAB/PB=PA/PB=1/4/3/4=1/3全概率公式完备事件组如果事件B₁,B₂,...,Bₙ满足1它们互不相容,即BᵢBⱼ=∅i≠j;2它们的和为样本空间,即∪∪∪;则称构成一个完备事件组B₁B₂...Bₙ=ΩB₁,B₂,...,Bₙ全概率公式若B₁,B₂,...,Bₙ构成完备事件组,且PBᵢ0i=1,2,...,n,则对任意事件A,有PA=PB₁PA|B₁+PB₂PA|B₂+...+PBₙPA|Bₙ应用场景全概率公式常用于求解分段概率问题,即当一个事件的概率受到其他一组互斥完备事件的影响时例如,在医学诊断中,根据不同疾病的先验概率和检测的条件概率计算阳性结果的总概率全概率公式是概率论中的基本定理,它将一个事件的概率分解为若干个条件概率之和这个公式特别适用于当事件可以通过一组完备事件来分解时的概率计算A例如某病在人群中的发病率为,某检测方法对该病的灵敏度为(患者检测呈阳性
0.1%99%的概率),特异度为(健康人检测呈阴性的概率)求一个人检测呈阳性的概率解98%阳性患病阳性患病不患病阳性不患病P=P P|+P P|=
0.001×
0.99+
0.999×
0.02=
0.02087贝叶斯公式公式表达先验概率1PBᵢ|A=[PBᵢPA|Bᵢ]/[∑PBⱼPA|Bⱼ]PBᵢ,事件发生前的初始认知后验概率似然度PBᵢ|A,观察结果后的更新认知PA|Bᵢ,条件下观察到的概率贝叶斯公式是条件概率的一个重要应用,它提供了在获得新信息后如何更新概率的方法贝叶斯公式的核心思想是将因果关系转化为果因关系,即从结果推断原因贝叶斯公式广泛应用于医学诊断、模式识别、机器学习等领域例如,在垃圾邮件过滤系统中,根据邮件的特征词出现概率来判断邮件是否为垃圾邮件;在疾病诊断中,根据症状来推断患某种疾病的概率事件的独立性独立性定义条件概率视角判断方法如果两个事件和满足从条件概率的角度看,两判断两事件是否独立,可A B,则称事件独立等价于以通过验证与PAB=PAPB PA|B PAB事件和相互独立这意或是否相等需要A B=PA PB|A=PB PAPB味着一个事件的发生与否这表明在事件发生的条注意的是,事件的相互独B不影响另一个事件发生的件下,事件发生的概率立与互不相容是不同的概A概率仍然等于的原始概率念,互不相容的两个事件A(除非有一个是不可能事件)一定不独立事件的独立性是概率论中的一个重要概念,它描述了事件之间的相互影响关系独立性的概念可以推广到多个事件的情况,称为相互独立例如连续投掷两次公平硬币,第一次得到正面与第二次得到正面是相互独立的事件,因为第一次的结果不会影响第二次的概率而在不放回抽样中,第一次抽到红球与第二次抽到红球这两个事件通常不独立,因为第一次的结果会改变第二次的概率第二章随机变量及其分布随机变量的概念分布函数的定义随机变量是定义在样本空间上的实值函数,通常用大写字母、随机变量的分布函数定义为小于或等于的概率,即ΩX X Fx Xx Fx=等表示,其取值用相应的小写字母、等表示,其中是任意实数Y x y PX≤x x随机变量的引入使得我们可以用数量化的方式描述随机现象,将分布函数完整地描述了随机变量的概率分布情况,是研究随机变随机试验的结果与数值联系起来,便于数学处理量的重要工具例如,投掷骰子的点数、抛掷硬币的正反面次数、某地区一天的分布函数具有以下性质是一个不减函数;;1Fx20≤Fx≤1降雨量等都可以用随机变量来表示,;是右连续函数3F-∞=0F+∞=14Fx离散型随机变量离散型随机变量是指取值只有有限个或可列无限多个的随机变量对于离散型随机变量,其分布可以用概率分布列表示,X PX=xᵢ=pᵢ其中∑pᵢ=1常见的离散型随机变量分布包括分布(两点分布)、二项分布、泊松分布、几何分布、超几何分布等这些分布在实际应用中具有广0-1泛的背景,例如二项分布描述次独立重复试验中成功次数的分布,泊松分布常用于描述单位时间内随机事件发生的次数n离散型随机变量的分布函数通常是阶梯函数,在每个取值点处有跳跃,跳跃的高度等于该点的概率二项分布伯努利试验每次试验只有两种可能结果成功或失败相互独立各次试验结果相互独立概率恒定每次试验成功概率保持不变p二项分布是离散型随机变量中最重要的分布之一,记为若随机变量服从参数为和的二项分布,则其概率分布为X~Bn,p Xn pPX=k=C_n^k,其中p^k1-p^n-k k=0,1,2,...,n二项分布的数学期望,方差这表明,在大量重复试验中,成功次数的平均值接近于,波动范围由决定EX=np DX=np1-p np np1-p二项分布的应用非常广泛,如质量控制中的抽样检验、医学临床试验中的疗效分析、民意调查中的支持率估计等在很小而很大时,二项分布可pn以用泊松分布近似泊松分布几何分布定义1在伯努利试验序列中,记为首次成功所需的试验次数,则服从几何分布,记为X X X~Gp其概率分布为,其中,是单次试验成功的概率PX=k=1-p^k-1p k=1,2,3,...p数学特征2几何分布的数学期望,表示平均需要次试验才能获得第一次成功方差EX=1/p1/p DX=,反映了首次成功所需试验次数的离散程度1-p/p²无记忆性3几何分布具有无记忆性的特点这意味着,如果已经进行PXm+n|Xm=PXn了次试验但尚未成功,则再进行次试验成功的概率与从头开始进行次试验成功的概率相m n n同应用示例4几何分布常用于描述直到某个特定事件首次发生所需的尝试次数,如投掷骰子直到首次出现6点所需的投掷次数,销售人员访问客户直到首次成交所需的拜访次数等连续型随机变量概率密度函数连续型随机变量的概率分布可用概率密度函数描述,满足且X fx fx≥0与离散型随机变量不同,连续型随机变量取任一特定值的概率为∫fxdx=10分布函数表示连续型随机变量的分布函数可表示为概率密度函数的积分,XFx Fx=∫ftdt其中积分下限为,上限为反之,(在可导点处)-∞xfx=FxFx区间概率计算连续型随机变量落在区间的概率为,其中积分下限为X[a,b]Pa≤X≤b=∫fxdx,上限为这等于分布函数的差a bPa≤X≤b=Fb-Fa常见的连续型随机变量分布包括均匀分布、指数分布、正态分布等这些分布在科学研究和工程应用中具有广泛的应用背景连续型随机变量的分布函数是连续函数,通常是光滑的曲线它的导数(即概率密度函数)描述了随机变量在各点处取值的相对可能性均匀分布定义特征量如果连续型随机变量的概率密度函数为均匀分布的数学期望,即X EX=a+b/2区间的中点,当时;方差,反映了分布的离fx=1/b-a a≤x≤b DX=b-a²/12散程度,当时fx=0xb分布函数,当时Fx=x-a/b-a a≤x≤b则称服从区间上的均匀分布,记X[a,b]为X~U[a,b]应用均匀分布是最简单的连续型分布,常用于描述随机的概念,如随机数生成器产生的随机数实际应用中,当我们认为某个连续量在一个区间内取任何值的可能性相等时,可以用均匀分布建模例如,公交车的到达时间在时间窗口内均匀分布,精密仪器的测量误差在一定范围内均匀分布等指数分布定义若连续型随机变量的概率密度函数为,当时;,X fx=λe^-λx x0fx=0当时其中,则称服从参数为的指数分布,记为x≤0λ0XλX~Eλ特征量指数分布的数学期望,方差分布函数,EX=1/λDX=1/λ²Fx=1-e^-λx当时x0无记忆性指数分布具有无记忆性这意味着,如果一个元件已PXs+t|Xs=PXt经使用了小时仍能正常工作,则它再工作小时的条件概率等于一个新元件工s t作小时的概率t应用指数分布常用于描述电子元件的寿命、顾客到达服务台的时间间隔、电话接入呼叫中心的时间间隔等随机现象正态分布68%95%
99.7%一个标准差范围两个标准差范围三个标准差范围在正态分布中,约的数据落在范围内约的数据落在范围内约的数据落在范围内68%μ±σ95%μ±2σ
99.7%μ±3σ正态分布是最重要的连续型随机变量分布,具有钟形曲线特征若随机变量服从参数为和的正态分布,记为,则其概率密度函数为Xμσ²X~Nμ,σ²fx=,其中为尺度参数1/√2πσ²·e^-x-μ²/2σ²-∞0当,时,称为标准正态分布,记为任何正态分布都可以通过线性变换转化为标准正态分布标准正态分布的分布函数记为,μ=0σ=1Z~N0,1Z=X-μ/σΦz是正态分布计算的基础正态分布广泛应用于自然科学、工程技术、社会科学等领域,如测量误差、身高体重、智力测验成绩等许多随机现象随机变量函数的分布离散型随机变量的函数连续型随机变量的函数若是离散型随机变量,是的函数,则也是离散型随机若是连续型随机变量,是的严格单调函数,则的概率X Y=gX X Y X Y=gX X Y变量的分布可以通过计算每个可能取值的概率确定密度函数可以通过变量替换得到,其中Y PY=y=f_Yy=f_Xx·|dx/dy|,其中求和范围是使的所有值∑PX=x gx=y x x=g^-1y例如,若表示投掷两颗骰子的点数和,表示点数和的平方,则对于一般情况,可以先求出的分布函数X Y Y F_Yy=PY≤y=可以根据的分布计算的分布,然后求导得到概率密度函数X YPgX≤y f_Yy=F_Yy随机变量函数的分布研究是概率论中的重要内容,它使我们能够从已知随机变量的分布推导出相关随机变量的分布这在统计推断和随机过程分析中有广泛应用特别地,线性函数的分布特别简单若,则这说明正态分布在线性变换下仍保持正态分布的性质,这Y=aX+b X~Nμ,σ²Y~Naμ+b,a²σ²是正态分布的一个重要特征第三章多维随机变量及其分布二维随机变量联合分布函数离散型联合分布连续型联合分布当需要同时考虑两个随机二维随机变量的联合对于离散型二维随机变量,对于连续型二维随机变量,X,Y变量和时,可以将它们分布函数定义为其联合分布可以用概率分其联合分布可以用联合概X YFx,y=组成一个二维随机变量PX≤x,Y≤y,它完整描布表示PX=xᵢ,Y=yⱼ=率密度函数fx,y表示,满X,Y,也称为随机向量述了二维随机变量的概率pᵢⱼ,其中∑∑pᵢⱼ=1这些足fx,y≥0且∫∫fx,ydxdy二维随机变量描述的是两分布分布函数是概率可以排列成一个概率联合分布函数可以Fx,y=1个随机现象的联合情况关于和的不减函数,且表表示为x yFx,y=满足,F-∞,y=Fx,-∞=0∫∫fs,tdsdtF+∞,+∞=1边缘分布联合分布的边缘分布X二维随机变量的完整概率描述忽略,只关注的单独分布X,Y Y X2计算方法的边缘分布Y通过对联合分布求和或积分得到3忽略,只关注的单独分布X Y边缘分布是多维随机变量的重要概念,它描述了当我们只关注其中一个随机变量而忽略其他变量时的概率分布对于二维随机变量,的边缘分布只与有关,的边缘分布只与有X,Y XX YY关对于离散型随机变量,X的边缘概率分布为PX=xᵢ=∑PX=xᵢ,Y=yⱼ,即将联合分布中固定X=xᵢ的所有概率相加同理,Y的边缘分布为PY=yⱼ=∑PX=xᵢ,Y=yⱼ对于连续型随机变量,的边缘概率密度函数为,的边缘概率密度函数为这相当于对联合密度函数在另一个变量上进行积分X f_Xx=∫fx,ydy Yf_Yy=∫fx,ydx条件分布条件概率密度计算1,其中fx|y=fx,y/f_Yy f_Yy0离散型条件分布2PX=x|Y=y=PX=x,Y=y/PY=y条件分布概念已知一个随机变量取某值条件下,另一个随机变量的分布条件分布是多维随机变量分析中的重要工具,它描述了在给定某个随机变量的值后,其他随机变量的概率分布情况条件分布反映了随机变量之间的依赖关系在实际应用中,条件分布常用于分析具有先后关系或因果关系的随机现象例如,分析特定天气条件下交通事故的发生概率,或特定基因型下表现出某种疾病症状的概率需要注意的是,如果随机变量和是相互独立的,那么条件分布将退化为边缘分布,即这意味着在变量独立的情况下,知道一个变量的取值X Yfx|y=f_Xx不会影响另一个变量的分布随机变量的独立性独立性定义如果对于任意实数和,随机变量和的联合分布函数等于各自边缘分布函数xyX Y的乘积,即,则称随机变量和相互独立Fx,y=F_Xx·F_Yy X Y离散型随机变量的独立性对于离散型随机变量,X和Y独立等价于对任意xᵢ和yⱼ,有PX=xᵢ,Y=yⱼ=PX=xᵢ·PY=yⱼ这意味着联合概率等于边缘概率的乘积连续型随机变量的独立性对于连续型随机变量,和独立等价于其联合概率密度函数可以表示为边缘概X Y率密度函数的乘积,即fx,y=f_Xx·f_Yy判断方法判断随机变量是否独立,可以检验联合分布是否等于边缘分布的乘积,或者条件分布是否等于边缘分布若或,则和独立fx|y=f_Xx fy|x=f_Yy X Y二维正态分布第四章随机变量的数字特征期望的定义方差的定义随机变量的数学期望(均值)是描述随机变量集中趋势的特随机变量的方差是描述随机变量取值分散程度的特征数方X EXX DX征数直观上,它表示随机变量取值的平均水平或重心位置差越大,表示随机变量的取值越分散,偏离期望的程度越大对于离散型随机变量,其数学期望定义为方差定义为随机变量与其期望之差的平方的期望值X EX=X DX=,其中求和范围是的所有可能取值例如,投掷∑x_i·PX=x_i XE[X-EX²]公平骰子的点数期望为1+2+3+4+5+6/6=
3.5常用的计算公式是DX=EX²-[EX]²对于连续型随机变量,其数学期望定义为,其X EX=∫x·fxdx标准差,与方差具有相同的含义,但单位与随机变量σ_X=√DX中是的概率密度函数fx X相同X期望的性质期望的线性性是一个重要性质对于任意常数、和随机变量、,有和线性性使得我们可以方便地计a bX YEaX+b=aEX+b EX+Y=EX+EY算复杂随机变量的期望随机变量和的相互独立性会带来期望的乘法性质若和相互独立,则这个性质在计算随机变量乘积的期望时非常有用X YX YEXY=EX·EY需要注意的是,若和不独立,则上述性质一般不成立XY对于随机变量的函数,其期望计算公式为离散情况;连续情况这个公式使我们能够计算随gX EgX=∑gx_i·PX=x_i EgX=∫gx·fxdx机变量的任意函数的期望值方差的性质计算公式和的方差方差的计算常用公式DX=EX²-线性变换对于随机变量X和Y,有DX+Y=[EX]²这个公式通常比直接使用定常数方差对于随机变量X和常数a、b,有DX+DY+2CovX,Y,其中义计算更为方便例如,对于服从标常数c的方差为零,即Dc=0这表DaX+b=a²DX特别地,常数的CovX,Y是X和Y的协方差若X和Y准正态分布的随机变量Z,EZ=0,明确定性量没有随机性,其取值不会加减不影响方差,但乘除会使方差按独立,则DX+Y=DX+DY这EZ²=1,因此DZ=1-0²=1偏离期望例如,若X总是等于5,平方比例变化例如,若温度从摄氏表明独立随机变量的和的方差等于方则DX=0度转换为华氏度(Y=
1.8X+32),差的和则温度波动的方差会变为原来的
1.8²倍协方差与相关系数协方差相关系数随机变量和的协方差定义为,随机变量和的相关系数定义为,XYCovX,Y=E[X-EXY-EY]XYρ_XY=CovX,Y/σ_X·σ_Y它描述了两个随机变量线性相关的程度和方向其中和分别是和的标准差σ_Xσ_YXY协方差的计算公式相关系数的取值范围为表示完全正相关,CovX,Y=EXY-EXEY[-1,1]ρ_XY=1ρ_XY表示完全负相关,表示不相关=-1ρ_XY=0协方差的性质;;1CovX,X=DX2CovX,Y=CovY,X;相关系数的绝对值表示线性相关的强度越接近,3CovaX,bY=ab·CovX,Y4CovX+Y,Z=CovX,Z+|ρ_XY||ρ_XY|1表示线性相关性越强;越接近,表示线性相关性越弱CovY,Z|ρ_XY|0若和独立,则;但反之不一定成立,即协方差为XYCovX,Y=00并不一定意味着随机变量独立需要注意的是,相关系数度量的是线性相关关系,对于非线性相关,相关系数可能无法准确反映实际相关程度切比雪夫不等式定理表述几何解释对于任意随机变量,不论其分布如切比雪夫不等式给出了随机变量取值X何,只要和存在,则对于任偏离期望的概率上界它表明,随机EX DX意正数,有变量取值偏离期望值至少的概率不εε超过DX/ε²P|X-EX|≥ε≤DX/ε²换言之,随机变量的取值集中在期望等价表述P|X-EX|ε≥1-周围的程度取决于其方差的大小方DX/ε²差越小,随机变量的取值越集中在期望附近应用切比雪夫不等式在随机变量分布未知的情况下提供了概率估计的方法例如,可以利用该不等式估计样本均值偏离总体均值的概率,这是大数定律的理论基础在工程应用中,可用于控制系统的稳定性分析,估计随机误差超过某一阈值的概率第五章大数定律与中心极限定理大数定律的概念中心极限定理的概念大数定律是概率论中的一类基本定理,描述了大量随机现象的平中心极限定理是概率论中的另一类重要定理,它揭示了大量独立均结果的稳定性它表明,随着试验次数的增加,样本平均值几随机变量之和的概率分布趋向于正态分布的性质,不论这些随机乎必然地收敛于期望值变量本身服从什么分布大数定律从数学上解释了现实中的规律性尽管单次试验结果中心极限定理为许多统计方法提供了理论基础,解释了为什么正具有随机性,但大量重复试验的平均结果却表现出惊人的稳定性态分布在实际中如此普遍许多随机现象都可以看作是多种独立因素影响的综合结果常见的大数定律有切比雪夫大数定律和伯努利大数定律切比雪中心极限定理的主要形式包括独立同分布的中心极限定理和李雅夫大数定律适用于一般的随机变量序列,而伯努利大数定律则是普诺夫中心极限定理等这些定理提供了不同条件下随机变量和针对重复独立试验的频率稳定性的渐近分布特性大数定律切比雪夫大数定律1设X₁,X₂,...,Xₙ是相互独立的随机变量序列,若它们的数学期望EXᵢ=μᵢ和方差DXᵢ=σᵢ²存在,且方差有界(即存在常数C,使得σᵢ²≤C),则对于任意ε0,有lim[n→∞]P|X₁+X₂+...+Xₙ/n-μ₁+μ₂+...+μₙ/n|ε=1伯努利大数定律设在次独立重复试验中,事件发生的次数为,事件在每次试验中发生的概率为,n AnₐA p则对于任意,有ε0lim[n→∞]P|nₐ/n-p|ε=1这表明,当试验次数很大时,事件发生的频率几乎必然地接近于其概率n Anₐ/n p大数定律是概率论中的基本定理,也是统计学和许多应用科学的理论基础它解释了为什么频率可以用来估计概率,为什么样本均值可以用来估计总体均值切比雪夫大数定律是一个一般性结果,而伯努利大数定律则是一个特例,适用于相同的伯努利试验序列在实际应用中,大数定律解释了为什么赌场长期总是盈利,保险公司能够通过精算模型稳定经营,以及为什么统计抽样调查能够反映总体特征中心极限定理独立同分布的中心极限定理1若随机变量X₁,X₂,...,Xₙ独立同分布,且EXᵢ=μ,DXᵢ=σ²存在,则当n充分大时标准化变换随机变量和的标准化形式∑Xᵢ-nμ/σ√n近似服从标准正态分布N0,1李雅普诺夫中心极限定理当独立随机变量满足一定条件时,即使不同分布,其和的标准化形式也近似服从正态分布中心极限定理是概率论中最重要的定理之一,它揭示了一个普遍现象大量相互独立的随机因素叠加在一起,其总和的分布近似于正态分布这解释了为什么正态分布在自然界和社会现象中如此常见中心极限定理为许多统计方法提供了理论依据,特别是大样本理论例如,样本均值的抽样分布近似服从正态分布,这是区间估计和假设检验等统计推断方法的基础中心极限定理在实际应用中非常广泛,如质量控制中对产品质量的统计分析,金融领域中对投资组合风险的评估,以及通信系统中对噪声影响的研究等第六章数理统计的基本概念总体与样本随机抽样统计量参数与估计总体是研究对象的全体,简单随机抽样是指从总统计量是样本的函数,参数是描述总体分布的包含所有可能的观测值体中抽取样本,使得每用于估计总体参数常常数,如总体均值、μ样本是从总体中抽取的个个体被抽取的概率相见的统计量包括样本均总体方差等估计是σ²一部分个体或观测值等,且各次抽样相互独值、样本方差、样本标通过样本信息对总体参统计推断的目的是通过立这保证了样本的代准差等统计量是随机数进行推断的过程,包样本信息推断总体特征表性和推断的科学性变量,其分布称为抽样括点估计和区间估计分布抽样分布分布分布χ²t自由度为的卡方分布自由度为的学生分布nn t正态抽样分布分布F来自正态总体的统计量分布自由度为的分布m,n F(卡方)分布是统计学中的一个重要分布,其定义为个独立的标准正态随机变量的平方和的分布分布由一个参数自由度确定,记为分布的概率密度函数为χ²nχ²——nχ²~χ²nχ²fx=,当时[x^n/2-1·e^-x/2]/[2^n/2·Γn/2]x0分布(学生分布)是用于估计呈正态分布的总体均值的抽样分布当总体标准差未知时,样本均值的标准化统计量不再服从标准正态分布,而是服从分布分布也由一个参数自t t tt——由度确定,记为nt~tn这些分布在假设检验、区间估计等统计推断中有广泛应用例如,分布用于方差的假设检验和拟合优度检验,分布用于小样本条件下均值的假设检验和区间估计χ²t分布F定义基本性质12设,,且与相分布是一种非对称分布,其形状U~χ²m V~χ²n UV F互独立,则随机变量由两个自由度和共同决定F=m n F服从自由度为的分布的取值范围为分布U/m/V/n m,n0,+∞F分布,记为分布的的分位点记为,满足F F~Fm,nFαF_αm,n概率密度函数形式较为复杂,这分布具有PFF_αm,n=αF里不详细列出倒数关系若,则F~Fm,n,且1/F~Fn,m F_{1-α}m,n=1/F_αn,m应用3分布主要应用于方差分析和回归分析中在方差分析中,分布用于比较多个F F正态总体的方差是否相等;在回归分析中,分布用于检验回归方程的显著性F此外,分布还用于两个正态总体方差比的假设检验F正态总体的抽样分布样本均值的分布设是来自正态总体的简单随机样本,样本均值,则X₁,X₂,...,XₙNμ,σ²X̄=X₁+X₂+...+Xₙ/n;1X̄~Nμ,σ²/n标准化统计量;2X̄-μ/σ/√n~N0,1当未知时,,其中是样本标准差3σX̄-μ/S/√n~tn-1S样本方差的分布设S²=[∑Xᵢ-X̄²]/n-1是样本方差,则;1n-1S²/σ²~χ²n-1和相互独立;2X̄S²当比较两个独立的正态总体方差时,若和分别是两个样本的方差,则3S₁²S₂²F=S₁²/σ₁²/S₂²/σ₂²~Fn₁-1,n₂-1正态总体的抽样分布定理是统计推断的理论基础,它揭示了统计量的概率分布规律,使我们能够构造合适的区间估计和假设检验例如,均值的抽样分布使我们能够估计总体均值并计算置信区间;方差的抽样分布使我们能够检验总体方差的假设这些理论成果在质量控制、医学研究和社会调查等领域有广泛应用第七章参数估计点估计的概念点估计是用样本统计量的单一数值来估计总体参数的方法例如,用样本均值估计总体均值X̄,用样本方差估计总体方差μS²σ²区间估计的概念区间估计是给出一个区间,并指出总体参数落在这个区间内的概率这个区间称为置信区间,相应的概率称为置信水平,通常取或
0.
950.99常用估计方法常用的参数估计方法包括矩估计法、最大似然估计法、最小二乘法等这些方法基于不同的原理,适用于不同的问题背景参数估计是统计推断的重要组成部分,它研究如何根据样本信息推断总体参数的未知值在实际应用中,我们通常无法获取总体的全部信息,只能通过抽样获得部分数据,然后基于这些数据对总体参数进行估计点估计虽然简单直观,但没有给出估计的精确程度区间估计则不仅给出了参数的估计值,还通过区间的宽度反映了估计的精确程度,同时给出了估计可靠性的概率度量选择合适的估计方法是参数估计中的关键问题不同的估计方法可能产生不同的估计结果,需要根据具体问题的特点和估计量的优良性标准进行选择矩估计法原理矩估计法的基本思想是用样本矩去估计对应的总体矩,然后通过总体矩与参数之间的关系求解参数估计值其中,阶样本矩定义为,对应的总体阶矩为k A_k=1/n∑X_i^k kEX^k一般步骤矩估计法的一般步骤包括求出需要估计的参数与各阶总体矩之间的关系;用12样本矩代替相应的总体矩;解方程组得到参数的估计值3单参数情况当需要估计的参数只有一个时,通常只需要用到一阶矩(即均值)例如,估计泊松分布的参数,只需将样本均值作为的估计值,即λλλ̂=X̄多参数情况当需要估计多个参数时,需要用到多个不同阶的矩例如,估计正态分布的两个参数,可以用一阶样本矩估计,用二阶中心样本矩估计Nμ,σ²A_1μ,即,σ²μ̂=X̄σ̂²=1/n∑X_i-X̄²最大似然估计法似然函数最大化原则设总体的概率分布或密度函数为,其中最大似然估计法的核心思想是选择参数的X fx;θθ是待估参数对于样本,似然函估计值,使得观测到当前样本的概率最大即θX₁,X₂,...,Xₙ数定义为似然函数表示在求解为了计算方便,通Lθ=∏fXᵢ;θθ̂=arg maxLθ参数为的条件下,观测到当前样本的概率常最大化对数似然函数,这不影响最大θln Lθ(或概率密度)值点的位置估计量性质求解方法最大似然估计量具有许多良好的统计性质在对于光滑的似然函数,可以通过求导数并令其一般条件下,最大似然估计量是渐近无偏的,4等于零来寻找最大值点对∂ln Lθ/∂θ=0渐近有效的,且渐近服从正态分布这意味着于多参数情况,需要求解方程组在某些情况样本量足够大时,最大似然估计量接近于参数下,可能需要使用数值方法求解真值,且方差达到最小估计量的评选标准无偏性如果估计量的数学期望等于被估计参数的真值,即,则称是的无偏估计量无偏性意味θ̂θEθ̂=θθ̂θ着估计量的平均值等于参数真值,没有系统性偏差例如,样本均值是总体均值的无偏估计量,而X̄μ样本方差S²=[∑Xᵢ-X̄²]/n-1是总体方差σ²的无偏估计量一致性如果当样本容量趋于无穷时,估计量依概率收敛于,即对于任意,有nθ̂θε0lim[n→∞]P|θ̂-θ|ε=,则称是的一致估计量一致性保证了样本量足够大时,估计量几乎必然接近参数真值1θ̂θ有效性在所有无偏估计量中,方差最小的估计量称为有效估计量方差越小,表示估计的精确度越高如果不存在方差比更小的无偏估计量,则称是的最小方差无偏估计量()θ̂θ̂θMVUE充分性如果统计量包含样本中关于参数的全部信息,即在给定的条件下,样本的条件分布不再依赖于,TθTθ则称是的充分统计量充分统计量的存在使得我们可以仅基于而不是整个样本来进行统计推断TθT区间估计置信区间的概念构造方法置信区间是参数的一个随机区间,它以一定的概率(称为置信水构造置信区间的关键是找到一个与参数有关的统计量,该统计量θ平或置信度)包含参数的真值一个置信水平为的置信区间的分布已知且不依赖于未知参数常用的方法有1-α[L,满足,其中是待估参数U]PL≤θ≤U=1-αθ透视法(或支点法)适用于统计量或的分布已知的
1.T-θT-θ/S置信水平表示在重复抽样中,置信区间包含参数真值的频率例情况如,置信水平为意味着,如果我们重复进行抽样并构造置信95%枢轴量法找到一个枢轴量,其分布不依赖于,然后求
2.QX,θθ区间,那么约有的区间会包含参数真值95%解的和分位点对应的值QX,θα/21-α/2θ常用的置信水平有、、等置信水平越高,置信区90%95%99%大样本法当样本量足够大时,许多统计量近似服从正态分布,
3.间越宽,估计的精确度越低;反之,置信水平越低,置信区间越可以利用正态分布构造近似置信区间窄,但可靠性也越低正态总体均值的区间估计当总体方差已知时,正态总体的均值的置信区间为,其中是样本均值,是标准正态分布的上分位点这个区间是基于统计量σ²Nμ,σ²μ1-αX̄±z_{α/2}·σ/√n X̄z_{α/2}α/2构造的X̄-μ/σ/√n~N0,1当总体方差未知时,正态总体的均值的置信区间为,其中是样本标准差,是自由度为的分布的上分位点这个区σ²Nμ,σ²μ1-αX̄±t_{α/2}n-1·S/√n St_{α/2}n-1n-1tα/2间是基于统计量构造的X̄-μ/S/√n~tn-1对于大样本情况(通常),即使总体分布不是正态的,根据中心极限定理,样本均值的分布近似服从正态分布,因此可以使用正态近似构造均值的置信区间n≥30X̄±z_{α/2}·S/√n正态总体方差的区间估计单个总体方差的区间估计两个总体方差比的区间估计应用注意事项对于正态总体,当未知时,对于两个独立的正态总体和方差的区间估计对于总体分布的正态性Nμ,σ²μσ²Nμ₁,σ₁²的置信区间为,的置信区间为要求较高如果总体分布偏离正态分布1-α[n-1S²/χ²_{α/2}n-Nμ₂,σ₂²σ₁²/σ₂²1-α,其中是较大,上述置信区间的准确性会受到影1,n-1S²/χ²_{1-α/2}n-1]S²[S₁²/S₂²/F_{α/2}n₁-1,n₂-1,样本方差,和,其中响χ²_{α/2}n-1χ²_{1-S₁²/S₂²/F_{1-α/2}n₁-1,n₂-1]分别是自由度为的分布和分别是两个样本的方差,α/2}n-1n-1χ²S₁²S₂²对于小样本情况,方差的区间估计特别的上和上分位点和α/21-α/2F_{α/2}n₁-1,n₂-1F_{1-α/2}n₁-1,n₂-依赖于正态性假设如果样本量较小且分别是自由度为的分布的1n₁-1,n₂-1F这个区间是基于统计量怀疑总体分布不是正态的,可以考虑使n-1S²/σ²~上和上分位点α/21-α/2构造的需要注意的是,与均值用非参数方法进行推断χ²n-1的置信区间不同,方差的置信区间是不这个区间是基于统计量S₁²/σ₁²/S₂²/σ₂²在实际应用中,方差的区间估计常用于对称的构造的~Fn₁-1,n₂-1比较不同群体的离散程度,评估测量仪器的精确度,或控制产品质量的稳定性第八章假设检验假设的建立1假设检验始于建立原假设和备择假设原假设通常是我们希望检验的保守陈述或现状,备H₀H₁择假设则是与原假设对立的陈述例如,检验一种新药是否有效,可能是新药无效,则H₀H₁是新药有效检验统计量的选取选择一个合适的检验统计量,该统计量应能有效区分和统计量的分布在成立时应已知,H₀H₁H₀这样才能计算值或临界值例如,检验正态总体均值时,可以使用统计量或统计量P Zt决策规则的制定确定拒绝域,即在什么条件下拒绝原假设有两种常用方法确定显著性水平,然后根据1α检验统计量的分布确定临界值和拒绝域;计算值(在为真时,观测到的检验统计量或更2P H₀极端情况的概率),如果值小于预设的显著性水平,则拒绝PαH₀结论的得出根据观测数据计算检验统计量的值,与临界值比较或计算值,然后根据决策规则做出决策P拒绝或不拒绝最后,对检验结果进行解释,说明其实际意义和可能的局限性H₀H₀错误类型与检验力决策事实真假\H₀H₀拒绝第一类错误正确决策H₀α1-β不拒绝正确决策第二类错误H₀1-αβ在假设检验中,可能会出现两种类型的错误第一类错误(弃真错误)是指原假设为真,但检验结果错误地拒绝了;第二类错误(取伪错误)是指原假设H₀H₀为假,但检验结果错误地接受了H₀H₀第一类错误的概率通常记为,也称为显著性水平;第二类错误的概率记为αβ检验力()定义为,表示当为假时正确拒绝的概率理想的检验power1-βH₀H₀应该同时具有小的和大的检验力α和之间存在权衡关系在样本容量固定的情况下,减小通常会导致增大,αβαβ即检验力减小;反之,增大通常会导致减小,即检验力增大增加样本容量αβ可以同时减小和,提高检验的可靠性αβ正态总体均值的假设检验检验(已知)Zσ²当总体方差已知时,检验的统计量为σ²H₀:μ=μ₀Z=X̄-μ₀/σ/√n~N0,1对于双侧检验,当时拒绝•H₁:μ≠μ₀|Z|z_{α/2}H₀对于左侧检验,当时拒绝•H₁:μμ₀Z-z_αH₀对于右侧检验,当时拒绝•H₁:μμ₀Zz_αH₀检验(未知)tσ²当总体方差未知时,检验的统计量为σ²H₀:μ=μ₀t=X̄-μ₀/S/√n~tn-1对于双侧检验,当时拒绝•H₁:μ≠μ₀|t|t_{α/2}n-1H₀对于左侧检验,当时拒绝•H₁:μμ₀t-t_αn-1H₀对于右侧检验,当时拒绝•H₁:μμ₀tt_αn-1H₀检验流程示例例某厂家声称其产品的平均寿命超过小时随机抽取个产品进行测试,样本平均寿命100025为小时,样本标准差为小时检验厂家声称是否成立,显著性水平1050100α=
0.05解检验统计量在和自H₀:μ≤1000,H₁:μ1000t=1050-1000/100/√25=
2.5α=
0.05由度下,临界值由于,拒绝,即认为厂家的声称成n-1=24t_
0.0524≈
1.
7112.
51.711H₀立正态总体方差的假设检验应用实例1例检验机器精度是否符合要求σ≤
0.05检验(两总体)F2检验的统计量σ₁²/σ₂²F=S₁²/S₂²/σ₁²/σ₂²检验(单总体)χ²3检验的统计量σ²χ²=n-1S²/σ²对于单个正态总体,检验假设的统计量为对于双侧检验,当或Nμ,σ²H₀:σ²=σ₀²χ²=n-1S²/σ₀²~χ²n-1H₁:σ²≠σ₀²χ²χ²_{1-α/2}n-1χ²时拒绝;对于左侧检验,当时拒绝;对于右侧检验,当时拒绝χ²_{α/2}n-1H₀H₁:σ²σ₀²χ²χ²_{1-α}n-1H₀H₁:σ²σ₀²χ²χ²_{α}n-1H₀对于两个独立的正态总体和,检验假设的统计量为(假设为真)对于双侧检验Nμ₁,σ₁²Nμ₂,σ₂²H₀:σ₁²=σ₂²F=S₁²/S₂²~Fn₁-1,n₂-1H₀H₁:σ₁²≠,当或时拒绝;对于单侧检验,决策规则类似地调整σ₂²FF_{1-α/2}n₁-1,n₂-1FF_{α/2}n₁-1,n₂-1H₀样本容量的选择显著性水平检验力α1-β较小的要求更大的样本量更高的检验力需要更大样本α4总体方差效应大小高方差要求更大样本量检测小效应需要大样本在进行假设检验之前确定适当的样本容量是实验设计的重要步骤样本容量过小可能导致检验力不足,难以检测到实际存在的效应;样本容量过大则可能浪费资源,且可能使得微小且实际意义不大的差异在统计上显著对于正态总体均值的假设检验,在给定显著性水平、期望检验力、效应大小和总体标准差的情况下,所需的样本容量可以通过以下公式计算其α1-β|μ-μ₀|σn=[z_α+z_β·σ/μ-μ₀]²中和分别是标准正态分布的上和上分位点z_αz_βαβ在实际应用中,总体标准差通常是未知的,可以通过预试验获取估计值,或使用相关文献中的参考值效应大小的确定通常基于实际意义和领域知识,表示研究者认为有实际意义的最σ小差异第九章方差分析与回归分析方差分析的基本思想回归分析的基本思想方差分析是比较多个总体均值是回归分析是研究变量之间关系的统计方法,特别是自变量(预测Analysis ofVariance,ANOVA否相等的统计方法其基本思想是将总变异分解为组间变异(由变量)对因变量(响应变量)的影响其基本思想是通过构建数不同处理水平引起)和组内变异(由随机误差引起),然后通过学模型来描述变量间的依赖关系,并用于预测和控制比较这两种变异来判断组间差异是否显著在回归分析中,我们首先假设变量间存在某种函数关系,然后利如果组间变异显著大于组内变异,则认为不同处理水平之间存在用观测数据估计模型参数,最后评估模型的拟合优度和预测能力显著差异,即拒绝所有总体均值相等的原假设方差分析可以同常用的估计方法是最小二乘法,即选择使残差平方和最小的参数时比较多个总体,克服了多次使用检验导致的累积误差问题估计值t根据模型形式的不同,回归分析可分为线性回归和非线性回归;方差分析的基本假设包括各总体服从正态分布,各总体方差相根据自变量数量的不同,可分为一元回归和多元回归回归分析等,各样本之间相互独立根据研究设计的不同,方差分析可分广泛应用于经济、生物、医学等领域的预测和关系分析为单因素方差分析、双因素方差分析等多种类型单因素方差分析变异来源平方和自由度均方值F组间SSA k-1MSA=SSA/k F=MSA/MSE-1组内(误差)SSE n-k MSE=SSE/n-k总变异SST n-1单因素方差分析用于比较个总体均值是否相等,原假设,备择假设k H₀:μ₁=μ₂=...=μₖH₁:并非所有μᵢ都相等分析过程中,我们将总变异分解为组间变异和组内变异总平方和SST=∑∑Xᵢⱼ-X̄..²,表示所有观测值偏离总均值的平方和;组间平方和SSA=∑nᵢX̄ᵢ.-X̄..²,表示各组均值偏离总均值的加权平方和;组内平方和SSE=∑∑Xᵢⱼ-X̄ᵢ.²,表示各观测值偏离其所在组均值的平方和这三个平方和满足关系SST=SSA+SSE检验统计量,其中是组间均方,F=MSA/MSE~Fk-1,n-k MSA=SSA/k-1MSE=是组内均方当时,拒绝原假设,认为至少有两个总体均值不相SSE/n-k FF_αk-1,n-k等在拒绝后,通常需要进行多重比较来确定具体哪些组之间存在显著差异H₀双因素方差分析交互作用图主效应图残差分析交互作用图用于可视化两个因素的交互效应主效应图分别展示了每个因素不同水平下的残差图用于检验方差分析的基本假设是否满当两条线不平行时,表明可能存在交互作用;响应变量平均值通过这种图可以直观地看足理想情况下,残差应呈现随机分布的点线越不平行,交互作用可能越强通过这种出每个因素对响应变量的影响程度点的连云,没有明显的模式通过残差分析可以检图可以直观地理解因素间的相互影响线越陡,表明该因素的影响越显著查模型的适合性和数据的异常点一元线性回归₀₁b b截距斜率表示当时,的预测值表示每变化一个单位,的平均变化量x=0y xyR²决定系数表示模型解释的变异比例一元线性回归是研究一个自变量与一个因变量之间线性关系的统计方法其模型形式为XYY=β₀+,其中是截距,是斜率,是随机误差项,假设β₁X+εβ₀β₁εε~N0,σ²使用最小二乘法估计参数,即选择使残差平方和SSE=∑Yᵢ-Ŷᵢ²最小的β₀和β₁值由此得到参数估计值和,回归方程为参数估计的公式为,,其中b₀b₁Ŷ=b₀+b₁X b₁=S_xy/S_xx b₀=Ȳ-b₁X̄S_xy,=∑X_i-X̄Y_i-ȲS_xx=∑X_i-X̄²回归分析的评价指标包括残差平方和、决定系数,以及调整后的表示模SSE R²=1-SSE/SST R²R²型解释的因变量变异比例,取值范围为,越接近,表明模型拟合效果越好[0,1]R²1回归方程的显著性检验多元线性回归模型形式多元线性回归模型考虑多个自变量对因变量的联合影响,其形式为X₁,X₂,...,XₚYY=β₀+与一元线性回归相比,多元回归能更全面地考虑影响因变量的各β₁X₁+β₂X₂+...+βₚXₚ+ε种因素,提高预测的准确性参数估计多元线性回归的参数估计仍然采用最小二乘法,但计算过程更为复杂,通常需要使用矩阵运算参数估计值为,其中是自变量矩阵,是因变量向量在实际应用中,通b=XX⁻¹XY XY常使用统计软件进行计算模型检验与选择多元回归模型的检验包括整体显著性检验和各回归系数的显著性检验整体检验使用检验,F个体检验使用检验此外,还需要检查多重共线性问题,即自变量之间的高度相关性,可以t通过计算方差膨胀因子来检测VIF基本假设检验多元线性回归的基本假设包括线性关系、误差项独立性、误差项同方差性和误差项正态性可以通过残差图、检验、检验和正态概率图等方法检验这些假设是否满Durbin-Watson White足如果假设不满足,可能需要进行数据变换或使用其他回归方法非线性回归非线性回归是研究自变量与因变量之间非线性关系的统计方法当变量间的关系无法用直线表示时,需要使用非线性模型常见的非线性回归模型有多项式回归、指数回归、对数回归、幂函数回归和逻辑斯蒂回归等多项式回归是非线性回归的一种特殊情况,其模型形式为Y=β₀+β₁X+β₂X²+...+βₚXᵖ+ε虽然模型是非线性的,但对参数仍然是线性的,因此可以使用普通的最小二乘法进行估计真正的非线性回归模型对参数是非线性的,例如指数模型Y=β₀eᵝ¹ˣ+ε或逻辑斯蒂模型Y=β₀/1+e^-β₁X-β₂+ε这类模型的参数估计通常需要使用非线性最小二乘法和迭代算法,如算法或算法Gauss-Newton Levenberg-Marquardt第十章统计推断的亚系统理论贝叶斯统计推断非参数统计推断贝叶斯统计推断是基于贝叶斯定理的统计方法,将参数视为随机非参数统计推断是不依赖于总体分布形式的统计方法,适用于总变量而非固定常数贝叶斯方法融合了先验信息和样本信息,通体分布未知或难以确定的情况这类方法通常基于数据的秩或符过后验分布对参数进行推断号,而非原始数值贝叶斯推断的核心是贝叶斯定理∝,其中非参数方法的优点是假设条件少,适用范围广,对异常值不敏感,πθ|x Lx|θπθπθ是参数的先验分布,是似然函数,是给定数据后参且易于理解和应用;缺点是效率可能低于参数方法,特别是当总θLx|θπθ|xx数的后验分布体确实接近正态分布时θ贝叶斯方法的优点在于能够自然地融合先验知识,处理小样本问常用的非参数检验方法包括符号检验、符号秩检验、Wilcoxon题,提供参数的概率解释,以及自然地进行模型选择和参数估计;检验、检验和检验等Mann-Whitney UKruskal-Wallis Friedman缺点是先验分布的选择可能主观,计算复杂度高这些方法为处理非正态数据或序数数据提供了有效工具贝叶斯估计先验分布似然函数1代表参数先验信念数据对参数的支持度2贝叶斯估计后验分布基于后验分布的推断3整合先验与数据的结果贝叶斯估计是参数估计的一种方法,它基于贝叶斯定理,将参数视为随机变量,具有概率分布贝叶斯估计的过程包括确定先验分布,构建似然函数,计算后验分布,πθLx|θπθ|x最后根据后验分布进行推断常用的贝叶斯估计包括后验均值、后验中位数和后验众数后验均值最小化均方误差,后验中位数最小化绝对误差,后验众数(即最大后验估计)最大化后验概率密度Eθ|x MAP贝叶斯估计的一个重要特点是共轭先验的存在,即当先验分布属于某个特定分布族时,后验分布也属于同一分布族,这大大简化了计算例如,对于正态总体均值的估计,如果选择正态分布作为均值的先验分布,那么后验分布也是正态分布非参数检验符号检验秩和检验符号检验是最简单的非参数检验方法,用于检验秩和检验(也称为检Wilcoxon Mann-Whitney U单一样本的中位数或两配对样本的差异它基于验)用于检验两个独立样本是否来自同一分布观测值与假设中位数的正负符号,而非具体数值它基于所有观测值的秩(排序后的位置)大小具体步骤是将两个样本合并并按大小排序,赋对于单样本情况,原假设中位数,计算大予秩次,计算一个样本的秩和,据此计算检验H₀:=m₀W于的观测值个数,若服从二项分布统计量当样本量较大时,近似服从正态分布m₀XXBn,
0.5U U当值小于显著性水平时,拒绝pαH₀符号检验的优点是简单,假设条件少(仅要求连秩和检验的效率高于符号检验,在总体呈正态分续型总体),但效率较低,特别是与参数检验方布时,其效率约为检验的该检验广泛应用t95%法相比于医学研究、心理学实验等领域其他非参数检验符号秩检验适用于配对样本,结合了符号和秩的信息,效率高于纯符号检验Wilcoxon检验多样本的非参数方法,相当于单因素方差分析的非参数版本Kruskal-Wallis检验用于随机化区组设计的非参数方法,相当于双因素方差分析的非参数版本Friedman等级相关系数用于测量两个变量的单调关系,是相关系数的非参数替代Spearman Pearson课程总结知识点回顾本课程系统地介绍了概率论与数理统计的基本理论和方法概率论部分包括随机事件与概率、随机变量及其分布、多维随机变量、数字特征和极限定理等内容数理统计部分涵盖了参数估计、假设检验、方差分析和回归分析等内容这些知识点构成了概率统计的理论体系,为应用提供了坚实基础复习建议复习时应注重概念理解与计算能力的平衡建议先系统回顾理论知识,理清各章节之间的联系,形成完整知识框架;然后通过典型例题巩固理解,掌握解题技巧和方法;最后结合历年试题进行针对性训练,检验复习效果特别要注意公式的条件和适用范围,避免机械记忆和错误应用考试技巧考试中应先通读全卷,了解题型和分值分布,合理安排做题顺序和时间;计算题中注意步骤清晰,避免计算错误;应用题要分析问题本质,正确建立数学模型;选择题不确定时可通过排除法缩小范围遇到难题不要慌张,可以先放一放,做完其他题目再回头思考记得检查答案,特别是容易出错的计算步骤概率论与数理统计是现代科学的重要工具,在各领域都有广泛应用通过本课程的学习,你已经掌握了分析随机现象和处理数据的基本方法,这将为今后的专业学习和科研工作奠定基础记住,统计思维不仅是一种数学工具,更是一种科学的思考方式在面对不确定性时,它教会我们如何收集数据、分析信息,并做出合理的决策希望大家能够在今后的学习和工作中,灵活运用所学知识,不断提升自己的数据分析能力和科学研究能力。
个人认证
优秀文档
获得点赞 0