还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
概率论与数理统计欢迎来到概率论与数理统计课程!本课程是数学专业的核心课程之一,将带领大家探索随机现象的数学原理和统计分析方法通过本课程的学习,你将掌握概率论的基本概念、随机变量理论、大数定律与中心极限定理,以及数理统计的基础知识与应用方法这些知识不仅是数学学科的重要组成部分,也是工程、经济、医学等众多领域的理论基础课程简介课程内容课程地位本课程系统介绍概率论与数理作为国家级精品课程,本课程统计的基本概念、理论方法和凝聚了多年教学经验与研究成应用技巧,包括随机事件、概果,教材内容全面、体系完率计算、随机变量及其分布、整,结合了丰富的实例和应用数字特征、大数定律、中心极分析,深受学生好评限定理、参数估计和假设检验等内容学习目标第一章随机事件与概率随机事件的定义与分类随机事件是随机试验中可能出现也可能不出现的结果按照发生的可能性,随机事件可分为必然事件、不可能事件和偶然事件三类概率的定义与性质概率是对随机事件发生可能性的度量,它具有非负性、规范性和可加性三个基本性质根据定义方式不同,概率可分为古典概率、几何概率、频率概率和主观概率古典概型与概率计算方法在等可能概型中,事件的概率等于该事件包含的基本事件数与样本空间基本事件总数之比计算方法主要包括计数方法、排列组合方法和递推关系法随机试验随机试验的特点样本空间与样本点•可以在相同条件下重复进行•样本空间是试验所有可能结果的集合•试验的所有可能结果事先已知•样本点是样本空间中的元素•试验前不能确定哪个结果会出现•样本空间可以是有限、可数无限或不可数无限的•具有随机性和必然性的统一随机试验的实例•投掷硬币或骰子•抽取球或卡片•产品质量检验•自然现象的观测随机事件事件间的关系包含关系若事件发生必导致事件发生,A B则包含于A B相等关系若包含于且包含于,则A BB A A等于B随机事件的定义互斥关系若与不可能同时发生,则与A B A随机事件是随机试验中可能发生也可能不发互斥B生的结果,是样本空间的子集每次试验中,事件要么发生,要么不发生事件的运算和事件∪表示与至少一个发生A B A B积事件表示与同时发生A∩B A B差事件表示发生但不发生A-BA B互斥事件∅A∩B=概率的公理化定义概率的数学定义在给定样本空间上,概率是满足一定公理的集合函数ΩP概率的基本性质非负性、规范性、可列可加性概率测度的理解概率是对随机事件发生可能性的量化度量概率论的公理化定义由苏联数学家柯尔莫哥洛夫于年提出,使概率论建立在严格的数学基础上根据这一定义,概率是定义在样本空间的事件1933PΩ域上的一个函数,它满足三条基本公理F对任何事件∈,有(非负性)
1.A FPA≥0(规范性)
2.PΩ=1对于互不相交的事件序列₁₂,有∪(可列可加性)
3.{A,A,...}P A=∑PAₙₙ古典概型等可能概型的定义在有限样本空间中,若每个基本事件出现的可能性相同,则称为等可能概型或古典概型在这种情况下,事件的概率为中包含A PA=A的基本事件数样本空间中基本事件总数/计算古典概率的方法计算古典概率常用排列组合的方法常见的计算公式包括排列数公式和组合数公式,它们能有效地解决大量等可能事件的计数问题对于复杂情况,还可以利用加法原理和乘法原理样本点的分析方法在分析问题时,首先应明确样本空间和研究的事件,然后分析每个样本点的特征在实际应用中,常需通过问题的具体特征来构造合适的样本空间,合理划分样本点条件概率条件概率的定义与计算在事件已发生的条件下事件发生的概率BA乘法公式PAB=PAPB|A=PBPA|B全概率公式与贝叶斯公式将复杂事件分解为简单条件概率条件概率是概率论中的一个重要概念,表示在已知一个事件发生的条件下,另一个事件发生的概率对于两个事件和,当时,条件概率A BPB0的定义为PA|B PA|B=PAB/PB乘法公式是计算事件交集概率的有力工具₁₂₁₂₁₃₁₂₁₂PA A...A=PA PA|A PA|A A...PA|AA...Aₙₙₙ₋₁全概率公式可将一个事件的概率展开为在不同条件下发生的概率之和,而贝叶斯公式则允许我们根据结果反推原因的概率,在医疗诊断、模式识别等领域有广泛应用事件的独立性独立性的概念独立事件的判定独立性与互斥性的区别如果事件的发生与事件的发生互不影判断事件是否独立,通常采用以下方独立性和互斥性是两个不同的概念AB响,即或法PA|B=PA PB|A=•互斥两事件不能同时发生,PAB,则称与是相互独立的用数学PB AB•计算和,比较二者PAB PAPB=0表达式,事件和相互独立的充要条件AB是否相等•独立两事件的发生互不影响,是PAB=PAPB•检验条件概率是否等于无条件概率PAB=PAPB多个事件的独立性不仅要求它们两两独•分析事件的物理意义,看是否相互影对于且的事件,互斥性立,还要求任意个事件的交集概率等于PA0PB0k响与独立性不能同时成立实际上,互斥各自概率的乘积,其中2≤k≤n的两个事件一定是相依的(非独立在具体问题中,有时可以通过试验的物的)理特性来判断事件的独立性贝叶斯定理及应用贝叶斯定理的推导先验概率1基于条件概率定义和乘法公式推导而来实验前对可能原因发生概率的估计医学诊断应用后验概率根据检查结果更新患病概率的估计观察到结果后对原因概率的更新估计贝叶斯定理的数学表达式为PB₁|A=[PB₁PA|B₁]/[∑PBᵢPA|Bᵢ],其中B₁,B₂,...,B构成一个完备事件组,A为已观察到的事件ₙ这一定理允许我们通过已知的结果来反推导致该结果的各种可能原因的概率,是概率统计中的重要工具,为不确定性推理提供了理论基础第二章随机变量及其分布随机变量的定义随机变量是定义在样本空间上的实值函数,它将随机试验的每一个可能结果映射为一个实数离散型随机变量取值只有有限个或可数无限个的随机变量,如二项分布、泊松分布等连续型随机变量取值在一个区间(有限或无限)上连续的随机变量,如均匀分布、正态分布等随机变量是连接随机现象与数学分析的桥梁,通过随机变量可以把随机现象的特征用数量来表示,从而可以采用数学方法进行分析和研究随机变量的分布刻画了随机变量取不同值的概率规律,是研究随机变量的重要工具根据取值的不同特性,随机变量主要分为离散型和连续型两大类,各有其特定的分布特征和研究方法分布函数分布函数的定义与性质离散型随机变量的分布函数连续型随机变量的分布函数随机变量的分布函数定义为对于离散型随机变量,其分布函数为对于连续型随机变量,其分布函数为X,它具有以下性质Fx=PX≤xFx=∑PX=xᵢFx=∫ftdt•单调不减若₁₂,则₁₂xx Fx≤Fx其中求和是对所有满足xᵢ≤x的i取的其中积分下限为-∞,上限为x,ft为概率•右连续Fx+0=Fx密度函数这样的分布函数呈阶梯状,在随机变量的•有界性0≤Fx≤1每个可能取值处有跳跃,跳跃的高度等于连续型随机变量的分布函数是连续的,且•极限性质当,该点的概率质量几乎处处可导,其导数即为概率密度函数lim Fx=0x→-∞当lim Fx=1x→+∞离散型随机变量有限表格取值范围分布表示离散型随机变量的可能取值是有限个或可数无通常用概率分布列表或概率质量函数表示限个1概率和所有可能取值的概率之和必须等于1离散型随机变量是指取值为有限个或可数无限个的随机变量对于离散型随机变量,其概率分X布可以用以下方式表示PX=xᵢ=pᵢ,其中xᵢ是X的可能取值,pᵢ是相应的概率,且满足pᵢ≥0和∑pᵢ=1常见的离散型随机变量分布包括二项分布、几何分布、负二项分布、超几何分布、泊松分布等这些分布在不同的随机现象中具有广泛的应用,如二项分布可描述次独立重复试验中成功n次数的分布,泊松分布可描述单位时间内随机事件发生次数的分布二项分布二项分布的定义与参数二项分布是次独立重复伯努利试验中,成功次数的概率分布n X记为,其中为试验次数,为单次试验成功概率X~Bn,p n p二项分布的概率计算若,则,其中X~Bn,p PX=k=Cn,kp^k1-p^n-k,表示组合数二项随机变量的数学期望k=0,1,2,...,n Cn,k X,方差EX=np DX=np1-p二项分布的应用实例二项分布在质量控制、市场调查、医学试验等领域有广泛应用例如,在抽样检验中,可以用二项分布来描述样本中不合格品的数量;在流行病学研究中,可以用来描述感染人数的分布泊松分布几何分布与负二项分布几何分布的特点负二项分布的定义实例分析与计算几何分布描述的是在伯努利试验序列中,首负二项分布是几何分布的推广,描述的是在几何分布和负二项分布在质量控制、可靠性次出现成功所需的试验次数的分布若单伯努利试验序列中,获得第次成功所需的分析、风险管理等领域有重要应用例如,X r次试验成功概率为,则,且试验总次数的分布若,则在质量控制中,可以用几何分布来描述检测p X~Gp X X~NBr,p,其中,到第一个不合格品前检查的产品数量PX=k=1-p^k-1p PX=k=Ck-1,r-1p^r1-p^k-rk=1,2,3,...k=r,r+1,...几何分布的期望,方差EX=1/p几何分布具有无记忆负二项分布的期望,方差在疾病传播研究中,负二项分布可用于描述DX=1-p/p²EX=r/p性疫情爆发前的接触次数分布DX=r1-p/p²连续型随机变量概率密度函数常见的连续型分布分布函数与概率密度的关系连续型随机变量的概率密度函数是常见的连续型概率分布包括对于连续型随机变量,其分布函数PDF XFx描述随机变量取值概率密度的函数,记与概率密度函数之间存在如下关系fx•均匀分布在有限区间内Uniform为概率密度函数满足以下条件fx取值概率密度相等•,积分下限为,上•指数分布描述随机Fx=∫ftdt-∞Exponential•,对所有∈限为fx≥0x R事件之间的时间间隔x•,积分范围为•,即概率密度函数是分布∫fxdx=1-∞,+∞•正态分布描述自然现象fx=FxNormal函数的导数(在可导的点)中的随机变量分布Fx对于任意区间,有[a,b]Pa≤X≤b=,积分范围为需要注意的•伽马分布Gamma描述随机事件这种关系使我们能够通过分布函数计算∫fxdx[a,b]发生前的等待时间是,对于连续型随机变量,任意单点的概率,或通过概率密度函数构造分布函概率为0•贝塔分布Beta用于描述概率的分数布均匀分布均匀分布是最简单的连续型概率分布之一,它描述了随机变量在指定区间内均匀分布的情况若随机变量在区间上服从均匀分布,记为X[a,b],则其概率密度函数为X~Ua,b,当∈;,当∉fx=1/b-a x[a,b]fx=0x[a,b]均匀分布的分布函数为,当Fx=0xb均匀分布的数学期望,方差均匀分布常用于模拟随机数生成、随机抽样、量化误差分析等领域在实际中,EX=a+b/2DX=b-a²/12骰子的点数(近似认为是连续的)、随机选择区间内的数等可以用均匀分布来描述[0,1]指数分布指数分布的定义与参数指数分布的无记忆性指数分布在可靠性分析中的应用指数分布是一种重要的连续型概率分指数分布具有无记忆性,即对于任意布,常用于描述随机事件的时间间隔,有指数分布广泛应用于可靠性工程、寿命s,t0PXs+t|Xs=PXt若随机变量服从参数为的指数这意味着,如果一个元件已经使用了分析、排队论等领域在可靠性分析Xλλ0s分布,记为,则其概率密度个单位时间仍然正常工作,那么它再工中,若元件的寿命服从指数分布,则X~ExpλXλ函数为,;作个单位时间的概率与一个全新元件表示故障率,表示平均寿命指数fx=λe^-λx x≥0fx=t1/λ,其分布函数为工作个单位时间的概率相同这一性分布可用于建模电子元件的失效时间、0x0Fx=1-e^-t,;,质在可靠性理论中有重要应用顾客到达服务系统的时间间隔、放射性λx x≥0Fx=0x0物质的衰变时间等随机现象正态分布正态分布的定义与参数1均值和标准差完全确定一个正态分布μσ标准正态分布均值为,标准差为的特殊正态分布01正态分布的重要性与应用广泛存在于自然和社会现象中正态分布,也称高斯分布,是概率论和统计学中最重要的连续概率分布若随机变量服从参数为和的正态分布,记为,则其概率密度函数为XμσX~Nμ,σ²,∈fx=1/√2πσ²e^-x-μ²/2σ²x R正态分布的重要性体现在多个方面首先,许多自然现象如身高、体重、测量误差等都近似服从正态分布;其次,中心极限定理表明,在适当条件下,大量独立随机变量的和近似服从正态分布;第三,正态分布具有良好的数学性质,便于理论分析在实际应用中,通常需要将一般正态分布标准化为标准正态分布,转换公式为标准正态分布的特性和概率表格在统计X~Nμ,σ²Z~N0,1Z=X-μ/σ推断中具有基础性作用多维随机变量二维随机变量的联合分布描述两个随机变量共同分布规律的函数边缘分布从联合分布中导出单个变量的分布条件分布一个变量在另一个变量给定条件下的分布多维随机变量是指由多个随机变量组成的向量对于二维随机变量,其联合分布函数定义为若是离散型,则其联合概X,Y Fx,y=PX≤x,Y≤y X,Y率分布为₁₁₁₁;若是连续型,则存在联合概率密度函数,使得,其中积分范围为PX=x,Y=y=p X,Y fx,y Fx,y=∫∫fu,vdudv u≤x,v≤y边缘分布是指仅涉及单个随机变量的分布对于离散型随机变量,边缘分布可以通过对另一变量进行求和得到₁₁对于连PX=x=∑PX=x,Y=y_j续型随机变量,边缘密度可以通过对另一变量进行积分得到₁f x=∫fx,ydy条件分布描述的是在给定一个随机变量的条件下,另一个随机变量的分布对于离散型随机变量,条件概率分布为₁PY=y_j|X=x=₁₁;对于连续型随机变量,条件密度函数为₁PX=x,Y=y_j/PX=xfy|x=fx,y/f x随机变量的独立性独立性的定义与判断独立随机变量的性质独立与不相关的区别随机变量和的独立性是指它们的联合分布函数独立随机变量具有许多重要性质随机变量的不相关性是指它们的协方差为零,即X Y可以表示为各自边缘分布函数的乘积,即对于所有或CovX,Y=0EXY=EXEY•独立随机变量的函数也是独立的,有x,y随机变量的独立性与不相关性的关系是•独立随机变量的期望之积等于积的期望₁₂Fx,y=F xFyEXY=EXEY•若与独立,则与必定不相关X Y X Y对于离散型随机变量,独立性等价于对所有可能的•独立随机变量的和的方差等于方差的和•若与不相关,则与不一定独立X YX Y取值₁和,有x y_j DX+Y=DX+DY只有在特殊情况下(如二维正态分布),不相关性₁₁•独立正态随机变量的线性组合仍服从正态分布PX=x,Y=y_j=PX=x PY=y_j才能推出独立性这表明独立性是比不相关性更强的条件对于连续型随机变量,独立性等价于对几乎所有的,有x,y₁₂fx,y=f xfy第三章随机变量的数字特征协方差与相关系数方差与标准差协方差数学期望CovX,Y=E[X-EXY-EY]=方差,反映两个随机变量线性相DX=E[X-EX²]=EX²-EXY-EXEY随机变量的平均值,反映随机变量取值的集中,反映随机变量取值的离散程度标准关的程度和方向相关系数[EX]²ρX,Y=趋势对于离散型随机变量X,数学期望EX差σX=√DX,与随机变量具有相同的量CovX,Y/[σXσY],取值范围为[-1,1],=∑x_i·p_i;对于连续型随机变量X,数学期望纲方差具有性质DaX+b=a²DX,且绝对值越大表示相关性越强,符号表示相关方EX=∫x·fxdx期望具有线性性,即当X与Y独立时,DX+Y=DX+DY向EaX+bY=aEX+bEY数学期望离散型随机变量的期望连续型随机变量的期望期望的性质与计算对于离散型随机变量,如果级数对于连续型随机变量,如果积分数学期望具有以下重要性质XX收敛,则的数学期望定义收敛,则的数学期望定义∑|x_i|·p_i X∫|x|·fxdx X•线性性EaX+bY=aEX+为为EX=∑x_i·p_i EX=∫x·fxdx bEY•若与独立,则X YEXY=EXEY其中,是随机变量的可能取值,其中,是的概率密度函数,积分区x_i Xp_i fxX是相应的概率间为的取值范围•常数的期望等于常数本身Ec=c=PX=x_i X对于随机变量的函数,其期望可以例如,对于服从二项分布的随机例如,对于服从均匀分布的随机gXBn,p Ua,b通过如下方式计算变量,其数学期望变量,其数学期望X EX=np XEX=a+b/2对于离散型E[gX]=∑gx_i·p_i对于连续型E[gX]=∫gx·fxdx方差与标准差方差的定义与计算方差是随机变量与其期望值偏离程度的平均值,定义为X DX=E[X-EX²]计算方差的另一个常用公式DX=EX²-[EX]²对于离散型随机变量DX=∑x_i-EX²·p_i对于连续型随机变量DX=∫x-EX²·fxdx标准差的意义标准差是方差的算术平方根,定义为σX=√DX标准差与随机变量具有相同的量纲,可以直接度量随机变量取值的离散程度X在正态分布中,约的取值落在区间内,约的取值落在区间内68%μ-σ,μ+σ95%μ-2σ,μ+2σ常见分布的方差特点二项分布的方差Bn,p DX=np1-p泊松分布的方差PλDX=λ均匀分布的方差Ua,b DX=b-a²/12指数分布的方差ExpλDX=1/λ²正态分布的方差Nμ,σ²DX=σ²矩与协方差矩的概念与计算协方差的定义随机变量的阶原点矩定义为随机变量和的协方差定义为X kX Y,其中一阶原EX^k k=1,2,3,...CovX,Y=E[X-EXY-点矩就是数学期望随机变量的协X kEY]=EXY-EXEY阶中心矩定义为方差反映了两个随机变量之间线性E[X-,其中二阶相关的程度和方向当EX^k]k=1,2,3,...CovX,Y0中心矩就是方差高阶矩可以描述时,和正相关;当X YCovX,Y0分布的偏度(三阶中心矩)和峰度时,和负相关;当X YCovX,Y=0(四阶中心矩),提供比期望和方时,和不相关协方差具有对称X Y差更详细的分布特征性和线性性CovX,Y=,CovY,X CovaX+bY,Z=aCovX,Z+bCovY,Z协方差矩阵对于维随机向量₁₂,其协方差矩阵是一个×的矩阵,记为n X=X,X,...,Xn nΣₙ=σᵢⱼₓ,其中σᵢⱼ=CovXᵢ,Xⱼ协方差矩阵是对称的半正定矩阵,主对ₙₙ角线元素σᵢᵢ=DXᵢ是随机变量Xᵢ的方差协方差矩阵在多元统计分析、主成分分析和线性回归等领域有重要应用相关系数相关系数是衡量两个随机变量之间线性相关强度的标准化度量随机变量和的相关系数定义为,其中和X YρX,Y=CovX,Y/[σXσY]σX分别是和的标准差σYX Y相关系数的取值范围是当时,和完全正相关,即它们之间存在严格的正线性关系;当时,和完全负相关,即它[-1,1]ρX,Y=1X YρX,Y=-1X Y们之间存在严格的负线性关系;当时,和不相关,但不意味着它们是独立的ρX,Y=0X Y相关系数有以下性质对随机变量进行线性变换不改变相关系数;相关系数只反映线性相关性,对非线性关系不敏感;相关系数与协方差不同,它不受测量单位的影响需要注意的是,相关并不意味着因果关系,两个变量可能因为共同的原因而相关,但它们之间并没有直接的因果关系第四章大数定律与中心极限定理大数定律的表述大数定律的意义随机变量序列的算术平均趋于期望揭示大量随机现象的统计规律性统计推断的理论基础中心极限定理的核心内容为抽样分布理论和统计方法提供基础独立同分布随机变量和的分布趋于正态大数定律和中心极限定理是概率论中两个最基本、最重要的定理,它们揭示了大量随机现象背后的统计规律性,是数理统计学的理论基础大数定律表明,在试验次数足够多时,随机事件的频率趋近于其概率;或者说,随机变量序列的算术平均值几乎必然收敛于其数学期望这一定律解释了为什么频率可以用来估计概率,为统计推断提供了理论依据中心极限定理则指出,无论随机变量的分布如何,只要满足一定条件,大量相互独立的随机变量之和的分布会趋近于正态分布这一定理解释了为什么正态分布在自然和社会现象中如此普遍,也为许多统计方法的应用提供了理论支持大数定律中心极限定理定理的数学表述中心极限定理的基本形式是关于独立同分布随机变量和的极限分布设₁₂是相互独立同分布的随机变量序列,具有数学期望和方差,则随机变量{X,X,...}μσ²0σ²∞的分布函数满足,其中是标准正态分布的分布函数Z_n=[∑X_i-nμ]/σ√n F_nx limF_nx=ΦxΦx中心极限定理的条件中心极限定理的适用条件包括随机变量相互独立;随机变量同分布或满足条件或条件;随机变量具有有限方差对于非独立或非同分布的情况,有其Lyapunov Lindeberg他形式的中心极限定理需要注意的是,中心极限定理是一个渐近结果,对于有限样本,近似的精度取决于原始分布和样本大小近似计算中的应用中心极限定理在统计推断中有广泛应用例如,在抽样调查中,样本均值近似服从正态分布,这是构建置信区间和进行假设检验的基础在金融风险管理中,投资组合的总收益可以通过中心极限定理近似为正态分布在质量控制中,产品特性的测量值之和也可以利用中心极限定理进行近似第五章数理统计的基本概念总体与样本总体是研究对象的全体,样本是从总体中抽取的部分个体统计推断的目的是通过样本信息推断总体特征总体可以是有限的或无限的,而样本总是有限的样本的代表性对统计推断的有效性至关重要抽样方法抽样方法是从总体中选取样本的方式常见的抽样方法包括简单随机抽样、分层抽样、整群抽样和系统抽样等不同的抽样方法适用于不同的研究目的和总体特征抽样方法的选择直接影响样本的代表性和推断的可靠性统计量与抽样分布统计量是样本的函数,用于估计总体参数常见的统计量包括样本均值、样本方差、样本中位数等抽样分布是统计量的概率分布,反映了统计量的随机性重要的抽样分布包括分布、分布和分布等,它们χ²t F在统计推断中有重要应用总体与样本总体的定义样本与抽样样本代表性的重要性总体是研究对象的全体,是统计研究的对象样本是从总体中抽取的一部分个体样本数样本代表性是指样本能够恰当反映总体特征集合总体可以按不同标准分类据是进行统计推断的基础常见的样本类型的程度样本代表性对统计推断的有效性至包括关重要影响样本代表性的因素包括•按范围分有限总体和无限总体•简单随机样本每个个体被抽取的概率•按性质分同质总体和异质总体相等•抽样方法是否能保证样本的随机性和•按时间分静态总体和动态总体独立性•有放回抽样和无放回抽样总体的特征通常用参数来度量,如总体均值•样本容量是否足够大以减小抽样误差•独立同分布样本相互独立且服从相同、总体方差、总体比例等这些参数μσ²p分布的随机变量序列•抽样框是否包含了所有总体单元通常是未知的,是统计推断的目标•无应答偏差被抽中但未响应的个体可样本容量是样本中的观测个数,样本容量n能与响应者有系统差异越大,通常推断的精度越高良好的抽样设计可以提高样本代表性,从而增强统计推断的可靠性常见抽样方法简单随机抽样简单随机抽样是最基本的抽样方法,它保证总体中的每个个体被选入样本的概率相等操作方法包括抽签法、随机数表、计算机随机生成等简单随机抽样的优点是理论简单,统计性质好;缺点是实施困难,可能无法保证样本对特定子群体的代表性分层抽样分层抽样是将总体按某种特征分为若干互不重叠的层,然后在各层内进行简单随机抽样分层的原则是层内个体尽量同质,层间差异尽量显著分层抽样的优点是可以提高估计精度,保证对各层的代表性;缺点是需要事先了解总体分层信息,实施较为复杂常用于总体异质性较大的情况整群抽样与系统抽样整群抽样是将总体分为若干群,随机抽取一些群,对所选群体内的全部个体进行调查整群抽样适用于总体地域分散,但群内相对集中的情况,可降低调查成本,但可能增大抽样误差系统抽样是按一定间隔从总体中抽取个体,如每隔个选取个系统抽样实施简便,但如果总体存在周期性变化,可能导致偏差k1统计量与抽样分布统计量的概念常见统计量仅依赖于样本观测值的函数,不含未知参数样本均值、样本方差、样本矩和顺序统计量等分布和分布分布t Fχ²统计推断中的重要概率分布个独立标准正态随机变量的平方和分布n统计量是样本的函数,用于描述样本特征或估计总体参数常见的统计量包括样本均值X̄=1/n∑X_i;样本方差S²=1/n-1∑X_i-X̄²;样本k阶矩m_k=;样本中位数、样本极值等良好的统计量应具有无偏性、一致性、有效性等性质1/n∑X_i^k抽样分布是指统计量的概率分布,它反映了由于随机抽样导致的统计量的变异性理解抽样分布是进行统计推断的基础重要的抽样分布包括正态总体下样本均值的正态分布;正态总体下样本方差与总体方差比例的χ²分布;正态总体下,X̄-μ/S/√n的t分布;两正态总体方差比的F分布等这些分布在区间估计和假设检验中有重要应用例如,分布用于正态总体均值的区间估计和假设检验;分布用于正态总体方差的区间估计和假设检验;分布用于两个正态总体tχ²F方差相等性的检验和方差分析经验分布函数经验分布函数的定义求经验分布函数的方法经验分布函数的性质给定样本₁₂,经验分布计算经验分布函数的步骤如下经验分布函数具有以下重要性质X,X,...,X_n函数定义为样本中不超过的观测F_nx x将样本值按从小到大排序•单调不减若₁₂,则
1.X_1≤xx值比例₁₂X_2≤...≤X_n F_nx≤F_nx F_nx=1/n∑IX_i≤x对于任意实数,计算不超过的样本•右连续
2.x xF_nx+=F_nx值的个数k,其中是示性函数,当括号内条件成立•F_n-∞=0F_n+∞=1I·经验分布函数的值为时取值为1,否则为
03.F_nx=k/n•Glivenko-Cantelli定理当n→∞时,(概率sup|F_nx-Fx|→0在实际应用中,可以先绘制经验分布函经验分布函数是总体分布函数的一个Fx为),即经验分布函数一致收敛于1数的图形,然后与理论分布函数进行比估计,它完整地描述了样本的分布特真实分布函数较,以判断样本是否来自于某个特定的征与理论分布函数不同,经验分布函理论分布•定理在适数是一个阶梯函数,在每个样本点处有Kolmogorov-Smirnov当条件下,的一个跳跃,跳跃高度为√n·sup|F_nx-Fx|1/n极限分布是分布Kolmogorov第六章参数估计点估计用样本统计量的单一数值来估计总体参数点估计方法主要包括矩估计法和最大似然估计法,前者基于样本矩和总体矩的相等关系,后者基于最大化样本观测值的联合概率密度良好的点估计应具有无偏性、有效性和一致性等性质区间估计用样本计算出一个区间,使总体参数以指定的置信水平包含在这个区间内区间估计不但给出参数的可能取值范围,还给出了估计的可靠程度构造置信区间的方法包括枢轴量法和大样本近似法常用的置信水平有、
0.90和等
0.
950.99估计量的评价标准评价估计量优劣的标准主要包括无偏性(估计量的数学期望等于被估参数)、有效性(在所有无偏估计量中方差最小)、一致性(当样本容量趋于无穷时,估计量以概率收敛于被估参数)、稳健性(对总体分布假设的偏1离不敏感)等这些标准帮助我们选择合适的估计方法点估计方法矩估计法用样本矩估计总体矩,然后解方程得到参数估计简单直观,计算较容易,但效率可能不如最大似然估计最大似然估计法选择参数值使样本观测值的联合概率(似然)最大在大样本下通常具有良好的性质,但可能需要复杂的数值计算最小二乘估计法选择参数值使观测值与预测值的平方差之和最小广泛应用于回归分析,特别适用于线性模型的参数估计矩估计法的基本思想是令样本矩等于相应的总体矩,然后解出参数的估计值对于个未知参数,需要k使用k个矩方程例如,对于正态分布Nμ,σ²,矩估计值为μ̂=X̄,σ̂²=1/n∑X_i-X̄²最大似然估计法基于这样的直觉使得已观测到的样本出现概率最大的参数值,应该是最合理的参数估计它需要构造似然函数,然后求解使最大的值通常通过求解方程Lθ=∏fx_i;θLθθ来获得估计值最大似然估计具有不变性、渐近正态性和渐近有效性等优良性质∂lnLθ/∂θ=0最小二乘估计法主要用于回归分析中,它选择参数值使得观测值与模型预测值之间的平方误差和最小在线性回归中,最小二乘估计有解析解;在非线性回归中,通常需要数值方法求解最大似然估计最大似然估计的原理选择能使观测样本出现概率最大的参数值最大似然函数的构建样本观测值的联合概率密度函数最大似然估计的步骤构建函数,取对数,求导,解方程最大似然估计法是一种广泛应用的参数估计方法,其核心思想是使得观测样本出现概率最大的参数值,应该是最合理的参数估计具体实施步骤如下首先,根据总体分布和参数,写出样本的联合概率密度函数,即似然函数;其次,为了计算方便,通常取对数得到对Lθ=∏fx_i;θ数似然函数;然后,对对数似然函数求导,并令导数等于零,得到似然方程;最后,解似然方程得到参数的最大似然lnLθ=∑lnfx_i;θ∂lnLθ/∂θ=0θ估计值̂θ以正态总体为例似然函数,求解似然方程可得̂̄,̂̄最大似然估Nμ,σ²Lμ,σ²=2πσ²^-n/2exp[-∑x_i-μ²/2σ²]μ=Xσ²=1/n∑X_i-X²计具有不变性、充分性、渐近无偏性、渐近正态性和渐近有效性等优良性质,在参数估计中占有重要地位置信区间置信区间的概念正态总体均值的置信区间正态总体方差的置信区间置信区间是用来估计总体参数的一个对于正态总体,如果已对于正态总体,的置Nμ,σ²σ²Nμ,σ²σ²1-α区间,它以一定的置信水平包含真实知,的置信区间为̄±信区间为μ1-αX[n-1S²/χ²_α/2n-参数值形式上,置信区间是̂,其中是标准,[θ_L,z_α/2·σ/√n z_α/21,n-1S²/χ²_1-α/2n-1]̂,其中̂和̂是由样本计算得正态分布的上分位点其中和θ_U]θ_Lθ_Uα/2χ²_α/2n-1χ²_1-到的随机变量置信水平表示在分别是自由度为的1-αα/2n-1n-1χ²如果未知,的置信区间为̄σ²μ1-αX重复抽样中,有的置信区分布的上和上分位点1001-α%α/21-α/2±,其中t_α/2n-1·S/√n间包含真实参数θ是自由度为的分对于两个独立的正态总体t_α/2n-1n-1t置信区间与区间估计的区别在于参布的上分位点,是样本标准差₁₁和₂₂,如果想α/2S Nμ,σ²Nμ,σ²数是固定的,置信区间的端点是随机检验₁₂,可以构造统计量θσ²=σ²F F对于大样本(),即使总体不服n30的;置信水平是针对抽样过程的长期₁₂,其服从自由度为₁=S²/S²n-从正态分布,根据中心极限定理,也频率,而不是针对特定的置信区间₂的分布进而可以构造1,n-1F可以使用正态近似构造均值的置信区₁₂的置信区间σ²/σ²间第七章假设检验假设检验的基本思想假设检验是统计推断的重要方法,用于判断关于总体参数的假设是否成立其基本思想是根据样本信息,通过构造适当的检验统计量,判断样本结果与原假设是否矛盾如果矛盾程度超过预设的显著性水平,则拒绝原假设;否则,无法拒绝原假设参数假设检验参数假设检验是对总体参数(如均值、方差、比例等)进行的检验常见的参数检验包括正态总体均值的检验(单样本、双样本、配对样本)、正态总体方差的检验、总体比例的检验等参数检验通常基于特定的分布假设,如总体服从正态分布非参数假设检验非参数假设检验不依赖于总体分布的具体形式,适用性更广常见的非参数检验包括符号检验、秩和检验、游程检验、卡方拟合优度检验、检验等非参数检验在总体分布未知或不满足Kolmogorov-Smirnov正态性假设时特别有用假设检验的步骤建立假设提出原假设₀和备择假设₁原假设通常是希望被推翻的保守陈述,而备择H H假设是希望证实的陈述根据研究问题的性质,可以采用双侧检验或单侧检验例如,对于均值的检验,可以有₀₀₁₀(双侧),或μH:μ=μvs H:μ≠μ2选择检验统计量₀₀₁₀(单侧)H:μ≤μvs H:μμ根据假设和总体分布选择合适的检验统计量检验统计量是样本的函数,其分布在原假设成立时是已知的常用的检验统计量包括正态总体均值检验的统计Z确定拒绝域3量或统计量,方差检验的统计量或统计量,以及各种非参数检验统计量tχ²F根据显著性水平和检验统计量的分布,确定拒绝原假设的条件(拒绝域)显α著性水平代表了错误拒绝原假设的最大概率(第一类错误),通常取或α
0.05拒绝域的确定与备择假设的形式(单侧或双侧)有关计算与决策
0.01收集样本,计算检验统计量的值,并与拒绝域进行比较如果检验统计量落在拒绝域内,则拒绝原假设;否则,无法拒绝原假设另一种等价的方法是计算值P(观察到的检验统计量值在原假设下的显著性水平),如果值小于,则拒绝原Pα假设正态总体均值的检验正态总体方差的检验χ²F单个总体方差的检验两个总体方差比的检验基于卡方分布的检验统计量基于分布的检验统计量F95%常用置信水平对应显著性水平α=
0.05正态总体方差的检验在质量控制、可靠性分析和试验设计等领域有重要应用对于单个正态总体,如Nμ,σ²果要检验₀₀,可以构造检验统计量₀,其在原假设成立时服从自由度为的H:σ²=σ²χ²=n-1S²/σ²n-1分布χ²对于两个独立的正态总体₁₁和₂₂,如果要检验₀₁₂,可以构造检验统计量Nμ,σ²Nμ,σ²H:σ²=σ²F₁₂,其在原假设成立时服从自由度为₁₂的分布通常,我们选择较大的样本方差作=S²/S²n-1,n-1F为分子,以使值大于,便于查表F1在实际应用中,方差检验常用于比较两种工艺的稳定性、两个测量仪器的精度或两个产品批次的一致性等如果检验结果拒绝了方差相等的原假设,那么在进行均值比较时,需要使用适合于方差不等情况的检验方法分布拟合检验卡方拟合优度检验检验实例分析K-S卡方拟合优度检验用于检验样本是否来检验(检在实际应用中,分布拟合检验常用于验Kolmogorov-Smirnov K-S自某个指定的理论分布基本思想是比验)也用于检验样本是否来自某个指定证数据是否服从假设的分布,如正态分较观测频数与理论期望频数的差异检的分布,但它直接比较经验分布函数与布、泊松分布或指数分布等例如,在验统计量为,理论分布函数的最大差异检验统计量质量控制中,可能需要检验产品尺寸是χ²=∑[O_i-E_i²/E_i]其中是第个类别的观测频数,是为,其中否服从正态分布;在可靠性分析中,可O_i iE_i D_n=sup|F_nx-Fx|相应的期望频数在原假设成立时,是经验分布函数,是理论分能需要检验故障间隔时间是否服从指数χ²F_nx Fx统计量近似服从自由度为的布函数检验对连续分布更为适用,分布合适的分布模型是进一步分析和k-1-mχ²K-S分布,其中是类别数,是从样本估且在小样本情况下比卡方检验更有效预测的基础k m计的参数个数第八章回归分析回归分析是研究变量之间依赖关系的统计方法,主要用于分析一个因变量(被解释变量)如何依赖于一个或多个自变量(解释变量)回归分析的主要目的包括理解变量间的依赖关系、预测因变量的值、评估自变量对因变量的影响根据模型的形式和变量的数量,回归分析可分为一元线性回归、多元线性回归和非线性回归线性回归假设因变量与自变量之间存在线性关系,是最为基础和广泛应用的回归模型;而非线性回归则适用于变量间存在非线性关系的情况回归分析在经济学、生物学、社会科学、工程科学等领域有广泛应用例如,在经济学中用于分析影响商品需求的因素,在医学研究中用于识别疾病风险因素,在工程中用于建立产品性能与设计参数之间的关系一元线性回归回归模型的建立显著性检验与预测一元线性回归模型的形式为Y_i=β₀+β₁X_i+ε_i,其中Y_i是因变量,X_i是自对回归系数的显著性进行检验,可以构造t统计量t=β̂₁/S_β̂₁,其中S_β̂₁是β̂₁变量,₀是截距,₁是斜率,是随机误差项该模型假设误差项相互独立且的标准误这一统计量在原假设₀₁下服从自由度为的分布回归方程的ββε_iε_i H:β=0n-2t服从均值为、方差为的正态分布;自变量是非随机的或与误差项无关;不存在拟合优度可用决定系数来衡量,,其值在到之间,越接近表示0σ²X_i R²R²=S_y²/S_ŷ²011完全多重共线性拟合越好回归方程可用于预测给定新的X值X_0,预测的Y值为Ŷ_0=β̂₀+β̂₁X_0参数估计一元线性回归的参数通常使用最小二乘法估计,即选择₀和₁使得残差平方和ββQ=∑Y_i-β₀-β₁X_i²最小求导并令导数为零,可得β̂₁=S_xy/S_xx,β̂₀=Ȳ-β̂₁X̄,其中S_xy=∑X_i-X̄Y_i-Ȳ,S_xx=∑X_i-X̄²这样得到的回归方程为Ŷ=β̂₀+β̂₁X多元线性回归多元回归模型多重相关系数变量选择方法多元线性回归模型的形式为₀多重相关系数衡量因变量与所有自变量在多元回归中,选择合适的自变量集合是一Y_i=β+R Y₁₁₂₂₁₂之间的线性相关程度个重要问题常用的变量选择方法包括βX_i+βX_i+...+β_pX_ip+X,X,...,X_p R²,其中是因变量,₁₂表示由回归方程解释的因变量方差的比例,ε_i Y_i X_i,X_i,...,•前进法从零开始,每次加入最显著的变是个自变量,₀₁是回归计算公式为X_ip pβ,β,...,β_p R²=SSR/SST=1-量系数,是随机误差项,其中是回归平方和,是ε_i SSE/SST SSRSST•后退法从所有变量开始,每次删除最不总平方和,是误差平方和SSE该模型可以用矩阵形式表示为Y=Xβ+显著的变量,其中是×的因变量向量,是调整的决定系数考虑了自变量的数量εY n1X R²_adj•逐步法结合前进法和后退法,每次加入×的设计矩阵,是×的参数对的影响,计算公式为np+1βp+11R²R²_adj=1-一个变量后检查是否有变量可以删除向量,是×的误差向量当增加不显著的εn1n-1/n-p-1·1-R²•全子集回归考虑所有可能的自变量组合,自变量时,会增加但可能会下降R²R²_adj多元线性回归的基本假设与一元线性回归类选择最优的子集似,但增加了对多重共线性的考虑,即各自在多元回归中,对每个回归系数的显著性检选择标准通常基于调整的决定系数、变量之间不应存在强相关关系验使用检验,而对整个回归方程的显著性检R²_adjt统计量、(赤池信息准则)或(贝Cp AICBIC验使用检验F叶斯信息准则)等非线性回归非线性回归模型的转化非线性回归模型形如,其中是自变量和参数的非线性函数某些非Y=fX,β+εf Xβ线性模型可以通过适当的变量变换转化为线性模型例如,指数模型可Y=αe^βX通过取对数转化为;幂函数模型可转化为lnY=lnα+βXY=αX^βlnY=lnα+这种转化使得可以使用线性回归方法估计参数βlnX参数估计方法对于不能线性化的非线性模型,通常使用非线性最小二乘法估计参数,即选择参数值使残差平方和最小这通常需要数值优化方法,如Q=∑[Y_i-fX_i,β]²Gauss-算法、算法或牛顿拉弗森法这些算法通常从一Newton Levenberg-Marquardt-个初始估计开始,通过迭代逐步改进参数估计,直到满足收敛条件应用实例非线性回归在各领域有广泛应用在生物学中,生长曲线通常使用模型Logistic Y=或模型;在药理学中,药物浓度与α/1+βe^-γt GompertzY=αe^-βe^-γt效应的关系常用方程描述;在经济学中,生产函数可用Hill Y=αX^n/K^n+X^n函数₁₁₂₂表示选择合适的非线性模型Cobb-Douglas Y=αX^βX^β...X_p^β_p需要考虑数据特征和背景知识高尔顿钉板实验实验设计与原理高尔顿钉板实验是由弗朗西斯高尔顿()设计的一个物理装置,用来直观展示正态分布的形成过程实验装置由一个竖立的板组成,板上均匀地排列着许多·Francis Galton钉子小球从顶部落下,每次碰到钉子时,有相同的概率向左或向右偏转经过多行钉子后,小球最终落入底部的收集格中正态分布的直观体验当大量小球通过钉板时,它们在底部收集格中形成的分布呈现出钟形曲线,这就是正态分布的形状这一现象直观地展示了中心极限定理多个独立随机变量(这里是每次碰撞的左右选择)的和趋于正态分布高尔顿钉板实验使抽象的概率论概念变得可视化,帮助学生理解随机过程和正态分布的形成机制数据分析与结论通过记录小球在各收集格中的数量,可以绘制频率分布直方图,并与理论正态分布曲线进行比较可以计算样本均值、标准差,并进行正态性检验实验结果通常表明,当小球数量足够多、钉子排列足够规则时,实际分布与理论正态分布非常接近这一实验不仅验证了概率论的理论结果,也展示了随机现象中的规律性总结与应用展望概率论与数理统计的核心要点系统掌握概率理论与统计方法的基础在数据科学中的应用为现代数据分析与人工智能提供理论基础学习资源与进阶方向持续深化学习,拓展专业领域应用能力通过本课程的学习,我们系统地掌握了概率论与数理统计的基本理论和方法从随机事件与概率的基本概念,到随机变量及其分布、数字特征,再到大数定律与中心极限定理,我们建立了坚实的概率论基础;从数理统计的基本概念,到参数估计、假设检验和回归分析,我们掌握了实用的统计分析方法在大数据时代,概率统计方法在数据科学、人工智能、机器学习等领域发挥着核心作用贝叶斯方法为不确定性推理提供了理论框架;极大似然估计是训练统计模型的基础;假设检验帮助我们评估实验结果的显著性;回归分析则是预测建模的重要工具掌握这些方法,将使我们能够更好地理解和应用现代数据分析技术继续深入学习概率统计理论,可以探索高级概率论(如随机过程、马尔可夫链)、多元统计分析、贝叶斯统计、时间序列分析等方向结合专业背景,可以将这些方法应用于金融风险管理、生物统计、质量控制、机器学习算法改进等具体领域通过不断学习和实践,我们将能够在数据驱动的时代充分发挥概率统计思维的价值。
个人认证
优秀文档
获得点赞 0