还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
概率论与数理统计基本概念欢迎来到概率论与数理统计的世界!本课程将带你探索随机现象的规律,掌握数据分析的强大工具我们将从基本概念出发,逐步深入,为你构建坚实的理论基础,并培养解决实际问题的能力让我们一起开启这段充满挑战与乐趣的旅程!课程简介目标与内容概述本课程旨在帮助学生掌握概率论与数理统计的基本概念、基本理论和基本方法内容涵盖随机事件、概率的定义与计算、随机变量及其分布、多维随机变量、随机变量的数字特征、大数定律与中心极限定理、数理统计的基本概念、参数估计和假设检验等通过本课程的学习,学生应能够运用所学知识分析和解决实际问题,为后续课程的学习和科学研究打下坚实的基础课程将采用理论讲解、案例分析、习题练习等多种教学方法,注重培养学生的逻辑思维能力和实践应用能力学习目标内容概述教学方法掌握核心概念,培养解涵盖概率论与数理统计理论讲解与实践应用相决问题的能力的主要内容结合概率论的起源与发展简史概率论并非一开始就以严谨的数学形式出现,它的起源与赌博问题密切相关17世纪,帕斯卡和费马对赌博中的分赌本问题进行了深入研究,标志着概率论的初步发展随后,贝努利、棣莫弗等数学家相继做出重要贡献,概率论逐渐成为一门独立的学科到了20世纪,柯尔莫哥洛夫建立了概率论的公理化体系,为概率论的发展奠定了坚实的理论基础如今,概率论已广泛应用于自然科学、工程技术、经济管理等领域,成为现代科学技术的重要工具17世纪20世纪起源于赌博问题,帕斯卡和费马做出初步贡献柯尔莫哥洛夫建立了公理化体系,概率论走向成熟12318-19世纪贝努利、拉普拉斯等发展了概率论的理论体系随机事件与样本空间在概率论中,我们研究的对象是随机现象,即在一定条件下可能发生也可能不发生的现象随机实验是观察或记录随机现象的过程每个随机实验都有一个样本空间,它是所有可能结果的集合样本空间中的每个元素称为样本点随机事件是样本空间的子集,表示一组可能的结果例如,抛掷一枚骰子,样本空间是{1,2,3,4,5,6},而“掷出偶数”就是一个随机事件,它对应于子集{2,4,6}理解随机事件和样本空间是学习概率论的基础随机现象样本空间可能发生也可能不发生的现象所有可能结果的集合随机事件样本空间的子集事件的关系与运算事件之间存在多种关系,如包含、相等、互斥等事件A包含事件B,表示事件B发生必然导致事件A发生事件A与事件B相等,表示它们包含相同的样本点事件A与事件B互斥,表示它们不能同时发生事件还可以进行多种运算,如并(A∪B)、交(A∩B)、差(A-B)等A∪B表示事件A或事件B发生;A∩B表示事件A和事件B同时发生;A-B表示事件A发生但事件B不发生理解事件的关系与运算是进行概率计算的基础事件关系事件运算包含、相等、互斥等并、交、差等概率的定义古典概率古典概率是概率的一种定义方式,适用于有限且等可能的样本空间如果样本空间包含n个样本点,事件A包含m个样本点,则事件A的古典概率定义为PA=m/n也就是说,事件A的概率等于事件A包含的样本点数与样本空间总样本点数的比值古典概率的计算简单直观,但在实际应用中受到一定的限制,因为它要求样本空间是有限的,且每个样本点发生的可能性是相同的例如,抛掷一枚均匀的骰子,每个面朝上的概率都是1/6,可以用古典概率计算有限样本空间样本点数量有限等可能性每个样本点发生的概率相等概率计算PA=m/n概率的定义频率与概率在实际生活中,我们经常通过观察事件发生的频率来估计事件发生的概率在相同的条件下重复进行n次试验,事件A发生了m次,则事件A发生的频率定义为m/n当试验次数n足够大时,事件A发生的频率会稳定在某个常数附近,这个常数可以作为事件A发生概率的估计值频率与概率的关系是频率是概率的近似值,概率是频率的理论值通过大量的试验观察,我们可以用频率来估计概率,从而了解随机事件发生的可能性例如,通过多次抛掷硬币,我们可以估计正面朝上的概率频率2计算事件发生的频率试验1重复进行试验概率用频率估计概率3概率的定义公理化定义为了克服古典概率和频率定义的局限性,柯尔莫哥洛夫提出了概率的公理化定义公理化定义基于集合论,将概率视为样本空间上的一个函数,满足以下三个公理
1.非负性对于任意事件A,PA≥
02.规范性PΩ=1,其中Ω是样本空间
3.可列可加性对于互斥事件序列A1,A2,...,PA1∪A2∪...=PA1+PA2+...公理化定义具有更强的通用性和严谨性,为概率论的发展奠定了坚实的理论基础基于公理化定义,我们可以推导出概率的各种性质和计算公式非负性规范性可列可加性123概率值大于等于0样本空间的概率为1互斥事件概率之和等于并事件的概率条件概率条件概率是指在已知事件B发生的条件下,事件A发生的概率,记为PA|B条件概率的计算公式为PA|B=PA∩B/PB,其中PB0也就是说,事件A在事件B发生的条件下的概率,等于事件A和事件B同时发生的概率与事件B发生的概率的比值条件概率反映了事件之间的依赖关系如果事件A的发生受到事件B的影响,则PA|B≠PA例如,在抽牌游戏中,已知抽出的第一张牌是红桃,则抽出的第二张牌也是红桃的概率会发生变化事件B发生1已知事件A与B同时发生2计算交事件概率计算PA|B3应用公式计算条件概率全概率公式如果事件B1,B2,...,Bn构成样本空间的一个划分,即它们互斥且并集为样本空间,则对于任意事件A,有PA=PA|B1PB1+PA|B2PB2+...+PA|BnPBn这个公式称为全概率公式全概率公式提供了一种计算事件A概率的有效方法,将事件A分解为在不同条件下发生的若干个部分,分别计算每个部分的概率,然后求和例如,在产品质量检验中,可以将产品来源分为不同的工厂,分别计算每个工厂生产的产品合格的概率,然后利用全概率公式计算产品总体的合格率计算PA1事件A的概率PA|BiPBi2计算每个部分的概率样本空间划分3事件Bi构成样本空间划分贝叶斯公式贝叶斯公式是概率论中的一个重要公式,用于在已知一些条件下,计算事件发生的后验概率如果事件B1,B2,...,Bn构成样本空间的一个划分,则对于任意事件A,有PBi|A=PA|BiPBi/PA,其中PA可以用全概率公式计算贝叶斯公式反映了人们在获得新信息后对原有认识的修正PBi称为先验概率,表示在没有观测到事件A之前,人们对事件Bi发生的概率的估计;PBi|A称为后验概率,表示在观测到事件A发生之后,人们对事件Bi发生的概率的重新估计贝叶斯公式在机器学习、人工智能等领域有着广泛的应用先验概率后验概率贝叶斯公式PBi事件发生前的PBi|A事件发生后连接先验和后验概率估计的重新估计事件的独立性如果事件A的发生不影响事件B的发生,反之亦然,则称事件A与事件B是相互独立的数学上,如果PA∩B=PAPB,则事件A与事件B相互独立也就是说,事件A与事件B同时发生的概率等于它们各自发生的概率的乘积事件的独立性是概率论中一个重要的概念,简化了概率的计算如果事件A与事件B相互独立,则PA|B=PA,PB|A=PB例如,连续两次抛掷硬币,第一次抛掷的结果不影响第二次抛掷的结果,因此两次抛掷的结果是相互独立的相互独立数学定义一个事件的发生不影响另一个事件的发生PA∩B=PAPB离散型随机变量随机变量是用来描述随机现象结果的变量如果随机变量的取值是有限个或可列无限个,则称该随机变量为离散型随机变量例如,抛掷一枚骰子,记录朝上的点数;在一段时间内,某电话交换台收到的呼叫次数等,都是离散型随机变量离散型随机变量的取值可以用列表的方式一一列举出来研究离散型随机变量,我们需要了解它的分布律、期望、方差等数字特征,从而掌握其统计规律离散型随机变量是概率论中最基本的研究对象之一有限个取值可列无限个取值12取值数量有限可以一一列举的无限个取值统计规律3通过分布律、期望、方差等描述离散型随机变量的分布律分布律是描述离散型随机变量取值规律的数学工具如果离散型随机变量X的可能取值为x1,x2,...,则它的分布律可以用下表表示X x1x
2...P PX=x1PX=x
2...其中,PX=xi表示随机变量X取值为xi的概率,且满足PX=xi≥0,ΣPX=xi=1分布律完整地描述了离散型随机变量的取值情况及其概率分布,是研究离散型随机变量的重要依据可能取值列出随机变量所有可能取值对应概率确定每个取值对应的概率概率之和所有概率之和等于1伯努利分布与二项分布伯努利分布是最简单的离散型分布,描述一次试验的结果,只有两种可能成功或失败如果成功的概率为p,失败的概率为1-p,则随机变量X服从伯努利分布,记为X~B1,p二项分布描述n次独立重复的伯努利试验中,成功的次数如果每次试验成功的概率为p,则n次试验中成功k次的概率为PX=k=Cn,k*p^k*1-p^n-k,其中Cn,k是二项式系数二项分布在实际应用中非常广泛,例如,在产品质量检验中,可以用来描述一批产品中合格品的数量独立重复2多次独立重复伯努利试验伯努利试验1每次试验只有两种结果二项分布描述成功次数的分布3泊松分布泊松分布描述在一定时间或空间内,随机事件发生的次数如果随机变量X表示在一定时间或空间内,某事件发生的次数,且X满足以下条件
1.事件的发生是随机的,且在任何两个不相交的时间或空间区间内,事件的发生是独立的
2.在足够小的时间或空间区间内,事件发生的概率与区间长度成正比则X服从泊松分布,记为X~Pλ,其中λ是单位时间或空间内事件发生的平均次数泊松分布在排队论、生物学、物理学等领域有着广泛的应用,例如,可以用来描述某段时间内,某公共汽车站到达的乘客数量随机发生独立性比例性事件的发生是随机的事件在不相交区间内独立发生小区间内事件发生概率与区间长度成正比连续型随机变量与离散型随机变量不同,连续型随机变量的取值可以是某个区间内的任意值例如,人的身高、温度、电压等,都是连续型随机变量由于连续型随机变量的取值是无限的,因此不能像离散型随机变量那样用分布律来描述,而需要使用概率密度函数研究连续型随机变量,我们需要了解它的概率密度函数、分布函数、期望、方差等数字特征,从而掌握其统计规律连续型随机变量是概率论中另一类重要的研究对象区间取值1取值可以是某个区间内的任意值无限个取值2取值数量无限概率密度函数3用概率密度函数描述其分布连续型随机变量的概率密度函数概率密度函数是描述连续型随机变量取值规律的数学工具如果连续型随机变量X的概率密度函数为fx,则对于任意区间a,b,X取值于a,b的概率为PaXb=∫a,b fx dx也就是说,X取值于a,b的概率等于概率密度函数在a,b上的积分概率密度函数满足fx≥0,∫-∞,+∞fx dx=1概率密度函数的值并不直接表示概率,而是表示概率的密度概率密度函数越高,表示随机变量在该点附近取值的可能性越大定义概率密度描述连续型随机变量取值规律区间上的积分表示概率表示概率的密度均匀分布均匀分布是最简单的连续型分布,描述随机变量在某个区间内取值的可能性是相同的如果随机变量X在区间a,b上服从均匀分布,则它的概率密度函数为fx=1/b-a,axb;fx=0,其他记为X~Ua,b均匀分布在实际应用中并不常见,但它是许多其他分布的基础例如,计算机产生的伪随机数通常服从均匀分布均匀分布的特点是简单、易于理解和计算,是学习连续型随机变量的入门区间内均匀概率密度函数在区间内取值的可能性相同fx=1/b-a指数分布指数分布描述随机事件发生的时间间隔如果随机变量X表示随机事件发生的时间间隔,且X满足以下条件
1.事件的发生是随机的,且在任何两个不相交的时间区间内,事件的发生是独立的
2.在足够小的时间区间内,事件发生的概率与区间长度成正比则X服从指数分布,记为X~Expλ,其中λ是单位时间内事件发生的平均次数指数分布在排队论、可靠性分析等领域有着广泛的应用,例如,可以用来描述电子元件的寿命随机事件独立性概率密度函数描述随机事件发生的时间间隔事件在不相交区间内独立发生与时间间隔成反比正态分布(高斯分布)正态分布是概率论中最重要的分布之一,也是自然界和社会生活中最常见的分布之一如果随机变量X的概率密度函数为fx=1/σ√2π*e^-x-μ^2/2σ^2,其中μ是均值,σ是标准差,则X服从正态分布,记为X~Nμ,σ^2正态分布具有以下特点对称性、单峰性、钟形曲线许多随机变量都近似服从正态分布,例如,人的身高、体重、考试成绩等中心极限定理保证了大量独立随机变量之和近似服从正态分布,使得正态分布在统计推断中有着广泛的应用单峰性2只有一个峰值对称性1关于均值对称钟形曲线概率密度函数呈钟形3随机变量的函数及其分布在概率论中,我们不仅研究随机变量本身的分布,还研究随机变量的函数的分布如果X是一个随机变量,gx是一个函数,则Y=gX也是一个随机变量研究Y的分布,需要根据X的分布和函数gx来确定随机变量的函数在实际应用中非常广泛例如,如果X表示股票的价格,gx表示某种投资策略的回报率,则Y=gX表示该投资策略的回报理解随机变量的函数的分布,可以帮助我们分析和预测随机现象的结果随机变量X函数gx已知分布的随机变量随机变量的函数随机变量Y新的随机变量,需要确定其分布离散型随机变量函数的分布如果X是离散型随机变量,Y=gX也是离散型随机变量要确定Y的分布律,需要根据X的分布律和函数gx来计算Y的可能取值及其对应的概率具体步骤如下
1.确定Y的可能取值y1,y2,...
2.计算Y取值为yi的概率PY=yi=ΣPX=xj,其中xj满足gxj=yi通过以上步骤,我们可以得到Y的分布律,从而了解Y的取值情况及其概率分布例如,如果X表示抛掷一枚骰子的点数,Y=X^2,则Y也是离散型随机变量,可以通过以上步骤计算Y的分布律确定Y的取值计算Y的概率得到Y的分布律根据函数关系计算Y的可能取值根据X的分布律计算Y取每个值的概率Y的取值和对应概率构成其分布律连续型随机变量函数的分布如果X是连续型随机变量,Y=gX也是连续型随机变量要确定Y的概率密度函数,可以使用以下两种方法分布函数法先计算Y的分布函数Fy=PY≤y=PgX≤y,然后对Fy求导,得到Y的概率密度函数fy公式法如果gx是单调函数,则可以直接使用公式计算Y的概率密度函数fy=fx/|gx|,其中x=g^-1y通过以上方法,我们可以得到Y的概率密度函数,从而了解Y的取值情况及其概率分布例如,如果X服从均匀分布,Y=X^2,则Y也是连续型随机变量,可以通过以上方法计算Y的概率密度函数分布函数法1公式法先求分布函数,再求导适用于单调函数,直接使用公式计算2多维随机变量及其分布前面的章节我们主要讨论了一维随机变量,也就是只有一个随机变量的情况在实际生活中,我们经常需要同时研究多个随机变量,例如,人的身高和体重、股票的价格和成交量等多个随机变量构成多维随机变量研究多维随机变量,我们需要了解它们的联合分布、边缘分布、条件分布等概念,从而掌握它们之间的统计关系多维随机变量是概率论中更高级的研究对象,在统计建模、机器学习等领域有着广泛的应用多个随机变量联合分布统计关系同时研究多个随机变量描述多个随机变量的整体分布研究随机变量之间的关系二维随机变量的联合分布对于二维随机变量X,Y,联合分布函数定义为Fx,y=PX≤x,Y≤y也就是说,X,Y取值于矩形区域-∞,x]×-∞,y]的概率联合分布函数完整地描述了二维随机变量的取值情况及其概率分布如果X和Y都是离散型随机变量,则联合分布律可以用下表表示Y=y1Y=y
2...X=x1PX=x1,Y=y1PX=x1,Y=y
2...X=x2PX=x2,Y=y1PX=x2,Y=y
1.EC=C,其中C是常数
2.ECX=C*EX,其中C是常数
3.EX+Y=EX+EY期望的这些性质简化了期望的计算,在实际应用中非常有用例如,如果X表示抛掷一枚骰子的点数,则EX=1*1/6+2*1/6+...+6*1/6=
3.51EC=C2ECX=C*EX3EX+Y=EX+EY常数的期望等于自身常数倍的随机变量的期望和的期望等于期望的和连续型随机变量的期望对于连续型随机变量X,其期望定义为EX=∫x*fxdx,对x积分期望具有以下性质
1.EC=C,其中C是常数
2.ECX=C*EX,其中C是常数
3.EX+Y=EX+EY与离散型随机变量类似,连续型随机变量的期望也具有线性性质,简化了期望的计算例如,如果X服从均匀分布Ua,b,则EX=a+b/2积分计算1使用积分计算期望线性性质2具有线性性质,简化计算应用广泛3统计推断的基础随机变量的数字特征方差方差是随机变量另一个重要的数字特征,反映了随机变量取值的离散程度对于随机变量X,其方差定义为VarX=EX-EX^2也就是说,方差等于随机变量与其期望之差的平方的期望方差越大,表示随机变量的取值越分散;方差越小,表示随机变量的取值越集中方差可以用来衡量随机现象的波动性,是风险管理的重要工具标准差是方差的平方根,具有与随机变量相同的量纲,更易于解释离散程度波动性风险管理反映随机变量取值的离散程度衡量随机现象的波动性风险管理的重要工具方差的性质方差具有以下性质
1.VarC=0,其中C是常数
2.VarCX=C^2*VarX,其中C是常数
3.如果X和Y相互独立,则VarX+Y=VarX+VarY方差的这些性质简化了方差的计算,在实际应用中非常有用例如,如果X表示抛掷一枚骰子的点数,则VarX=EX-
3.5^2=1-
3.5^2*1/6+...+6-
3.5^2*1/6=
2.92VarC=0VarCX=C^2*VarX VarX+Y=VarX+VarY常数的方差等于0常数倍的随机变量的方差独立随机变量之和的方差等于方差之和常见分布的期望与方差以下是一些常见分布的期望与方差
1.伯努利分布B1,p EX=p,VarX=p1-p
2.二项分布Bn,p EX=np,VarX=np1-p
3.泊松分布PλEX=λ,VarX=λ
4.均匀分布Ua,b EX=a+b/2,VarX=b-a^2/
125.指数分布ExpλEX=1/λ,VarX=1/λ^
26.正态分布Nμ,σ^2EX=μ,VarX=σ^2掌握这些常见分布的期望与方差,可以帮助我们快速分析和理解随机现象的统计规律正态分布1μ,σ^2指数分布21/λ,1/λ^2均匀分布3a+b/2,b-a^2/12泊松分布4λ,λ二项/伯努利5与p有关随机变量的数字特征协方差与相关系数协方差是描述两个随机变量之间线性关系的数字特征对于随机变量X和Y,其协方差定义为CovX,Y=EX-EX*Y-EY也就是说,协方差等于X与其期望之差与Y与其期望之差的乘积的期望相关系数是协方差的标准化,定义为ρX,Y=CovX,Y/σX*σY,其中σX和σY分别是X和Y的标准差相关系数的取值范围是[-1,1],反映了两个随机变量之间线性关系的强度和方向相关系数越接近1,表示正线性关系越强;相关系数越接近-1,表示负线性关系越强;相关系数越接近0,表示线性关系越弱标准化2相关系数是协方差的标准化协方差1描述线性关系相关系数反映线性关系的强度和方向3协方差的性质协方差具有以下性质
1.CovX,C=0,其中C是常数
2.CovCX,Y=C*CovX,Y,其中C是常数
3.CovX+Z,Y=CovX,Y+CovZ,Y
4.CovX,Y=EXY-EXEY协方差的这些性质简化了协方差的计算,在实际应用中非常有用如果X和Y相互独立,则CovX,Y=0但CovX,Y=0并不能推出X和Y相互独立,只能说明它们之间没有线性关系1CovX,C=02CovCX,Y=C*CovX,Y随机变量与常数的协方差为0常数倍的随机变量的协方差3CovX+Z,Y=CovX,Y+CovZ,Y4CovX,Y=EXY-EXEY和的协方差等于协方差的和协方差的计算公式相关系数的意义相关系数ρX,Y的取值范围是[-1,1],反映了两个随机变量之间线性关系的强度和方向
1.ρX,Y=1X和Y之间存在完全正线性关系,即Y=aX+b,a
02.ρX,Y=-1X和Y之间存在完全负线性关系,即Y=aX+b,a
03.ρX,Y=0X和Y之间不存在线性关系,但可能存在非线性关系
4.0|ρX,Y|1X和Y之间存在一定程度的线性关系,|ρX,Y|越大,线性关系越强相关系数在金融分析、风险管理等领域有着广泛的应用,例如,可以用来衡量不同资产之间的相关性,从而构建风险分散化的投资组合[-1,1]1相关系数的取值范围线性关系2反映线性关系的强度和方向风险管理3用于构建风险分散化的投资组合大数定律大数定律是概率论中的一系列定理,描述了大量随机变量的平均结果的稳定性大数定律表明,当随机变量的数量足够大时,它们的平均值会趋近于一个常数,这个常数通常是随机变量的期望大数定律是统计推断的理论基础,保证了样本统计量可以有效地估计总体参数大数定律有多种形式,如切比雪夫大数定律、辛钦大数定律、伯努利大数定律等,它们对随机变量的条件和结论有所不同,但都反映了大量随机变量的平均结果的稳定性平均结果稳定性统计推断描述大量随机变量平均结果的稳定性当数量足够大时,平均值趋近于常数统计推断的理论基础切比雪夫不等式切比雪夫不等式是概率论中一个重要的不等式,给出了随机变量的取值偏离其期望的概率的上界对于任意随机变量X,设其期望为EX,方差为VarX,对于任意ε0,有P|X-EX|≥ε≤VarX/ε^2切比雪夫不等式表明,随机变量的取值偏离其期望越远,概率越小;随机变量的方差越小,取值越集中在其期望附近切比雪夫不等式不需要知道随机变量的具体分布,只需要知道其期望和方差,就可以估计其取值偏离期望的概率的上界,具有广泛的应用随机变量任意随机变量X期望与方差已知EX和VarX概率上界估计偏离期望的概率上界辛钦大数定律辛钦大数定律是最简单的大数定律之一,描述了独立同分布的随机变量的平均值的收敛性设X1,X2,...是独立同分布的随机变量序列,具有相同的期望μ,则对于任意ε0,有lim n→∞P|X1+X2+...+Xn/n-μ|ε=1辛钦大数定律表明,当n趋于无穷大时,随机变量序列的平均值依概率收敛于其期望μ也就是说,当n足够大时,随机变量序列的平均值会非常接近其期望,从而可以用样本平均值来估计总体期望相同期望2具有相同的期望μ独立同分布1随机变量序列独立同分布依概率收敛3平均值依概率收敛于期望μ伯努利大数定律伯努利大数定律是描述伯努利试验中事件发生频率的收敛性的大数定律设在n次独立重复的伯努利试验中,事件A发生了m次,p是每次试验中事件A发生的概率,则对于任意ε0,有lim n→∞P|m/n-p|ε=1伯努利大数定律表明,当n趋于无穷大时,事件A发生的频率依概率收敛于其概率p也就是说,当n足够大时,事件A发生的频率会非常接近其概率,从而可以用样本频率来估计总体概率伯努利试验事件频率独立重复的伯努利试验事件A发生的频率为m/n依概率收敛频率依概率收敛于概率p中心极限定理中心极限定理是概率论中最重要的定理之一,描述了大量独立随机变量之和的分布的渐近正态性中心极限定理表明,无论原始随机变量的分布是什么,当随机变量的数量足够大时,它们的和的分布会趋近于正态分布中心极限定理是统计推断的理论基础,保证了可以使用正态分布来近似许多统计量的分布,从而进行假设检验和置信区间估计中心极限定理有多种形式,如独立同分布的中心极限定理、李雅普诺夫中心极限定理等,它们对随机变量的条件和结论有所不同,但都反映了大量随机变量之和的分布的渐近正态性大量独立1大量独立随机变量求和2计算它们的和渐近正态3和的分布趋近于正态分布棣莫弗拉普拉斯中心极限定理-棣莫弗-拉普拉斯中心极限定理是中心极限定理的一个特殊形式,描述了二项分布的渐近正态性设随机变量X服从二项分布Bn,p,则当n足够大时,随机变量X-np/√np1-p近似服从标准正态分布N0,1棣莫弗-拉普拉斯中心极限定理表明,当n足够大时,二项分布可以用正态分布来近似,从而可以使用正态分布的性质来进行概率计算和统计推断例如,在产品质量检验中,可以使用棣莫弗-拉普拉斯中心极限定理来近似计算一批产品中合格品数量的概率二项分布标准化近似正态随机变量服从二项分布Bn,p进行标准化处理近似服从标准正态分布N0,1数理统计的基本概念总体与样本在数理统计中,我们研究的对象是总体,即包含所研究的全部个体的集合由于总体通常很大甚至无限,因此我们通常无法直接研究总体,而只能通过研究从总体中抽取的一部分个体,即样本,来推断总体的性质总体和样本是数理统计中最基本的概念样本的抽取需要遵循一定的原则,如随机性、代表性等,以保证样本能够有效地反映总体的特征数理统计的任务就是利用样本的信息,对总体的性质进行推断,如估计总体参数、检验假设等总体推断1利用样本推断总体性质样本2从总体中抽取的一部分个体总体3包含所研究的全部个体的集合统计量及其分布统计量是指不包含任何未知参数的样本函数,是样本的某种数字特征常见的统计量包括样本均值、样本方差、样本标准差、样本中位数等统计量是进行统计推断的基础,因为它们可以从样本中计算出来,并用于估计总体参数或检验假设由于统计量是样本的函数,因此它也是一个随机变量,具有一定的分布统计量的分布称为抽样分布,它描述了统计量的取值情况及其概率分布掌握统计量的抽样分布,可以帮助我们评估统计推断的可靠性抽样分布2统计量的分布称为抽样分布样本函数1统计量是不包含未知参数的样本函数统计推断统计量是进行统计推断的基础3样本均值与样本方差样本均值是样本中最常用的统计量之一,定义为样本中所有个体的取值之和除以样本容量样本均值可以用来估计总体的均值,是最常用的位置参数估计量样本方差是样本中另一个常用的统计量,定义为样本中每个个体的取值与其样本均值之差的平方和除以样本容量减1样本方差可以用来估计总体的方差,是衡量样本数据离散程度的统计量样本方差的计算公式中除以n-1而不是n,是为了保证样本方差是总体方差的无偏估计样本均值样本方差无偏估计估计总体的均值估计总体的方差保证估计的准确性常用统计分布卡方分布卡方分布是一种重要的概率分布,在统计学中有着广泛的应用如果随机变量X1,X2,...,Xn相互独立,且都服从标准正态分布N0,1,则随机变量X=X1^2+X2^2+...+Xn^2服从自由度为n的卡方分布,记为X~χ^2n卡方分布的概率密度函数由自由度n决定,随着自由度的增大,卡方分布逐渐趋近于正态分布卡方分布在假设检验、置信区间估计等领域有着广泛的应用,例如,可以用来检验样本方差是否与总体方差相等标准正态多个独立标准正态变量平方和求它们的平方和卡方分布服从卡方分布常用统计分布分布tt分布也称为学生t分布,是一种重要的概率分布,在统计学中有着广泛的应用设随机变量X服从标准正态分布N0,1,Y服从自由度为n的卡方分布χ^2n,且X和Y相互独立,则随机变量T=X/√Y/n服从自由度为n的t分布,记为T~tnt分布的概率密度函数由自由度n决定,随着自由度的增大,t分布逐渐趋近于标准正态分布t分布在小样本均值检验、置信区间估计等领域有着广泛的应用,例如,当样本容量较小时,可以使用t分布来检验样本均值是否与总体均值相等卡方分布2随机变量Y服从卡方分布标准正态1随机变量X服从标准正态分布构造t统计量3T=X/√Y/n服从t分布常用统计分布分布FF分布是一种重要的概率分布,在统计学中有着广泛的应用设随机变量X服从自由度为m的卡方分布χ^2m,Y服从自由度为n的卡方分布χ^2n,且X和Y相互独立,则随机变量F=X/m/Y/n服从自由度为m,n的F分布,记为F~Fm,nF分布的概率密度函数由自由度m和n决定F分布在方差分析、回归分析等领域有着广泛的应用,例如,可以用来检验两个总体的方差是否相等1两个卡方分布2构造F统计量随机变量X和Y分别服从卡方F=X/m/Y/n服从F分布分布方差分析3检验两个总体的方差是否相等参数估计点估计参数估计是数理统计中的一个重要问题,指的是利用样本信息来估计总体中的未知参数参数估计分为点估计和区间估计两种点估计是指用一个具体的数值来估计总体参数,例如,用样本均值来估计总体均值点估计的常用方法包括矩估计法和最大似然估计法对于一个好的点估计量,我们希望它具有无偏性、有效性、一致性等性质,以保证估计的准确性和可靠性样本信息1利用样本信息未知参数2估计总体中的未知参数具体数值3用一个具体数值来估计矩估计法矩估计法是一种常用的点估计方法,其基本思想是用样本矩来估计总体矩,然后解方程组得到参数的估计值例如,如果总体均值为μ,总体方差为σ^2,则可以用样本均值X来̄估计μ,用样本方差S^2来估计σ^2矩估计法的优点是简单易行,不需要知道总体的具体分布缺点是估计的精度不高,可能存在多个解,且不一定满足无偏性、有效性等性质矩估计法通常作为其他估计方法的初步估计样本矩解方程简单易行用样本矩估计总体矩解方程组得到参数估计不需要知道总体的具体值分布最大似然估计法最大似然估计法是另一种常用的点估计方法,其基本思想是选择使样本出现的概率最大的参数值作为参数的估计值具体步骤如下
1.写出似然函数Lθ,表示在参数θ下,样本出现的概率
2.对似然函数取对数,得到对数似然函数lnLθ
3.求对数似然函数的最大值点,即解方程组∂lnLθ/∂θ=
04.得到的解即为参数θ的最大似然估计值最大似然估计法具有良好的统计性质,如渐近无偏性、渐近有效性等,是统计推断中最常用的估计方法之一似然函数对数似然求导最大似然估计写出似然函数Lθ取对数得到对数似然函数求导数并令其等于0得到参数的最大似然估计值lnLθ参数估计区间估计与点估计不同,区间估计是指用一个区间来估计总体参数,并给出该区间包含总体参数的概率,称为置信水平例如,我们可以说,总体均值有95%的概率落在区间a,b内,则a,b就是一个置信水平为95%的置信区间区间估计的常用方法是基于枢轴量法,即构造一个与参数有关的统计量,使其分布已知,然后利用该统计量的分布来构造置信区间置信区间的长度反映了估计的精度,置信水平反映了估计的可靠性枢轴量2构造与参数有关的统计量置信水平1给出区间包含总体参数的概率置信区间利用枢轴量的分布构造置信区间3单个正态总体均值的区间估计设总体服从正态分布Nμ,σ^2,其中μ未知,σ^2已知若样本均值为X̄,则μ的1-α置信区间为X̄-zα/2*σ/√n,X̄+zα/2*σ/√n,其中zα/2是标准正态分布的上α/2分位数如果σ^2未知,则μ的1-α置信区间为X̄-tα/2n-1*S/√n,X̄+tα/2n-1*S/√n,其中S是样本标准差,tα/2n-1是自由度为n-1的t分布的上α/2分位数当样本容量较大时,可以使用正态分布来近似t分布已知未知σσ使用正态分布的分位数使用t分布的分位数样本容量样本容量较大时,可以使用正态分布近似t分布单个正态总体方差的区间估计设总体服从正态分布Nμ,σ^2,其中σ^2未知若样本方差为S^2,则σ^2的1-α置信区间为n-1S^2/χ^2α/2n-1,n-1S^2/χ^21-α/2n-1,其中χ^2α/2n-1和χ^21-α/2n-1分别是自由度为n-1的卡方分布的上α/2分位数和下α/2分位数该置信区间的构造基于卡方分布的性质,利用样本方差与总体方差之间的关系,可以有效地估计总体方差的取值范围卡方分布基于卡方分布的性质样本方差利用样本方差与总体方差之间的关系估计范围估计总体方差的取值范围假设检验基本概念假设检验是数理统计中的另一个重要问题,指的是根据样本信息,检验关于总体参数或总体分布的某种假设是否成立假设检验的基本思想是反证法,即先假设待检验的假设是成立的,然后根据样本信息,构造一个检验统计量,如果该统计量的值落入了拒绝域,则拒绝原假设,否则接受原假设假设检验分为单侧检验和双侧检验,检验统计量的选择取决于总体的分布和待检验的假设假设检验可能会犯两种错误第一类错误(弃真错误)和第二类错误(取伪错误)检验统计量2根据样本信息构造检验统计量假设1对总体参数或总体分布的假设决策根据检验统计量的值做出决策3假设检验正态总体均值的检验设总体服从正态分布Nμ,σ^2,其中μ未知要检验假设H0:μ=μ0,H1:μ≠μ0,可以使用以下检验统计量
1.如果σ^2已知,则检验统计量为z=X̄-μ0/σ/√n,服从标准正态分布N0,
12.如果σ^2未知,则检验统计量为t=X̄-μ0/S/√n,服从自由度为n-1的t分布tn-1根据给定的显著性水平,可以确定拒绝域,然后根据检验统计量的值是否落入拒绝域来做出决策该检验是统计学中常用的假设检验α方法之一已知未知显著性水平1σ2σ3使用z统计量,服从标准正态分布使用t统计量,服从t分布根据显著性水平确定拒绝域假设检验正态总体方差的检验设总体服从正态分布Nμ,σ^2,其中σ^2未知要检验假设H0:σ^2=σ0^2,H1:σ^2≠σ0^2,可以使用以下检验统计量χ^2=n-1S^2/σ0^2,服从自由度为n-1的卡方分布χ^2n-1根据给定的显著性水平,可以确定拒绝域,然后根据检验统计量的值是否落入拒绝域来做出决策该检验可以用来检验样本方差是否与α给定的总体方差相等,在质量控制、风险管理等领域有着广泛的应用显著性水平1根据显著性水平确定拒绝域卡方统计量2构造卡方统计量假设3关于总体方差的假设。
个人认证
优秀文档
获得点赞 0