还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
概率理论复习课件欢迎参加概率理论复习课程!本课程将系统地回顾概率论的核心概念、定理和应用方法,帮助大家巩固所学知识,为后续的学习和考试做好充分准备概率论作为数学的重要分支,不仅是许多理论研究的基础,也在工程、金融、医学等众多领域有着广泛应用通过本次复习,我们将重新梳理概率论的理论体系,加深对关键概念的理解,提高解决概率问题的能力希望这套课件能够成为你掌握概率理论的得力助手!课程概述课程目标学习内容系统复习概率论基础理论,掌从概率基础到大数定律和中心握核心概念和计算方法,培养极限定理,再到数理统计的参概率思维和应用能力,为后续数估计与假设检验,全面覆盖统计学习和实践应用打下坚实概率理论的各个重要章节基础考核方式平时作业占,包括习题集和小组讨论;期中考试占,侧重基础30%20%概念;期末考试占,综合评估理论理解和问题解决能力50%第一章概率论基础随机试验样本空间可重复的、结果不确定的实验随机试验所有可能结果的集合概率计算随机事件事件发生可能性的数学度量样本空间的子集,可能发生也可能不发生概率论基础是整个概率理论的核心,它建立了描述随机现象的数学语言和工具通过学习这些基础概念,我们能够用严谨的数学方法来分析和预测充满不确定性的现象随机事件样本空间事件的概念事件的关系随机试验中所有可能结果的集合,通常用事件是样本空间的子集,表示随机试验可包含关系若中的每个元素都是中的元A B表示例如,掷一枚骰子的样本空间为能出现的某些结果的集合例如,掷骰子素,则称包含于,记为⊂ΩA B A B出现偶数可表示为事件Ω={1,2,3,4,5,6}A={2,4,6}相等关系若⊂且⊂,则称等于,A B B A A B样本空间的元素称为样本点,代表随机试基本事件是只包含一个样本点的事件必记为A=B验的每一个可能结果样本空间可以是有然事件是等于样本空间的事件,不可能事限的、可数无限的或不可数无限的件是空集事件的运算并集事件与事件的并集,记为∪,表示事件和事件至少发生一个A B A BA B例如掷骰子,事件为出现奇数,事件为出现大于的数,则∪AB4A B={1,3,5,5,6}交集事件A与事件B的交集,记为A∩B,表示事件A和事件B同时发生例如同上例,A∩B={5},表示既是奇数又大于4的数差集事件与事件的差集,记为,表示事件发生但事件不发生A BA-BA B例如同上例,,表示是奇数但不大于的数A-B={1,3}4互斥事件如果A∩B=∅,则称事件A与事件B互斥或不相容,表示A与B不可能同时发生例如掷骰子出现奇数和掷骰子出现偶数这两个事件互斥概率的定义古典概率在等可能事件的有限样本空间中,事件的概率等于中基本事件数与样本空间A A中基本事件总数之比公式事件包含的基本事件数样本空间中基本事件总数PA=A/统计概率在大量重复试验中,事件的频率趋近于一个稳定值,这个稳定值就是事件的AA概率公式事件发生的次数试验的总次数(当试验次数趋于无穷大时)PA=A/公理化定义概率是定义在样本空间的事件集合上的一个函数,满足三个基本公理P•非负性对任意事件A,有PA≥0•规范性对于必然事件Ω,有PΩ=1•可列可加性对于两两互斥的事件序列A₁,A₂,...,有P∪Aᵢ=∑PAᵢ概率的性质非负性规范性可列可加性对于任何事件,都有,即概率是非对于必然事件(样本空间),有;对于两两互斥的事件序列,有A PA≥0ΩPΩ=1A₁,A₂,...负的,表示事件发生的可能性不会是负数对于不可能事件(空集),有,∪∪,即互斥∅P∅=0PA₁A₂...=PA₁+PA₂+...即概率的取值范围是事件的概率可以相加[0,1]从这些性质可以推导出更多有用的概率计算规则,例如对于任意事件,有,其中是的对立事件•A PĀ=1-PAĀA对于任意事件和,有∪•A B PA B=PA+PB-PA∩B如果⊂,则,且•A B PA≤PB PB-A=PB-PA条件概率条件概率的定义1在事件已经发生的条件下,事件发生的概率,记为BAPA|B计算公式2PA|B=PA∩B/PB,其中PB0理解条件概率3当已知发生时,样本空间缩小为,此时发生的概率重新计算BBA条件概率是概率论中的重要概念,它描述了在某些信息已知的情况下事件发生的可能性例如,当我们知道一个学生是理科生时,他数学成绩优秀的概率就是一个条件概率条件概率满足概率的所有性质,如非负性、规范性和可列可加性理解条件概率对于解决复杂的概率问题和进行贝叶斯分析至关重要乘法公式多元乘法公式二元乘法公式1PA₁∩A₂∩...∩A=ₙPA∩B=PA·PB|A=PB·PA|B2PA₁·PA₂|A₁应用方法独立事件情形4·解决概率问题时,可将复杂事件分解为简3PA₃|A₁∩A₂·...·PA|A₁∩A₂∩...∩A₋₁若与独立,则A BPA∩ₙB=PA·PBₙ单事件的交集,再应用乘法公式乘法公式是计算事件交集概率的基本工具,特别适用于计算连续发生的一系列事件的概率例如,计算连续投掷硬币出现特定序列的概率,或者计算多次抽样得到特定结果的概率全概率公式公式表达PA=∑PB_i·PA|B_i条件构成样本空间的一个完备事件组B₁,B₂,...,Bₙ意义通过已知条件概率计算未知的全概率全概率公式是概率论中的基本定理之一,它提供了一种将复杂问题分解为若干简单问题的方法当我们难以直接计算事件的概率时,可A以寻找一组完备事件(它们的并集等于样本空间,且两两互斥),然后通过各个条件概率来计算B₁,B₂,...,BPA|B_i PAₙ这一公式在实际应用中非常有用,例如医学诊断、风险评估和决策分析等领域通过全概率公式,我们可以综合考虑各种可能的情况,得到更全面、准确的概率估计贝叶斯公式公式表达理解要点应用实例贝叶斯公式是条件概率的逆转已知结果医学诊断已知患者有某症状,推断患某PB_i|A=[PB_i·PA|B_i]/,反推原因的概率种疾病的概率[∑PB_j·PA|B_j]AB_i或简化形式公式中的称为先验概率,称垃圾邮件过滤根据邮件内容特征,判断PB|A=[PB·PA|B]/PA PB_i PB_i|A为后验概率邮件是否为垃圾邮件其中(全概率公式)称为似然度,反映了假设对观机器学习根据新的证据不断更新模型参PA=∑PB_j·PA|B_j PA|B_i B_i测结果的解释能力数的概率分布A事件的独立性PA∩BPA|B定义公式条件概率表达事件A与B独立当且仅当PA∩B=PA·PB等价于PA|B=PA或PB|A=PBPA₁∩...∩Aₙ多事件独立事件相互独立当且仅当任意个事件A₁,...,A kₙ的交集概率等于各事件概率的乘积2≤k≤n事件的独立性是概率论中的核心概念,它描述了事件之间没有相互影响的情况两个事件独立意味着一个事件的发生与否不会改变另一个事件发生的概率需要注意的是,事件的独立性与互斥性是完全不同的概念,独立事件可以同时发生,而互斥事件不能同时发生判断事件独立性的关键在于检验PA∩B是否等于PA·PB在实际问题中,独立性往往来源于物理意义,例如独立的试验、不相关的随机现象等伯努利试验定义特点伯努利试验是只有两种可能结果的随只有两种可能结果(成功失败)•/机试验,通常称为成功和失败试验相互独立•每次试验中,成功的概率为p0成功概率在每次试验中保持不变•p可以重复进行多次•应用伯努利试验是二项分布、几何分布等概率分布的基础在次伯努利试验中恰好成n功次的概率服从二项分布,首次成功出现在第次试验的概率服从几何分k Bn,p k布伯努利试验是概率论中最基本的随机试验模型之一,常见的例子包括抛硬币、质量检验(合格不合格)、医学试验(有效无效)等理解伯努利试验对于学习概率分布//和统计推断有重要意义第二章随机变量及其分布随机变量的引入将随机现象的结果数量化,建立样本空间到实数集的映射分布函数描述随机变量取值规律的基本工具离散型随机变量取值为有限个或可列无限多个的随机变量连续型随机变量存在概率密度函数的随机变量随机变量的函数研究随机变量经过变换后的分布规律随机变量及其分布是建立概率模型的基础,通过引入随机变量,我们可以用数学方法定量分析随机现象本章将系统学习各类随机变量的特征和常见分布随机变量的概念随机变量的定义离散型随机变量连续型随机变量随机变量是定义在样本空间上的实值函取值为有限个或可列无限多个的随机变量取值可以是某个区间内任意值的随机变量Ω数,即将随机试验的每个可能结果称为离散型随机变量称为连续型随机变量X=Xω映射为一个实数ωXω例如掷骰子的点数、家庭子女数量、某例如等待时间、产品寿命、身高、体重随机变量使我们能够用数量描述随机现象,区域一天内的交通事故数等等建立概率模型,应用数学工具进行分析离散型随机变量通过分布律(概率质量函连续型随机变量通过概率密度函数来描述数)来描述其概率分布其概率分布分布函数定义基本性质随机变量的分布函数定义为单调不减若,则X Fx X
1.x₁x₂Fx₁≤小于或等于的概率x Fx=PX≤Fx₂,其中为任意实数分布函数x x有界性,且
2.0≤Fx≤1完整描述了随机变量的概率分布,limx→-∞Fx=0特征limx→+∞Fx=1右连续性,即
3.Fx+0=Fx Fx在任意点处右连续x概率计算利用分布函数可以计算随机变量落在任意区间的概率PaX≤b=Fb-FaPXa=1-Fa,其中表示在处的左极限PX=a=Fa-Fa-0Fa-0Fx x=a离散型随机变量的分布律定义离散型随机变量X的分布律(概率质量函数)px定义为px_i=PX=x_i,其中x_i为X的所有可能取值分布律描述了随机变量各个可能取值的概率性质
1.非负性px_i≥
02.归一性∑px_i=1,即所有可能取值的概率之和为1与分布函数的关系分布函数Fx可以由分布律求得Fx=∑{x_i≤x}px_i反之,分布律可以由分布函数的跳跃值得到px_i=Fx_i-Fx_i-0离散型随机变量的分布律通常可以用表格、概率直方图或者数学表达式来表示例如,掷一枚均匀骰子的点数X的分布律可以表示为pi=1/6,i=1,2,3,4,5,6理解分布律对于分析离散型随机现象至关重要常见离散型分布()1分布(两点分布)二项分布0-1随机变量只取和两个值,且,,其中随机变量表示次独立重复的伯努利试验中成功的次数,记为X01PX=1=p PX=0=1-p0X n,其中为单次试验成功的概率p1X~Bn,p p分布律,分布律,px=p^x1-p^1-x x=0,1PX=k=Cn,kp^k1-p^n-k k=0,1,2,...,n期望期望EX=p EX=np方差方差DX=p1-p DX=np1-p应用表示单次伯努利试验的结果,如硬币一次抛掷的结果应用质量检验、疾病诊断、民意调查等多个领域常见离散型分布()2泊松分布几何分布随机变量表示在单位时间或空间内随机事件发生的次数,记为随机变量表示在伯努利试验序列中,首次成功出现在第次试验X Xk,其中为单位时间或空间内事件的平均发生率的概率,记为,其中为单次试验成功的概率X~Pλλ0X~Gp p分布律,分布律,PX=k=λ^ke^-λ/k!k=0,1,2,...PX=k=1-p^k-1p k=1,2,3,...期望期望EX=λEX=1/p方差方差DX=λDX=1-p/p^2应用描述罕见事件发生次数,如呼叫中心接到的电话数、网站应用描述直到成功为止所需的尝试次数,如投篮直到命中、掷访问量、放射性粒子的衰变数等骰子直到出现等6当很大而很小,且时,二项分布可以用泊松分布几何分布具有无记忆性n pnp=λBn,p PλPXm+n|Xm=PXn近似连续型随机变量的概率密度定义性质概率计算若存在非负函数,使得随机变量的分布非负性利用概率密度函数可以计算随机变量落在任fx X
1.fx≥0函数可以表示为意区间的概率Fx Fx=∫[from-∞to归一性
2.∫[from-∞to+∞]fxdx=1,则称为连续型随机变量,称x]ftdt X fxPa≤X≤b=∫[from ato b]fxdx=Fb-Fa对于任意区间,有为的概率密度函数
3.[a,b]Pa≤X≤b=∫[fromXa tob]fxdx PXa=∫[from ato+∞]fxdx=1-Fa对于连续型随机变量,,即单
4.X PX=c=0点的概率为零概率密度函数是描述连续型随机变量分布特征的重要工具虽然本身不是概率,但可以近似理解为落在小区间内的概率,当很小时fx₀fx₀ΔxX[x₀,x₀+Δx]Δx因此,的值反映了随机变量在不同位置取值的概率密集程度fx常见连续型分布()1均匀分布指数分布随机变量在区间上服从均匀分布,记为,表示在区间上取值随机变量服从参数为的指数分布,记为,常用于描述独立随机X[a,b]X~U[a,b]X[a,b]Xλλ0X~Expλ的概率密度处处相等事件之间的时间间隔概率密度函数,当时;,当时概率密度函数,当时;,当时fx=1/b-a a≤x≤b fx=0xb fx=λe^-λx x0fx=0x≤0分布函数,当时分布函数,当时;,当时Fx=0xb Fx=0x≤0Fx=1-e^-λx x0期望期望EX=a+b/2EX=1/λ方差方差DX=b-a²/12DX=1/λ²指数分布具有无记忆性PXs+t|Xs=PXt均匀分布和指数分布是两种最基本的连续分布均匀分布描述了完全随机的情况,如随机数生成器;指数分布则广泛应用于排队论和可靠性理论,如电子元件的寿命、顾客到达的时间间隔等常见连续型分布()2标准正态分布随机变量的概率密度函数为Z~N0,1φz=1/√2πe^-z²/2一般正态分布2的概率密度为X~Nμ,σ²fx=1/σ√2πe^-x-μ²/2σ²标准化变换若,则X~Nμ,σ²Z=X-μ/σ~N0,1正态分布特性钟形曲线,对称于,有、、法则x=μ68%95%
99.7%正态分布是概率论和统计学中最重要的概率分布,由于中心极限定理,大量独立随机变量的和近似服从正态分布正态分布广泛应用于自然科学、社会科学和工程技术等领域,如测量误差、身高体重、智商分布等标准正态分布的分布函数通常记为,其值已被广泛制表,是统计计算中的基础工具利用可以方便地计算一般正态分布的概率ΦzΦz Pa≤X≤b=Φb-μ/σ-Φa-μ/σ随机变量函数的分布问题描述已知随机变量的分布,求的分布X Y=gX离散型随机变量函数若是离散型,列出的所有可能取值,计算对应的,然后确定的X Xx_i y_i=gx_i Y分布律,其中求和是对所有满足的进行PY=y_i=∑PX=x_j gx_j=y_i j连续型随机变量函数若是连续型,且是单调函数,可用变量替换法求的概率密度;若X Y=gX YgX不是单调的,可用分布函数法F_Yy=PY≤y=PgX≤y随机变量函数的分布问题是概率论中的重要内容,它研究随机变量经过变换后的概率分布特征解决这类问题的关键是建立原随机变量与变换后随机变量之间的关系,通过已知分布推导未知分布在实际应用中,随机变量函数的分布问题广泛存在,例如产品质量的检验数据经过某种指标变换后的分布,金融资产收益率的对数变换,信号处理中的各种变换等掌握随机变量函数分布的求解方法对于概率模型的构建和分析至关重要第三章多维随机变量及其分布边缘分布从联合分布中导出单个随机变量的条件分布分布联合分布在给定某些随机变量取值的条件下,描述多个随机变量共同分布的特征其余随机变量的分布基本概念独立性多维随机变量是多个随机变量组成3的向量,如X,Y随机变量之间相互不影响的性质2415多维随机变量的研究是概率论的重要内容,它处理多个随机变量共同作用的复杂随机现象在现实世界中,大多数随机现象都受到多种因素的影响,需要用多维随机变量来建模本章将系统学习二维随机变量的联合分布、边缘分布、条件分布以及随机变量的独立性等内容,为后续研究随机变量的数字特征和极限定理奠定基础二维随机变量定义分布函数分布函数的性质由两个随机变量和组成的向量称为二维随机变量的分布函数定义为单调性⇒X Y X,Y X,Y
1.x₁x₂,y₁y₂Fx₁,y₁≤二维随机变量或二维随机向量Fx₂,y₂Fx,y=PX≤x,Y≤y二维随机变量是描述两个相关随机量的基有界性
2.0≤Fx,y≤1分布函数完整描述了二维随机变量的Fx,y本工具,例如某产品的长度和重量、股票概率分布特征极限性
3.F-∞,y=Fx,-∞=0,F+∞,+∞的价格和交易量等=1右连续性
4.Fx+0,y+0=Fx,y概率计算
5.Px₁X≤x₂,y₁Y≤y₂=Fx₂,y₂-Fx₂,y₁-Fx₁,y₂+Fx₁,y₁离散型二维随机变量联合分布律边缘分布律离散型二维随机变量的联合分布从联合分布律可以得到单个随机变量X,Y律定义为的分布律,称为边缘分布律px_i,y_j=PX=x_i,,其中和分别是和的Y=y_j x_i y_j X Y,p_Xx_i=PX=x_i=∑_j px_i,y_j可能取值即将联合分布律中固定的各项相X=x_i联合分布律满足且加px_i,y_j≥0,p_Yy_j=PY=y_j=∑_i px_i,y_j,表示为表格或概率∑∑px_i,y_j=1即将联合分布律中固定的各项相Y=y_j质量分布图加概率计算利用联合分布律可以计算各种概率∈∈∈∈PX A,Y B=∑_{x_i A}∑_{y_j B}px_i,y_j∈,其中求和是对所有满足∈的进行PgX,Y C=∑∑px_i,y_j gx_i,y_j Ci,j离散型二维随机变量的联合分布律完整描述了两个离散型随机变量的概率特征理解联合分布律与边缘分布律的关系,对于分析多维随机现象至关重要连续型二维随机变量联合概率密度边缘概率密度若存在非负函数fx,y,使得二维随机变量从联合概率密度可以得到单个随机变量的概X,Y的分布函数可以表示为率密度,称为边缘概率密度,即将联合概Fx,y=∫∫_{-∞,-∞}^{x,y}fu,vdudv f_Xx=∫_{-∞}^{+∞}fx,ydy率密度关于积分y则称为连续型二维随机变量,称为X,Y fx,y联合概率密度函数,即将联合概f_Yy=∫_{-∞}^{+∞}fx,ydx率密度关于积分x联合概率密度函数满足且fx,y≥0∫∫_{-∞,-∞}^{+∞,+∞}fx,ydxdy=1概率计算利用联合概率密度可以计算各种概率∈,其中是平面上的区域PX,Y D=∫∫_D fx,ydxdy D特别地,Pa≤X≤b,c≤Y≤d=∫_a^b∫_c^d fx,ydydx连续型二维随机变量的联合概率密度函数是描述两个连续型随机变量共同分布特征的重要工具虽然本身不是概率,但可以近似理解为落在小矩形区域内的fx₀,y₀fx₀,y₀ΔxΔy X,Y[x₀,y₀,x₀+Δx,y₀+Δy]概率,当和很小时ΔxΔy条件分布离散型条件分布连续型条件分布条件分布的应用已知的条件下,的条件分布律已知的条件下,的条件概率密度条件分布在统计推断和机器学习中有广泛Y=y_j X Y=y X应用,其中PX=x_i|Y=y_j=PX=x_i,Y=y_j/PY=y_j f_Xx|Y=y=fx,y/f_Yy f_Yy0条件期望=px_i,y_j/p_Yy_j
1.EX|Y=y=∑_i x_i同理,已知的条件下,的条件概率密X=x Y(离散型)或PX=x_i|Y=y EX|Y=y=∫_{-条件分布律满足且度PX=x_i|Y=y_j≥0(连续型)∞}^{+∞}x f_Xx|Y=ydx∑_i PX=x_i|Y=y_j=1,其中f_Yy|X=x=fx,y/f_Xx f_Xx0回归分析研究条件期望作为
2.EY|X=x x条件分布可以理解为,已知一个随机变量的函数条件概率密度满足且f_Xx|Y=y≥0∫_{-的取值后,另一个随机变量的分布情况∞}^{+∞}f_Xx|Y=ydx=1贝叶斯推断利用条件分布更新参数的
3.后验分布随机变量的独立性基本定义随机变量和相互独立,当且仅当对任意实数和,有X Yx y1,即PX≤x,Y≤y=PX≤x·PY≤y Fx,y=F_Xx·F_Yy独立性的等价条件对于离散型随机变量,对所有可能的px_i,y_j=p_Xx_i·p_Yy_j i,j对于连续型随机变量,对几乎所有的fx,y=f_Xx·f_Yy x,y判断方法检验联合分布是否等于边缘分布的乘积3对于变换后的随机变量,如和,如果和独立,则和也独立gX hYX YgX hY随机变量的独立性是概率论中的重要概念,它意味着一个随机变量的行为不受其他随机变量取值的影响独立性简化了多维随机变量的分析,使得联合分布可以分解为边缘分布的乘积,条件分布等于边缘分布在实际应用中,独立性假设常常是建模的基础,例如独立同分布的样本假设、独立噪声假设等然而,需要注意的是,相关性为零并不一定意味着独立性(除非是正态随机变量)判断随机变量独立性是概率建模的关键步骤二维正态分布定义性质标准形式若二维随机变量的联合概率密和的边缘分布分别为正态分布通过线性变换,X,Y
1.X YU=X-μ₁/σ₁V=Y-度为,,可以将二维正态分布转换为X~Nμ₁,σ₁²Y~Nμ₂,σ₂²μ₂/σ₂标准形式和相互独立的充要条件是相关fx,y=[1/2π√1-ρ²σ₁σ₂]·exp{-
2.X Y系数,其联合概率密度[1/21-ρ²]·[x-μ₁²/σ₁²-2ρx-ρ=0U,V~N0,0,1,1,ρ为μ₁y-μ₂/σ₁σ₂+y-μ₂²/σ₂²]}线性组合也服从正态分布
3.aX+bY+c则称服从参数为X,Yμ₁,μ₂,σ₁²,σ₂²,ρfu,v=[1/2π√1-ρ²]·exp{-在给定的条件下,的条件分
4.Y=y X的二维正态分布,记为[1/21-ρ²]·[u²-2ρuv+v²]}布是正态分布,其中是相X,Y~Nμ₁,μ₂,σ₁²,σ₂²,ρρX|Y=y~Nμ₁+ρσ₁/σ₂y-μ₂,σ₁²1-关系数,满足|ρ|1ρ²二维正态分布是多维随机变量理论中最重要的分布之一,它在统计学、数据分析、信号处理等领域有广泛应用二维正态分布的等密度线是椭圆,相关系数决定了椭圆的方向和形状ρ第四章随机变量的数字特征数学期望方差与标准差协方差与相关系数矩随机变量取值的平均水平随机变量取值的离散程度随机变量之间的相关程度随机变量分布的高阶特征随机变量的数字特征是描述随机变量概率分布的重要工具,它们用少量的数字概括了随机变量的主要特征,如中心位置、离散程度和相关关系等尽管数字特征通常不能完全确定概率分布,但它们为理解和比较不同的随机变量提供了便捷的方式在实际应用中,数字特征往往比概率分布更容易获得和使用例如,在统计推断中,我们常常通过样本估计总体的均值和方差;在投资分析中,资产收益的均值和标准差是风险评估的基础;在信号处理中,信号的均值、方差和自相关函数是重要的特征量数学期望离散型随机变量的数学期望连续型随机变量的数学期望若离散型随机变量的分布律为若连续型随机变量的概率密度为,则X px_i=XfxXPX=x_i,i=1,2,...,则X的数学期望定义为的数学期望定义为,当级数绝对收敛时,当积分绝对收EX=∑_i x_i·px_i EX=∫_{-∞}^{+∞}x·fxdx敛时例如掷一个均匀骰子,表示点数,则X EX=1·1/6+2·1/6+...+6·1/6=
3.5例如X~Nμ,σ²,则EX=μ随机变量函数的期望若是的函数,则的期望为Y=gX X Y(离散型)或(连续型)EY=∑_i gx_i·px_i EY=∫_{-∞}^{+∞}gx·fxdx这一性质使得我们可以直接计算随机变量函数的期望,而不必先求出其分布数学期望是随机变量最基本的数字特征,它反映了随机变量取值的平均水平或中心位置期望具有线性性质,其中、、为常数当随机变量和独立时,有EaX+bY+c=aEX+bEY+c a b cX YEXY=EX·EY方差定义计算公式性质随机变量的方差定义为与其期望的偏差方差的计算常用公式方差恒非负,且当且X XDX=EX²-
1.DX≥0DX=0平方的期望仅当为常数(概率为)[EX]²X1离散型随机变量常数的方差为零,其中为常DX=VarX=E[X-EX²]DX=∑_i x_i-
2.Dc=0c,或数EX²·px_i DX=∑_i x_i²·px_i-方差的平方根称为标准差σX=√DX[EX]²连续型随机变量线性变换的方差,其DX=∫_{-∞}^{+∞}x-
3.DaX+b=a²DX方差表示随机变量取值的离散或波动程度,,或中、为常数EX²·fxdx DX=∫_{-∞}^{+∞}ab方差越大,随机变量的取值越分散x²·fxdx-[EX]²独立随机变量的和的方差若和独立,
4.X Y则DX+Y=DX+DY方差是统计分析和风险评估的基本工具在金融中,投资组合的方差用于度量风险;在信号处理中,噪声的方差表示信号的不确定性;在质量控制中,产品参数的方差反映了生产过程的稳定性协方差定义计算公式随机变量X和Y的协方差定义为协方差的常用计算公式CovX,Y=E[X-EXY-EY]CovX,Y=EXY-EXEY协方差衡量了两个随机变量的线性相关程对于离散型随机变量CovX,Y=∑∑x_i-度,反映它们同向变化的趋势EXy_j-EYpx_i,y_j对于连续型随机变量CovX,Y=∫∫x-EXy-EYfx,ydxdy性质对称性
1.CovX,Y=CovY,X自协方差等于方差
2.CovX,X=DX线性性质
3.CovaX+bY,cZ+d=acCovX,Z+bcCovY,Z独立随机变量的协方差为零若和独立,则
4.X YCovX,Y=0注意协方差为零只说明无线性相关,不能推断出独立性(除非是正态随机变量)协方差在多变量分析和金融投资中有广泛应用在投资组合理论中,资产间的协方差用于构建最优组合;在主成分分析中,协方差矩阵的特征向量用于降维;在回归分析中,协方差用于计算回归系数相关系数定义性质应用随机变量和的相关系数定义为取值范围相关系数是度量两个随机变量线性相关程X Y
1.-1≤ρ_XY≤1度的常用工具表示和完全正相关,存在严ρ_XY=CovX,Y/[σXσY]
2.ρ_XY=1X Y格的线性关系,其中表示强相关性,两个变量的Y=aX+b a
01.|ρ_XY|≈1其中,和分别是和的标准差σXσYXY变化高度同步表示和完全负相关,存在
3.ρ_XY=-1XY相关系数是协方差的标准化形式,消除了严格的线性关系,其中表示弱相关性,两个变量的Y=aX+b a
02.|ρ_XY|≈0量纲的影响,便于比较变化基本无关表示和不相关,但不一定独
4.ρ_XY=0XY立(除非是正态随机变量)中间值表示部分相关,相关程度随
3.增大而增强|ρ_XY|对线性变换不变,
5.ρ_aX+b,cY+d=ρ_XY当时;,当相关系数在数据分析、金融建模和信号处ac0ρ_aX+b,cY+d=-ρ_XY时理等领域有广泛应用ac0矩原点矩中心矩随机变量X的k阶原点矩定义为随机变量X的k阶中心矩定义为μ_k=EX^k,k=1,2,3,...ν_k=E[X-EX^k],k=1,2,3,...一阶原点矩就是期望μ_1=EX二阶中心矩就是方差ν_2=DX对于离散型随机变量μ_k=∑_i x_i^k·px_i对于离散型随机变量ν_k=∑_i x_i-EX^k·px_i对于连续型随机变量μ_k=∫_{-∞}^{+∞}x^k·fxdx对于连续型随机变量ν_k=∫_{-∞}^{+∞}x-EX^k·fxdx高阶矩的应用三阶中心矩用于计算偏度γ_1=ν_3/ν_2^3/2偏度表示分布的不对称性γ_10表示右偏(正偏),γ_10表示左偏(负偏)四阶中心矩用于计算峰度γ_2=ν_4/ν_2^2-3峰度表示分布尖峰程度γ_20表示峰值比正态分布高,γ_20表示峰值比正态分布低矩是描述概率分布形状的重要特征低阶矩(如期望和方差)反映了分布的位置和尺度,而高阶矩(如偏度和峰度)则反映了分布的形状特征通过矩可以区分不同的概率分布,例如正态分布的偏度为0,峰度为0切比雪夫不等式≥1-1/ε²≤1/ε²基本形式等价形式对于任意随机变量X和任意正数ε,有对于任意随机变量X和任意正数ε,有P|X-EX|ε√DX≥1-1/ε²P|X-EX|≥ε√DX≤1/ε²≥1-σ²/kσ²直观解释随机变量X落在以期望μ为中心、以kσ为半径的区间μ-kσ,μ+kσ内的概率至少为1-1/k²切比雪夫不等式是概率论中的基本定理,它给出了随机变量偏离其期望的概率上界,这个上界只依赖于方差,而与随机变量的具体分布形式无关这一性质使得切比雪夫不等式在实际应用中特别有用,尤其是当我们只知道随机变量的期望和方差,而不知道其具体分布时根据切比雪夫不等式,随机变量落在μ-2σ,μ+2σ区间内的概率至少为75%,落在μ-3σ,μ+3σ区间内的概率至少为89%,落在μ-4σ,μ+4σ区间内的概率至少为94%切比雪夫不等式是大数定律证明的基础,也在统计假设检验和置信区间构造中有重要应用第五章大数定律和中心极限定理随机序列的极限大数定律1概率收敛、依概率收敛和几乎必然收敛的概描述大量重复观测的平均结果稳定性的定理念2应用中心极限定理4抽样调查、统计推断、质量控制等领域的理解释大量独立随机变量之和近似服从正态分3论基础布的定理大数定律和中心极限定理是概率论中的两个基本极限定理,它们揭示了随机现象在大量重复观测下呈现的规律性这些定理不仅具有深刻的理论意义,也为统计学和应用数学提供了坚实的基础大数定律说明,当样本量增大时,样本均值将越来越接近总体均值,这解释了频率稳定性背后的数学原理中心极限定理则说明,大量独立随机变量之和的分布近似于正态分布,这解释了为什么正态分布在自然界和社会现象中如此普遍大数定律切比雪夫大数定律设是相互独立的随机变量序列,它们具有相同的期望和方差X₁,X₂,...,X EX=μₙₖ,则对于任意,有DX=σ²∞ε0ₖlimn→∞P|X₁+X₂+...+X/n-μ|ε=1ₙ也就是说,随着的增大,样本均值依概率收敛于总体均值n X₁+X₂+...+X/nμₙ伯努利大数定律设表示次独立重复试验中事件发生的次数,是事件在每次试验中发生的概率,A n A pAₙ则对于任意,有ε0limn→∞P|A/n-p|ε=1ₙ这表明,随着试验次数的增加,事件发生的频率依概率收敛于概率nAA/n pₙ大数定律是概率论的核心定理之一,它从数学上证明了频率稳定性现象该定理表明,当观测次数足够多时,样本的平均值会非常接近其理论期望值,这为统计推断和科学实验提供了理论基础切比雪夫大数定律适用于相互独立的随机变量序列,条件较为宽松;伯努利大数定律则是其特例,专门应用于伯努利试验大数定律解释了为什么我们可以通过增加样本量来提高估计的准确性,也为蒙特卡洛方法等计算技术提供了理论支持大数定律(续)辛钦大数定律马尔可夫大数定律应用实例设是独立同分布的随机变量设是随机变量序列,它们的统计抽样大样本调查结果更接近总体X₁,X₂,...,X X₁,X₂,...,X
1.ₙₙ序列,如果存在,则对于任意,期望和方差存在,且满足一定条件,则特征EX₁=με0有保险精算随着投保人数增加,每人平limn→∞P|X₁+X₂+...+X/n-
2.ₙ均赔付趋于稳定limn→∞P|X₁+X₂+...+X/n-μ|ε=1EX₁+EX₂+...+EX/n|ε=1ₙₙ与切比雪夫大数定律相比,辛钦大数定律马尔可夫大数定律去掉了独立性的假设,质量控制大批量生产的产品合格率接
3.去掉了有限方差的假设,只要期望存在即适用于更广泛的随机变量序列近设计概率可,但要求随机变量独立同分布蒙特卡洛方法通过大量随机模拟计算
4.复杂问题的近似解各种形式的大数定律都阐述了同一个核心思想在大量观测下,随机性会呈现出确定性的规律辛钦大数定律条件更宽松,只要期望存在即可,是概率论中最常用的大数定律形式中心极限定理独立同分布的中心极限定理随机变量和的分布趋于正态分布条件独立同分布,有限均值和方差标准化形式近似服从标准正态分布Z_n=S_n-nμ/σ√n李雅普诺夫条件4更一般情况下的收敛条件中心极限定理是概率论中最著名的定理之一,它指出,大量相互独立的随机变量之和的分布趋于正态分布,无论这些随机变量本身服从什么分布具体来说,设X₁,X₂,...,是独立同分布的随机变量序列,均值为,方差为,令,则随机变量的分布函数在时逐点收敛到标准正态分布函数Xμσ²0S=X₁+X₂+...+X Z=S-nμ/σ√n n→∞Φxₙₙₙₙₙ中心极限定理解释了为什么正态分布在自然和社会现象中如此普遍许多实际观测值可以看作多种微小、独立因素共同作用的结果,根据中心极限定理,这样的观测值自然呈现正态分布该定理也为二项分布和泊松分布的正态近似提供了理论基础中心极限定理的应用二项分布的正态近似泊松分布的正态近似当n足够大时,二项分布Bn,p可以用正态分当λ足够大时,泊松分布Pλ可以用正态分布布Nnp,np1-p近似具体来说,如果Nλ,λ近似若X~Pλ,则X~Bn,p,则当n很大时Pa≤X≤b≈Φb+
0.5-λ/√λ-Φa-
0.5-Pa≤X≤b≈Φb+
0.5-np/√np1-p-λ/√λΦa-
0.5-np/√np1-p这种近似在λ15时效果较好其中添加的±
0.5是连续性校正,可以提高近似精度这种近似在np5且n1-p5时效果较好实际问题解决
1.抽样调查估计大样本统计量的抽样分布
2.质量控制建立产品质量特性的控制界限
3.假设检验构造正态近似的检验统计量
4.排队理论分析大量顾客到达时的服务系统行为
5.金融风险评估投资组合收益的概率分布中心极限定理的应用极其广泛,它是统计推断的理论基础在实际应用中,我们经常需要计算大量随机变量和的概率,直接计算通常非常困难,而中心极限定理提供了简便的近似方法第六章数理统计的基本概念总体与样本研究对象的全体与从中抽取的部分抽样方法简单随机抽样、分层抽样、系统抽样等统计量样本均值、样本方差等样本函数抽样分布统计量的概率分布,如分布、分布等tχ²数理统计是研究如何收集、分析、解释和表达数据的科学,它是概率论在实际问题中的应用和延伸概率论研究已知分布的性质,而数理统计则研究如何根据样本推断未知分布的特征本章将介绍数理统计的基本概念和方法,包括总体与样本的关系、各种统计量及其抽样分布等这些内容为后续的参数估计和假设检验奠定基础,也是统计推断的理论依据总体与样本总体样本总体是研究对象的全体,包含所有可能的观测值样本是从总体中抽取的部分,用于推断总体特征总体可以是有限的(如某校所有学生的身高),样本X₁,X₂,...,X通常假设是相互独立且同分布ₙ也可以是无限的(如某生产过程中所有可能产出的随机变量,其分布与总体分布相同的产品)样本的规模n称为样本容量,样本容量越大,推总体分布通常用概率密度函数fx;θ表示,其中θ断的精确度通常越高是待估参数,如正态分布Nμ,σ²中的μ和σ²样本数据x₁,x₂,...,x是样本观测的具体实现值ₙ总体的特征值,如期望μ和方差σ²,通常是统计推断的目标关系总体与样本的关系是数理统计的核心我们通过有限的样本来推断无限的总体这种推断是基于概率模型的,因此具有一定的不确定性统计推断的两个主要任务是参数估计(估计总体分布的参数)和假设检验(检验关于总体分布的假设)抽样方法的选择(如简单随机抽样、分层抽样等)对推断结果的可靠性有重要影响理解总体与样本的区别和联系是统计学的基础在实际问题中,我们往往无法获取总体的全部信息,只能通过样本进行推断这种推断的精确度受到样本容量、抽样方法和统计模型等因素的影响统计量定义常见统计量次序统计量统计量是样本样本均值将样本按大小X₁,X₂,...,X X̄=X₁,X₂,...,Xₙₙ的函数,它排序后得到TX₁,X₂,...,XX₁+X₂+...+X/n X₍₁₎≤X₍₂₎≤...≤ₙₙ不依赖于总体分布的未知参X₍₎,其中X₍ᵢ₎称为第i个次样本方差S²=∑Xᵢ-X̄²/n-1ₙ数统计量本身是随机变量,序统计量样本标准差具有一定的概率分布(称为S=√S²特别地,是样本最小值,X₍₁₎抽样分布)样本k阶原点矩m_k=∑XᵢᵏX₍₎是样本最大值,X₍ᵏ₎ₙ/n(当时)或n=2k-1(当样本k阶中心矩M_k=∑Xᵢ-X₍ₖ₎+X₍ₖ₊₁₎/2n=2k时)是样本中位数X̄ᵏ/n统计量是连接样本和总体的桥梁,通过合适的统计量,我们可以从样本中提取关于总体的信息好的统计量应具有无偏性(期望等于被估计参数)、有效性(方差较小)和一致性(随样本量增大收敛于被估计参数)等性质在参数估计中,我们使用统计量作为总体参数的估计值;在假设检验中,我们使用统计量构造检验统计量,来判断关于总体的假设是否合理理解各种统计量的性质和分布是统计推断的基础抽样分布分布分布χ²t若随机变量相互独立且均服从标准正态分布,则随若随机变量服从标准正态分布,服从分布,且与相互X₁,X₂,...,X N0,1X N0,1Yχ²n XYₙ机变量服从自由度为的分布,记为独立,则随机变量服从自由度为的分布,记为Y=X₁²+X₂²+...+X²nχ²Y~χ²n T=X/√Y/n nt T~tnₙ分布的概率密度函数为分布的概率密度函数关于对称,形状与标准正态分布相似但尾部更χ²fy=[1/2^n/2Γn/2]·y^n/2-1·e^-t y=0,其中,是伽马函数厚y/2y0Γ分布的期望为,方差为当时,分布是柯西分布;当时,分布趋近于标准正态分布χ²n2n n=1t n→∞t当足够大时,分布近似于正态分布nχ²n Nn,2n分布在时的期望为,在时的方差为t n20n4n/n-2抽样分布是统计量的概率分布,它反映了由于随机抽样导致的统计量的变异性抽样分布是构建置信区间和假设检验的基础,也是统计推断的核心工具分布和分布是常用的抽样分布,分布常用于方差的推断和拟合优度检验,分布常用于小样本下均值的推断这些分布的表格或计算机程序可以χ²tχ²t帮助我们计算各种概率和分位数,用于构造置信区间和临界值抽样分布(续)分布正态总体的常用抽样分布应用F若随机变量服从自由度为的分布,若是来自正态总体分布主要用于方差比的推断和方差分析X mχ²
1.X₁,X₂,...,X Nμ,σ²Fₙ服从自由度为的分布,且与相互的样本,则Y nχ²XY独立,则随机变量服从自F=X/m/Y/n样本均值两个正态总体方差比的检验若X̄~Nμ,σ²/n
1.X₁,由度为的分布,记为m,n FF~Fm,n来自,X₂,...,X₁Nμ₁,σ₁²Y₁,Y₂,...,标准化统计量ₙX̄-μ/σ/√n~N0,1F分布的概率密度函数是非对称的,分布Y₂来自Nμ₂,σ₂²,则S₁²/S₂²~Fn₁-ₙ若样本来自正态总体,则形状依赖于自由度m和n
2.Nμ,σ²1,n₂-1·σ₁²/σ₂²,其中S₁²和S₂²是两个样本的方差∑Xᵢ-μ²/σ²~χ²n分布与分布的关系若,则方差分析中的检验比较多个组之间F tT~tn
2.F均值的差异T²~F1,nn-1S²/σ²~χ²n-1分布在时的期望为,在回归分析中的检验检验回归方程的F n2n/n-2n
43.FX̄-μ/S/√n~tn-1时的方差为显著性2n²m+n-2/[mn-2²n-4]分布是另一个重要的抽样分布,它与分布和分布一起构成了统计推断的基本工具集理解这些分布之间的关系以及它们在正态总体下的应用,对Fχ²t于掌握参数估计和假设检验方法至关重要第七章参数估计估计的类型点估计方法区间估计估计量评价点估计用单一数值估计未知参数矩估计法基于样本矩与总体矩的对应置信区间以一定置信水平包含未知参数无偏性、有效性、一致性、充分性的随机区间区间估计构造包含未知参数的区间最大似然估计法最大化观测数据的似然函数常见区间均值区间、方差区间、比例区间最小二乘法最小化误差平方和参数估计是统计推断的核心任务之一,它研究如何根据样本数据推断总体分布的未知参数通过合理的估计方法,我们可以从有限的样本中获取关于总体的最佳信息,为决策提供科学依据本章将系统介绍点估计和区间估计的方法与原理,包括矩估计、最大似然估计、置信区间构造等内容掌握这些方法对于理解和应用统计学至关重要,也是解决实际问题的基本工具点估计矩估计法最大似然估计法矩估计法的基本思想是用样本矩代替相应的总体矩,建立方程组求解未最大似然估计法的基本思想是选择能使观测数据出现概率最大的参数值知参数作为估计值设总体分布有个未知参数,则设总体分布的概率密度(或分布律)为,是未知参数,则kθ₁,θ₂,...,θfx;θθₖ
1.计算前k阶总体矩EX,EX²,...,EXᵏ,这些矩是θ₁,θ₂,...,θ的函数
1.构造似然函数Lθ=∏fxᵢ;θ,表示观测样本x₁,x₂,...,x出现的概率ₖₙ用样本矩分别替代总体矩,得到方程组求解使似然函数最大的参数值,通常通过求解导数方程
2.m₁,m₂,...,m
2.θ̂ₖd[lnLθ]/dθ=0解方程组得到参数的矩估计量
3.即为未知参数的最大似然估计
3.θ̂θ例如,对于正态分布,有,由样本矩Nμ,σ²EX=μ,EX²=μ²+σ²m₁=X̄,m₂=∑Xᵢ²/n得到矩估计量μ̂=X̄,σ̂²=m₂-m₁²例如,对于正态分布Nμ,σ²,最大似然估计为μ̂=X̄,σ̂²=∑Xᵢ-X̄²/n点估计是用样本计算出的单一数值来估计总体参数的方法矩估计法计算简单但可能不是最优的;最大似然估计法在大样本下具有良好的性质,但有时计算复杂在选择估计方法时,需要考虑估计量的无偏性、有效性和一致性等性质区间估计置信区间置信水平参数的置信区间是由统计量构造的随机区间置信水平表示在重复抽样中,约有θ[θ̂₁,1-α1-1,使得,其中称为置信的置信区间包含真实参数值常用的置θ̂₂]Pθ̂₁≤θ≤θ̂₂=1-α1-αα×100%2水平信水平为()和()
0.9595%
0.9999%构造方法区间宽度4基于枢轴量法构造置信区间找到一个含参数置信区间的宽度随置信水平的增加而增大,随样θ的统计量,其分布已知且不依赖于,然后反解3本容量的增加而减小平衡精确度和可靠性是选θ得到的区间择合适置信水平的关键θ区间估计克服了点估计的不确定性,提供了参数可能取值的范围及其可靠程度置信区间的宽度反映了估计的精确度,置信水平反映了估计的可靠性理解置信区间的确切含义很重要它不是说参数落在特定区间内的概率为,而是说用这种方法构造的区间有的概率包含θ1-α1-α×100%θ在实际应用中,区间估计比点估计提供了更多信息,特别是在样本量有限的情况下通过置信区间,我们不仅能估计参数的可能值,还能评估这一估计的不确定性正态总体均值的区间估计总体方差已知总体方差未知样本容量确定当总体方差已知时,正态总体的当总体方差未知时,正态总体的为使均值的置信区间长度不超过,所需σ²Nμ,σ²σ²Nμ,σ²μ2d均值的置信区间为均值的置信区间为的最小样本容量为μ1-αμ1-αn(方差已知)或[X̄-z_α/2·σ/√n,X̄+z_α/2·σ/√n][X̄-t_α/2n-1·S/√n,X̄+t_α/2n-n≥z_α/2·σ/d²n≥(方差未知,需迭代求1·S/√n]t_α/2n-1·S/d²其中是标准正态分布的上分位z_α/2α/2解)数,即其中是自由度为的分布的PZz_α/2=α/2t_α/2n-1n-1t上分位数,是样本标准差样本容量的确定需要权衡成本和精度要求α/2S例如,置信区间对应,95%z_
0.025=
1.96置信区间对应这一区间基于统计量99%z_
0.005=
2.576t X̄-μ/S/√n~tn-1这一区间基于标准化统计量当样本容量较大(通常)时,分布X̄-n n30t近似于标准正态分布,此时可以用μ/σ/√n~N0,1z_α/2代替t_α/2n-1正态总体均值的区间估计是统计推断中最基本、最常用的方法之一在实际应用中,总体方差通常是未知的,因此使用基于分布的置信区间更为常t见随着样本容量的增加,置信区间的宽度会减小,估计精度会提高正态总体方差的区间估计单个正态总体两个正态总体应用对于正态总体,方差的置信对于两个独立的正态总体和方差的区间估计在质量控制、生产过程Nμ,σ²σ²1-αNμ₁,σ₁²区间为,方差比的置信区稳定性评估、风险管理等领域有重要应Nμ₂,σ₂²σ₁²/σ₂²1-α间为用[n-1S²/χ²_α/2n-1,n-1S²/χ²_1-质量控制评估产品质量特性的变异α/2n-1][S₁²/S₂²·1/F_α/2n₁-1,n₂-1,
1.程度S₁²/S₂²·1/F_1-α/2n₁-1,n₂-1]其中和分别χ²_α/2n-1χ²_1-α/2n-1是自由度为的分布的上和上其中和金融风险估计投资组合的风险水平n-1χ²α/21-F_α/2n₁-1,n₂-1F_1-α/2n₁-
2.分位数分别是自由度为的分α/21,n₂-1n₁-1,n₂-1F试验设计比较不同处理方法的稳定
3.布的上和上分位数α/21-α/2这一区间基于统计量性n-1S²/σ²~χ²n-1这一区间基于统计量方差的区间估计比均值的区间估计更容测量系统分析评估测量过程的精密
4.S₁²/σ₁²/S₂²/σ₂²~Fn₁-1,n₂-1易受到总体分布偏离正态的影响度方差比的置信区间可用于比较两个总体的波动程度,是方差齐性检验的基础正态总体方差的区间估计对于评估随机变量的波动性和稳定性至关重要与均值的区间估计相比,方差的区间估计通常更复杂,区间也往往不对称在实际应用中,要注意分布和分布的分位数查找,可使用统计表格或统计软件χ²F第八章假设检验提出假设建立原假设和备择假设H₀H₁选择检验统计量构造能反映假设真伪的统计量确定显著性水平设定犯第一类错误的最大概率α确定拒绝域当检验统计量落入拒绝域时否定H₀做出决策根据样本数据计算统计量并做出判断假设检验是统计推断的另一个重要组成部分,它提供了一套系统的方法来判断关于总体分布的假设是否合理通过假设检验,我们可以在有限样本的基础上,以一定的置信度对总体特征做出推断和判断本章将系统介绍假设检验的基本思想、基本步骤和常用方法,包括参数检验和非参数检验理解假设检验的原理对于科学研究、质量控制、市场分析等领域的决策至关重要假设检验的基本思想原假设与备择假设决策与错误类型原假设H₀需要否定的命题,通常表示无差异、第一类错误(弃真)当H₀为真时拒绝H₀的概率,无效果或无变化记为α备择假设H₁与原假设相对立的命题,通常表示第二类错误(取伪)当H₀为假时接受H₀的概率,有差异、有效果或有变化记为β例如,为检验新药是否有效,可设H₀μ≤μ₀两类错误无法同时减小,通常固定α在一个较小(新药不优于旧药),H₁μμ₀(新药优于旧值(如
0.05或
0.01),然后通过增加样本量来减药)小β显著性水平显著性水平是预先设定的犯第一类错误的最大概率α常用的显著性水平有
0.10(10%)、
0.05(5%)、
0.01(1%)显著性水平越小,拒绝原假设的标准越严格,需要更强的证据才能否定原假设p值是基于样本数据计算的,表示在原假设为真的条件下,观测到当前或更极端结果的概率若p值小于显著性水平α,则拒绝原假设假设检验的基本思想是通过反证法来检验假设的合理性我们首先假设一个保守的立场(原假设),然后看样本证据是否强烈到足以反驳这一立场这种方法类似于法庭上的无罪推定原则,要求有足够的证据才能判定被告有罪正态总体均值的检验单侧检验双侧检验检验统计量右侧检验方差已知时H₀:μ≤μ₀vs H₁:μμ₀H₀:μ=μ₀vs H₁:μ≠μ₀Z=X̄-μ₀/σ/√n~N0,1左侧检验双侧检验适用于我们关心参数是否等于某方差未知时H₀:μ≥μ₀vs H₁:μμ₀T=X̄-μ₀/S/√n~tn-1个特定值的情况,例如测试产品是否符合单侧检验适用于我们关心参数是否大于两总体均值比较(方差已知)Z=X̄-Ȳ标准规格(或小于)某个特定值的情况,例如测试-μ₁-μ₂₀/√σ₁²/n₁+σ₂²/n₂~N0,1新药是否优于标准治疗在显著性水平下,双侧检验的拒绝域为α两总体均值比较(方差未知但相等)T=或{|Z|z_α/2}{|T|t_α/2n-1}在显著性水平下,右侧检验的拒绝域为αX̄-Ȳ-μ₁-μ₂₀/S_p√1/n₁+1/n₂~或,左侧检验的拒,其中是合并方差{Zz_α}{Tt_αn-1}tn₁+n₂-2S_p²绝域为或{Z-z_α}{T-t_αn-1}正态总体均值的检验是统计推断中最基础、应用最广泛的方法之一根据问题的性质和先验信息,我们需要选择合适的检验类型(单侧或双侧)和合适的检验统计量(基于或)在实际应用中,方差通常是未知的,因此基于分布的检验更为常用Z Tt正态总体方差的检验χ²检验F检验用于检验单个正态总体的方差用于比较两个正态总体的方差H₀:σ²=σ₀²vs H₁:σ²≠σ₀²(或σ²σ₀²或σ²σ₀²)H₀:σ₁²=σ₂²vs H₁:σ₁²≠σ₂²(或σ₁²σ₂²或σ₁²σ₂²)检验统计量χ²=n-1S²/σ₀²~χ²n-1检验统计量F=S₁²/S₂²~Fn₁-1,n₂-1,其中S₁²≥S₂²在显著性水平α下,双侧检验的拒绝域为{χ²χ²_1-α/2n-1}∪{χ²χ²_α/2n-1}在显著性水平α下,双侧检验的拒绝域为{FF_1-α/2n₁-1,n₂-1}∪{FF_α/2n₁-1,n₂-1}方差检验对总体分布的正态性要求比均值检验更严格,当总体分布偏离正态时,检验结果可能不可靠F检验常用于方差分析和回归分析中检验模型的显著性应用方差检验在质量控制、实验设计和数据预处理中有重要应用
1.检验生产过程的稳定性
2.评估测量系统的精密度
3.比较不同方法或条件下的波动性
4.在两样本t检验前检验方差是否相等
5.评估方差组分在总变异中的贡献正态总体方差的检验对于评估数据的离散程度和稳定性至关重要与均值检验相比,方差检验更容易受到总体分布形状的影响在实际应用中,我们常常需要先检验数据是否满足正态性假设,再进行方差检验样本容量的选择1-βn检验力样本容量公式检验力是当备择假设为真时正确拒绝原假设的概率,等于对于正态总体均值的检验,所需的最小样本容量n可根据1-β,其中β是第二类错误的概率显著性水平α、检验力1-β和效应量δ计算δ效应量效应量衡量待检验参数与原假设值之间的差距,如δ=μ-μ₀/σ,越大的效应量需要越小的样本量样本容量的选择是假设检验设计中的关键步骤,它直接影响检验的精确度和可靠性样本量过小会导致检验力不足,难以发现真实的效应;样本量过大则会浪费资源,并可能使检验对微小的、实际无意义的效应过度敏感在确定样本容量时,我们需要权衡四个因素显著性水平α、检验力1-β、效应量δ和样本量n通常的做法是预先设定前三个因素,然后计算所需的样本量其中,显著性水平α通常设为
0.05或
0.01,检验力1-β通常设为
0.8或
0.9,效应量δ则根据实际问题的背景和先验知识来确定对于均值检验,单侧检验的样本量公式为n=z_α+z_β²/δ²,双侧检验的样本量公式为n=z_α/2+z_β²/δ²,其中δ=μ-μ₀/σ是标准化效应量非参数检验拟合优度检验检验观测数据是否符合某种理论分布独立性检验检验两个分类变量是否相互独立假设建立设为数据遵循理论分布或变量相互独立H₀检验统计量χ²χ²=∑Oᵢ-Eᵢ²/Eᵢ,其中Oᵢ是观测频数,Eᵢ是期望频数非参数检验不对总体分布做出严格假设,适用于总体分布未知或偏离正态分布的情况拟合优度检验用于判断样本数据是否来自某个特定的分布,如正态分布、均匀分布或泊松分布等检验的步骤包括建立原假设和备择假设,计算观测频数和期望频数,计算统计量,并与临界值比较来做出决策χ²独立性检验用于判断两个分类变量是否相互独立,常用于分析列联表数据例如,检验性别与政治立场是否相关,或者教育水平与收入是否相关检验统计量同样是,其χ²自由度为,其中和分别是行数和列数当值超过临界值时,我们有理由认为两个变量不独立,即存在关联r-1c-1r cχ²复习要点总结概率论基础掌握随机事件、概率定义与性质、条件概率、全概率公式、贝叶斯公式、独立性等核心概念,这是理解后续内容的基石随机变量与分布熟悉离散型和连续型随机变量的定义与区别,理解分布函数、概率质量函数和概率密度函数的含义和性质,掌握常见分布(如二项分布、泊松分布、正态分布)的特征和应用场景数字特征深入理解期望、方差、协方差和相关系数的定义、计算方法和性质,掌握矩的概念和切比雪夫不等式的应用极限定理理解大数定律和中心极限定理的内涵和条件,掌握它们在实际问题中的应用,特别是二项分布和泊松分布的正态近似统计推断掌握参数估计(点估计和区间估计)和假设检验的基本方法和原理,了解常用统计量的抽样分布(如t分布、χ²分布、F分布),能够解决实际问题中的统计推断任务概率论与数理统计是一门既有严密理论体系,又有广泛应用背景的学科复习时应注重概念的理解和方法的应用,既要掌握基本定义和定理,又要能够灵活运用这些工具解决实际问题特别要注意各部分知识之间的联系,如随机变量分布与数字特征的关系、大数定律与中心极限定理的联系、统计推断中的参数估计和假设检验的关系等结语与学习建议概率论与数理统计是现代科学技术中不可或缺的基础工具,它们在人工智能、大数据分析、金融工程、医学研究等领域都有着广泛应用通过本课程的学习,你已经掌握了概率思维的基本框架和统计分析的基本方法,这将为你未来的学习和工作奠定坚实基础对于进一步学习,建议采取理论结合实践的方法一方面深入理解基本概念和定理,另一方面通过实际问题的解决来巩固和深化理解可以尝试使用R、Python等统计软件进行数据分析,将理论知识应用到实际数据集上此外,阅读相关学科(如机器学习、时间序列分析、贝叶斯统计等)的入门教材,可以拓展视野,看到概率统计在不同领域的应用最后,记住概率思维不仅是一种数学工具,更是一种面对不确定性的思考方式在信息爆炸的时代,培养概率思维对于理性决策和批判性思考至关重要希望你能够将所学知识应用到实际问题中,不断提升自己的分析能力和决策水平。
个人认证
优秀文档
获得点赞 0