还剩40页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
概率论与数理统计概率论与数理统计是高等院校理工科专业的重要基础课程,为学生提供处理随机现象和不确定性问题的理论工具本课程将带领大家探索随机世界的规律,掌握数据分析的科学方法概率论与数理统计课程介绍课程目标与学习重点课程适用专业培养学生运用概率统计方本课程适用于数学、统计法分析和解决实际问题的学、物理学、工程学、经能力,掌握随机现象的数济学、生物学等理工科及学描述和统计推断方法,相关交叉学科专业,是这为科学研究和工程实践提些专业学生的必修基础课供理论支撑程知识结构与应用领域第一章随机事件与概率概述1世纪起源17概率论起源于赌博问题,法国数学家帕斯卡和费马通过通信讨论分赌注问题,奠定了概率论的基础2世纪发展18-19拉普拉斯建立了古典概率理论,高斯发现正态分布,概率论逐渐成为独立的数学分支3世纪公理化20柯尔莫哥洛夫建立了概率论的公理化体系,使概率论成为严格的数学理论,为现代概率论奠定基础随机试验与样本空间随机性与确定性对比样本空间的定义确定性现象具有可预测性,如自由落体运动遵循物理定律样本空间是随机试验所有可能结果的集合,用Ω表示抛硬而随机现象的结果无法事先确定,但在大量重复试验中呈现币的样本空间为{正面,反面},掷骰子的样本空间为统计规律性{1,2,3,4,5,6}随机试验需要满足三个条件可重复性、结果的多样性、结样本点是样本空间中的每一个元素,代表试验的一个可能结果的不确定性抛硬币、掷骰子是典型的随机试验例子果样本空间可以是有限、可数无限或不可数无限的事件与事件的关系复合事件1由多个基本事件组成的事件基本事件2不能再分解的最简单事件样本点3试验的每一个可能结果事件是样本空间的子集,表示我们关心的试验结果基本事件只包含一个样本点,是最简单的随机事件复合事件由多个基本事件组成,如掷骰子得到偶数点这一事件包含{2,4,6}三个基本事件事件间的关系包括包含关系(A⊆B)、相等关系(A=B)、互斥关系(A∩B=∅)和对立关系(A∪B=Ω且A∩B=∅)理解这些关系是概率计算的基础事件运算与逻辑法则交运算并运算差运算事件A与B同时事件A或B至少事件A发生但B发生,记作有一个发生,不发生,记作A∩B具有交记作A∪B满A-B差运算换律、结合律足交换律、结不满足交换和幂等律等性合律和吸收律质律补运算事件A不发生,记作Ā补运算满足对合律和德摩根定律事件图示与韦恩图交集运算并集运算两个圆的重叠部分两个圆覆盖的所有区域12•A∩B表示A和B同时发生•A∪B表示A或B发生•空集表示互斥事件•全集表示必然事件差集运算补集运算一个圆减去重叠部分圆外的区域表示补集43•A-B表示A发生B不发生•Ā表示A不发生•等价于A∩Ā•德摩根定律的直观表示概率的公理化定义公理化定义几何概率柯尔莫哥洛夫公理体系非负性PA≥0,古典概率基于几何测度,适用于连续型随机现象规范性PΩ=1,可列可加性这三个公理基于等可能性假设,适用于有限等可能的概率等于有利区域的测度除以总区域的测构成了现代概率论的严格基础样本空间概率等于有利结果数除以总结度,如在单位圆内随机取点落在某区域的果数,如掷骰子得到偶数的概率为概率3/6=1/2条件概率与全概率公式条件概率定义在事件B发生的条件下,事件A发生的概率PA|B=PA∩B/PB,其中PB0乘法公式由条件概率定义可得PA∩B=PA|BPB=PB|APA,这是概率计算的重要工具全概率公式设B₁,B₂,...,B构成样本空间的一个划分,则PA=∑PA|BᵢPBᵢ,用ₙ于复杂概率的计算实例应用产品质量检验问题已知不同生产线的次品率,求总次品率通过全概率公式可以综合各种情况得出结果贝叶斯公式及其应用贝叶斯定理推导医学检验实例由条件概率和全概率公式可某疾病发病率为
0.1%,检验得PBᵢ|A=PA|BᵢPB准确率为99%若检验结果为ᵢ/PA这个公式允许我们根阳性,患病概率约为9%这据新信息更新原有的概率判个反直觉的结果说明了贝叶斯断推理的重要性现代应用贝叶斯方法广泛应用于机器学习、人工智能、数据挖掘等领域,是处理不确定性信息的强大工具随机变量引入与定义随机变量概念1将随机试验的结果用数值表示的函数离散型随机变量2取值为有限个或可数无限个的随机变量连续型随机变量3取值充满某个区间的随机变量随机变量是定义在样本空间上的实值函数,用X、Y、Z等大写字母表示它将抽象的随机现象转化为具体的数值,使我们可以用数学工具进行分析例如,掷骰子试验中,我们可以定义随机变量X为骰子点数,则X的取值为{1,2,3,4,5,6}抛硬币试验中,可以定义X为正面次数,这样就将定性的结果转化为定量描述随机变量的分布律与分布函数分布律定义分布函数性质离散型随机变量X取各个可能值的概1Fx=PX≤x是单调非递减、右连续函率PX=xᵢ=pᵢ,满足非负性和归一性2数,满足F-∞=0,F+∞=1条件常见分布举例分布函数应用4二项分布、泊松分布、正态分布等都通过分布函数可以求任意区间的概3有各自特定的分布律或概率密度函数率Pa形式离散随机变量典型分布
0.510伯努利分布参数二项分布试验次数单次试验成功概率p,失败概率1-p n次独立重复试验的成功次数分布
3.14泊松分布期望当λ=
3.14时的泊松分布参数伯努利分布是最简单的离散分布,只有两个可能结果二项分布Bn,p描述n次独立伯努利试验中成功的次数,其概率质量函数为PX=k=Cn,kpᵏ1-pⁿ⁻ᵏ泊松分布Poλ常用于描述稀有事件的发生次数,如放射性粒子衰变、电话呼叫到达等当二项分布的n很大、p很小且np适中时,可用泊松分布近似连续随机变量典型分布均匀分布Ua,b在区间[a,b]上等概率分布,概率密度函数为常数1/b-a指数分布Expλ常用于描述等待时间,具有无记忆性质,概率密度函数为λe^-λx正态分布Nμ,σ²是最重要的连续分布,具有钟形曲线特征其概率密度函数关于均值μ对称,标准差σ决定分布的分散程度标准正态分布N0,1是正态分布的标准形式多维随机变量与分布离散型联合分布二维离散随机变量X,Y的联合分布律为PX=xᵢ,Y=yⱼ=pᵢⱼ,满足归一化条件∑∑pᵢⱼ=1联合分布完全描述了两个变量的随机行为连续型联合密度连续型随机变量的联合概率密度函数fx,y满足非负性和积分为1的条件通过二重积分可以求得任意区域的概率分布函数性质二维分布函数Fx,y=PX≤x,Y≤y是单调非递减函数,在各变量的正无穷处取值为1,负无穷处取值为0边缘分布与条件分布边缘分布求解对于离散型PX=xᵢ=∑ⱼPX=xᵢ,Y=yⱼ对于连续型fₓx=∫fx,ydy条件分布定义在Y=y条件下X的分布fₓ|ᵧx|y=fx,y/fᵧy条件分布反映了一个变量对另一个变量的依赖关系实例计算从联合分布表中计算边缘概率验证边缘分布的归一化性质随机变量的独立性12独立性定义密度函数判定随机变量X和Y独立当且仅对于连续型随机变量,X和当对所有x,y,有Y独立等价于fx,y=fₓxfᵧFx,y=FₓxFᵧy,即联合分y,即联合密度函数可以布函数等于边缘分布函数分解为边缘密度函数的乘的乘积积3独立性检验实际问题中通过散点图、相关系数等方法初步判断独立性独立的随机变量在统计上不存在线性相关关系随机变量函数的分布变换类型原分布新分布应用实例线性变换标准化变换X~Nμ,σ²Y=aX+b~Naμ+b,a²σ²单调递增fₓx fᵧ对数变换y=fₓg⁻¹y|g⁻¹y|卷积公式独立X,Y Z=X+Y的密度信号处理随机变量函数的分布是概率论的重要内容对于离散型随机变量,需要找出新变量每个取值对应的原变量取值,然后计算相应概率连续型随机变量的变换更为复杂,需要使用雅可比行列式进行坐标变换当变换函数单调时,可以直接使用变换公式对于非单调函数,需要将定义域分段处理随机变量的数字特征数学期望线性性质独立变量乘积E[X]表示随机变量的期望运算具有线性若X和Y独立,则平均值或重心,反映性E[XY]=E[X]E[Y]但一分布的中心位置对E[aX+bY]=aE[X]+bE般情况下,于离散型E[X]=∑xᵢp[Y],这个性质在实际E[XY]≠E[X]E[Y],除非,连续型计算中极为重要,简变量独立或其中一个ᵢE[X]=∫xfxdx化了复杂随机变量的为常数期望计算方差与标准差方差的定义与意义方差的性质方差VarX=E[X-E[X]²]度量随机变量取值的分散程度计算方差具有以下重要性质VaraX+b=a²VarX,常数项不影公式为VarX=E[X²]-E[X]²,这是计算方差的常用公式响方差;对于独立变量,VarX+Y=VarX+VarY标准差σ=√VarX与原变量具有相同的量纲,更直观地反映零方差的随机变量实际上是常数,即VarX=0当且仅当数据的离散程度方差越大,数据越分散;方差越小,数据PX=c=1这说明确定性变量可以看作方差为零的特殊随机越集中变量高阶矩与协方差相关系数1标准化的协方差ρ=CovX,Y/σₓσᵧ协方差2CovX,Y=E[X-E[X]Y-E[Y]]二阶中心矩3E[X-E[X]²]即为方差k阶原点矩4E[Xᵏ]描述分布的形状特征k阶原点矩E[Xᵏ]和k阶中心矩E[X-E[X]ᵏ]是描述分布形状的重要特征三阶中心矩反映分布的偏度,四阶中心矩反映分布的峰度协方差CovX,Y度量两个随机变量的线性相关程度,正值表示正相关,负值表示负相关,零值表示不相关相关系数ρ是标准化的协方差,取值范围为[-1,1]随机变量数字特征综合实例期望计算示例设随机变量X服从二项分布B10,
0.3,则E[X]=np=10×
0.3=3对于连续型随机变量Y~U0,2,E[Y]=0+2/2=1方差计算演示二项分布的方差VarX=np1-p=10×
0.3×
0.7=
2.1均匀分布的方差VarY=b-a²/12=2-0²/12=1/3协方差混合运用若X和Y独立,则CovX,Y=0,VarX+Y=VarX+VarY对于线性组合Z=2X+3Y,VarZ=4VarX+9VarY常用分布的数字特征分布类型参数期望E[X]方差VarX二项分布Bn,p n,p npnp1-p泊松分布Poλλλλ正态分布Nμ,σ²μ,σ²μσ²指数分布Expλλ1/λ1/λ²这些常用分布的数字特征在实际应用中具有明确的物理意义二项分布常用于质量控制中,期望值np表示平均合格品数量泊松分布在通信系统中描述信号到达率,参数λ同时是期望和方差正态分布是最重要的连续分布,参数μ直接就是期望值,σ²是方差指数分布常用于可靠性工程,1/λ表示平均无故障时间记住这些特征值有助于快速分析实际问题大数定律概述切比雪夫不等式对于任意随机变量X,P|X-E[X]|≥ε≤VarX/ε²这个不等式给出了随机变量偏离期望值的概率上界弱大数定律设X₁,X₂,...,X独立同分布,期望为μ,则样本均值X̄依概率收敛于ₙₙμlim P|X̄-μ|ε=1ₙ伯努利大数定律n次独立试验中事件A发生的频率f A依概率收敛于A的概率p,这为ₙ频率解释概率提供了理论基础实际应用意义大数定律解释了为什么大样本的平均值趋于稳定,这是统计推断和质量控制的理论基础弱大数定律证明与应用定理假设证明思路1设X₁,X₂,...独立同分布,存在有限期望μ和利用切比雪夫不等式P|X̄-ₙ方差σ²2μ|≥ε≤σ²/nε²样本均值性质极限结果4大样本下,样本均值是总体均值的良好估当n→∞时,右边趋于0,故X̄依概率收3ₙ计敛于μ弱大数定律的证明基于切比雪夫不等式,关键在于样本均值的方差随样本量增大而减小具体地,E[X̄]=μ,VarX̄=σ²/n,因此方差随nₙₙ增大而趋于零这个定理在实际中意义重大它说明了为什么我们可以用样本均值估计总体均值,为统计推断提供了理论保证在质量控制、市场调研、科学实验等领域都有广泛应用中心极限定理定理表述实际意义设X₁,X₂,...独立同分布,期望无论原始分布是什么形状,样μ、方差σ²,则标准化的样本本均值的分布在大样本下都近均值√nX̄-μ/σ依分布收敛似正态分布这解释了正态分ₙ于标准正态分布N0,1布在自然界和社会现象中的普遍性应用条件一般情况下,当n≥30时正态近似效果较好对于偏斜分布,可能需要更大的样本量才能获得满意的正态近似极限定理实例经典实例掷骰子试验单个骰子的分布是离散均匀分布,期望
3.5,方差35/12当我们计算n个骰子点数的平均值时,随着n增大,这个平均值的分布逐渐接近正态分布另一个实例是质量控制中的应用即使单个产品的某项指标分布不是正态的,但一批产品的平均指标在样本量足够大时会近似服从正态分布,这为质量控制提供了重要的理论基础数理统计基础概念总体与样本参数与统计量总体是研究对象的全体,包含我们感兴趣的所有个体由于参数是描述总体分布特征的数值,如总体均值μ、方差σ²总体通常很大或无法完全观测,我们需要从总体中抽取样本等,通常是未知的常数统计量是样本的函数,如样本均值进行研究X̄、样本方差S²等样本是从总体中随机选取的部分个体,样本量用n表示样统计推断的目标就是利用统计量来推断总体参数统计量的本应该具有代表性,能够反映总体的主要特征分布称为抽样分布,是进行统计推断的基础抽样方法与统计量1简单随机抽样从总体中随机选取样本,每个个体被选中的概率相等这是最基本的抽样方法,适用于总体相对均匀的情况2分层抽样将总体分成若干层,每层内部进行随机抽样适用于总体内部差异较大但层间差异显著的情况,可以提高估计精度3整群抽样将总体分成若干群,随机选择部分群,对选中的群进行全面调查适用于个体分散、调查成本高的情况4系统抽样按固定间隔从有序总体中抽取样本操作简便,但需要注意总体排列的周期性可能带来的偏差总体分布类型与样本特征X̄S²S样本均值样本方差样本标准差X̄=X₁+X₂+...+X/n,是总体均值μ的无偏估计S²=ΣXᵢ-X̄²/n-1,分母用n-1进行无偏修正S=√S²,度量样本数据的离散程度ₙ样本均值X̄是最重要的统计量,具有无偏性E[X̄]=μ,方差为VarX̄=σ²/n样本方差S²使用n-1作分母是为了保证无偏性,这被称为贝塞尔修正当总体服从正态分布时,样本均值和样本方差具有特殊的分布性质样本均值服从正态分布,n-1S²/σ²服从卡方分布,这些性质是进行统计推断的重要基础样本分布与抽样分布t分布卡方分布F分布当总体方差未知时,n-1S²/σ²服从自由度两个独立卡方变量的X̄-μ/S/√n服从自由为n-1的χ²分布卡方比值服从F分布,常用度为n-1的t分布t分分布常用于方差的推于方差齐性检验和回布比标准正态分布更断和拟合优度检验归分析中的显著性检分散,随自由度增大验趋向正态分布参数估计基本思想点估计1用单个数值估计未知参数区间估计2给出参数可能取值的区间范围估计量评价3无偏性、有效性、一致性参数估计是数理统计的核心内容,目标是根据样本信息推断总体参数点估计给出参数的具体数值,如用样本均值估计总体均值区间估计考虑估计的不确定性,给出参数的可能范围好的估计量应该满足三个性质无偏性E[θ̂]=θ、有效性即方差最小、一致性即大样本下收敛到真值在实际应用中,需要根据具体情况选择合适的估计方法常用估计法矩法与极大似然法矩法估计用样本矩估计总体矩,再由总体矩与参数的关系得到参数估计方法简单直观,计算相对容易极大似然法寻找使样本出现概率最大的参数值通过对数似然函数求导,解似然方程组得到参数估计计算实例对于正态分布,矩法和极大似然法都给出μ̂=X̄,σ²̂=S²(或ΣXᵢ-X̄²/n)的估计结果方法比较极大似然估计通常具有更好的统计性质,如一致性、渐近正态性和渐近有效性,在大样本下表现优异区间估计置信区间定义正态总体均值以概率1-α包含真实参数的随机区1σ已知时X̄±z_{α/2}·σ/√n;σ未知间,α是显著性水平,1-α是置信水平2时X̄±t_{α/2}n-1·S/√n解释与应用方差置信区间495%置信区间意味着重复抽样时,有3利用卡方分布[n-1S²/χ²_{α/2}n-95%的区间包含真实参数值1,n-1S²/χ²_{1-α/2}n-1]参数估计综合例题问题设定某工厂生产的零件长度服从正态分布,从中随机抽取16个样本,样本均值为
50.2mm,样本标准差为
2.1mm,求总体均值的95%置信区间方法选择由于总体方差未知,样本量较小,应使用t分布查表得t_{
0.025}15=
2.131,置信区间计算公式为X̄±t_{α/2}·S/√n计算过程置信区间为
50.2±
2.131×
2.1/√16=
50.2±
1.12,即[
49.08,
51.32]mm这意味着我们有95%的信心认为总体均值在此区间内假设检验基本概念原假设与备择假设双侧与单侧检验原假设H₀是待检验的假双侧检验的备择假设为设,通常表示无差异或H₁:θ≠θ₀,单侧检验为无效应备择假设H₁是原H₁:θθ₀或H₁:θθ₀选择假设的对立面,表示我们依据具体的研究问题和实希望证明的结论际需要确定检验原理假设检验基于小概率事件在一次试验中几乎不可能发生的原理,当样本结果出现的概率很小时,拒绝原假设第一类和第二类错误决策\真实情况H₀为真H₀为假接受H₀正确决策1-α第二类错误β拒绝H₀第一类错误α正确决策1-β第一类错误α是弃真错误,即H₀为真时错误地拒绝它的概率,也称显著性水平第二类错误β是取伪错误,即H₀为假时错误地接受它的概率检验力1-β表示正确拒绝错误原假设的概率,反映检验方法发现真实效应的能力理想情况下希望和都很小,但两者存在矛盾关系,通常固αβ定控制αβ检验统计量及分布z检验t检验拒绝域当总体方差已知或样本量很大时使用z检当总体方差未知且样本量较小时使用t检根据显著性水平α确定拒绝域双侧检验检验统计量z=X̄-μ₀/σ/√n在H₀验检验统计量t=X̄-μ₀/S/√n在H₀验的拒绝域为|t|t_{α/2},单侧检验为下服从标准正态分布N0,1下服从自由度为n-1的t分布tt_α或t-t_α正态总体均值检验方法单样本检验双样本检验检验总体均值是否等于某个特定值μ₀原假设H₀:μ=μ₀,比较两个总体均值是否相等分为独立样本和配对样本两种备择假设H₁:μ≠μ₀(或μμ₀,μμ₀)情况,需要先检验方差齐性检验步骤计算检验统计量t=X̄-μ₀/S/√n,查表得临界独立样本等方差时t=X̄₁-X̄₂/[S_p√1/n₁+1/n₂],其中S_p值,比较统计量与临界值的大小,做出统计决策是合并标准差配对样本用配对差值进行单样本t检验方差检验与比例检验单总体方差检验两总体方差齐性检验总体比例检验检验正态总体方差是否等于σ₀²比较两个正态总体的方差是否相检验总体比例p是否等于p₀大样使用卡方检验χ²=n-1S²/σ₀²在等使用F检验F=S₁²/S₂²在本时使用正态近似z=p̂-H₀下服从χ²n-1分布适用于质H₀:σ₁²=σ₂²下服从Fn₁-1,n₂-1分p₀/√[p₀1-p₀/n],适用于市场量控制中的稳定性检验布调研和质量控制假设检验综合案例1问题背景某制药公司开发新药,声称能降低血压随机选择20名高血压患者服药一个月,测得血压下降的平均值为
8.5mmHg,标准差为
4.2mmHg2假设设定H₀:μ≤0(药物无效或有害),H₁:μ0(药物有效)这是一个单侧检验问题,α=
0.053统计计算检验统计量t=
8.5/
4.2/√20=
9.05临界值t₀.₀₅19=
1.729,由于
9.
051.729,拒绝H₀4结论解读在
0.05的显著性水平下,有充分证据表明新药能有效降低血压但需要注意统计显著不等于临床显著卡方检验与应用拟合优度检验检验样本是否来自特定分布统计量χ²=ΣOᵢ-Eᵢ²/Eᵢ,其中Oᵢ是观测频数,Eᵢ是期望频数独立性检验检验两个分类变量是否独立利用列联表数据,计算卡方统计量,判断变量间是否存在关联关系列联表分析市场调研实例调查性别与购买偏好的关系通过卡方检验判断性别是否影响购买选择。
个人认证
优秀文档
获得点赞 0