还剩43页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
概率与统计(长春版)课PPT件本课件适用于长春版教材,涵盖概率论基础知识与统计学应用课程内容从概率的基本概念开始,循序渐进地介绍随机变量、概率分布、统计分析等核心知识点通过理论讲解与实际案例相结合的方式,帮助学生建立概率统计思维,培养数据分析能力课程将理论与实践紧密结合,通过丰富的例题和生活实例,让抽象的数学概念变得生动具体学生将学会运用概率统计知识解决实际问题,为后续的高等数学学习奠定坚实基础课程导入生活中的概率现象科学研究的基石从天气预报的降雨概率到医疗在物理、生物、经济等各个学检测的准确率,概率统计无处科领域,概率统计都是进行数不在,影响着我们的日常决策据分析和规律发现的重要工具课程结构安排本课程分为概率基础、随机变量、统计分析三大模块,循序渐进地构建完整的知识体系概率的基本概念随机现象与确定性现象基本术语定义确定性现象具有明确的因果关系,结果可以准确预测例如,在随机试验是指在相同条件下可以重复进行,且结果具有不确定性标准大气压下,纯水在摄氏度时一定会沸腾而随机现象的的试验样本空间是随机试验所有可能结果的集合,用表示100Ω结果具有不确定性,即使在相同条件下重复进行,结果也可能不事件是样本空间的子集,表示我们关心的某种结果或结果的组同合抛硬币是典型的随机现象,每次抛掷的结果都无法准确预测,但例如,掷一枚骰子的样本空间为,掷出偶数就{1,2,3,4,5,6}通过大量重复试验,我们可以发现其中的规律性是一个事件,包含结果{2,4,6}事件的分类与关系必然事件与不可能事件互斥事件对立事件必然事件是在随机试验中一定会发生两个事件不能同时发生,称为互斥事两个事件既互斥又对立,即其中一个的事件,其概率为不可能事件是在件例如,掷硬币时正面朝上和反不发生则另一个必然发生,称为对立1随机试验中绝对不会发生的事件,其面朝上是互斥事件多个事件两两互事件对立事件是互斥事件的特殊情概率为例如,掷骰子时掷出的点斥,称为两两互斥事件况,例如及格与不及格0数小于是必然事件7事件关系的运算事件的并运算事件与事件的并,记作∪,表示或至少有一个发生的事件A B A B A B在韦恩图中,并运算表示两个圆形区域的合并部分事件的交运算事件与事件的交,记作,表示和同时发生的事件在韦恩A B A∩BA B图中,交运算表示两个圆形区域的重叠部分事件的差运算事件与事件的差,记作,表示发生但不发生的事件韦恩A BA-BA B图直观地展示了这些运算关系,帮助理解抽象概念经典概率模型古典概率定义掷骰子案例当随机试验满足有限性和等可能性时,掷一枚标准骰子,掷出偶数的概率为事件的概率A PA=m/n3/6=1/2摸球模型扑克牌实例袋中有个红球个白球,摸到红球的概从张牌中抽取一张,抽到红桃的概率5352率为为5/813/52=1/4频率与概率频率的定义在次重复试验中,事件发生次,则频率频n Am fnA=m/n率是对概率的估计,随试验次数变化而变化频率稳定性当试验次数趋于无穷大时,频率趋于稳定值,这个稳定n fnA值就是事件的概率这是概率的统计定义基础A PA频率与概率的关系频率是概率的近似值,概率是频率的理论极限在实际应用中,我们常用大样本的频率来估计概率概率的公理化定义非负性公理对于任意事件,都有概率作为衡量事件发生可能A PA≥0性的数值,不能为负数规范性公理必然事件的概率为,即样本空间包含所有可能结1PΩ=1果,其发生是确定的可列可加性公理若事件两两互斥,则∪∪A1,A2,...PA1A
2...=PA1+这是概率论推导的基础PA2+...概率的基本性质基本性质推导由概率三公理可推导出重要性质不可能事件概率为,即;任0P∅=0意事件概率不超过,即;对立事件概率之和为,即10≤PA≤11PA+PA̅=1加法公式应用对于任意两个事件和,有∪当A B PA B=PA+PB-PA∩BA和互斥时,,公式简化为∪BPA∩B=0PA B=PA+PB实际计算技巧在解决实际问题时,灵活运用对立事件的性质往往能简化计算例如,至少有一个事件的概率等于减去一个都没有的概率1条件概率条件概率定义,发生条件下的概率PA|B=PA∩B/PB BA计算步骤先求与同时发生的概率,再除以发生的概率A BB实际应用医疗诊断、质量检验等领域广泛应用条件概率独立性与相互独立事件事件独立性的数学定义独立事件与互斥事件的区别两个事件和相互独立,当且仅当这意互斥事件不能同时发生,而独立事件可以同时发生且互不影响ABPA∩B=PA·PB味着一个事件的发生不会影响另一个事件发生的概率独立性是两个概率都不为的互斥事件一定不独立,因为一个事件的发生0概率论中的重要概念,为许多实际问题的分析提供了理论基础使另一个事件不可能发生例如,连续两次抛硬币,第一次和第二次的结果是独立的;而同多个事件的相互独立要求任意子集的交事件概率等于各事件概率一次抛硬币中,正面朝上和反面朝上是互斥的理解这个的乘积例如,三个事件、、相互独立需要满足四个等区别对正确应用概率理论至关重要ABC式全概率公式事件分解将复杂事件分解为若干个互斥的简单事件全概率公式,其中构成样本空间的分割PA=ΣPA|BiPBi Bi应用案例传染病检测中,考虑不同人群的患病率和检测准确率贝叶斯公式贝叶斯公式表达医疗筛查应用1已知检测结果阳性,计算真正患病的概PBi|A=PA|BiPBi/Σ,用于计算后验概率率,考虑疾病流行率和检测准确度PA|BjPBj信息更新决策支持贝叶斯思维强调随着新证据的出现不断根据新信息更新先验判断,为科学决策修正我们的认知提供量化依据古典实际问题1/24/52抽签公平性扑克牌概率无论抽签顺序如何,每人中签概率相从标准牌组抽取一张的概率A等6/36骰子组合两枚骰子点数和为的概率7随机变量的基本概念随机变量定义离散型随机变量随机变量是定义在样本空间上取值为有限个或可列无限个的的实值函数,用、、等随机变量例如,掷骰子的点X YZ大写字母表示它将随机试验数、某时间段内到达的顾客数的结果映射为实数,使我们能量都是离散型随机变量用数学方法研究随机现象连续型随机变量取值为某个区间内所有实数的随机变量例如,测量误差、人的身高、产品寿命等都可以用连续型随机变量描述随机变量分布律常见离散型分布二项分布二项分布模型次独立重复试验,每次成功概率为,n pX~Bn,p概率公式PX=k=Cn,kp^k1-p^n-k典型应用质量检验、调查统计、生物遗传等领域常见离散型分布泊松分布泊松分布描述单位时间或空间内稀有事件的发生次数,其中是平均发生率概率公式为泊松分布X~PλλPX=k=e^-λλ^k/k!广泛应用于描述电话呼入数、交通事故次数、放射性衰变等现象当很大、很小且适中时,二项分布可近似为泊松分布,这在实n pnp际应用中非常有用常见连续型分布均匀分布均匀分布特征生活实例分析在区间上的均匀分布记作,其概率密度函数在区公交车到站时间在一定范围内的分布、随机数生成器产生的数[a,b]X~Ua,b间内为常数,区间外为这表示随机变量在指定区间内值、某些测量误差的分布都可以用均匀分布来描述在长春市,1/b-a0每个值被取到的可能性相等如果公交车每分钟一班且发车时间准确,乘客随机到站的等10车时间就服从上的均匀分布[0,10]均匀分布的分布函数是分段线性函数,期望值,EX=a+b/2方差均匀分布是最简单的连续型分布,常均匀分布在蒙特卡洛方法和随机模拟中也有重要应用,是产生其VarX=b-a²/12用作理论分析的基础他分布随机数的基础常见连续型分布正态分布钟形曲线特征3σ原则自然现象正态分布约的数据落身高、体重、测量Nμ,σ²68%的概率密度函数呈在内,误差、考试成绩等μ±σ95%钟形,关于均值落在内,许多自然和社会现μμ±2σ对称,标准差决落在象都近似服从正态σ
99.7%μ±3σ定曲线的胖瘦程度内分布中心极限定理大量独立随机变量的和趋向于正态分布,这是正态分布重要性的理论基础标准正态分布标准化变换查表方法实际应用对于,令,则标准正态分布表给出了在质量控制中,产品尺寸服从正态分X~Nμ,σ²Z=X-μ/σΦz=PZ≤标准化变换将任意正态分的值利用对称性,可以计算布通过标准化,可以计算合格率、Z~N0,1z PZ布转化为标准正态分布,便于统一计,确定控制限等在教育测量中,标准z=1-Φz Pz₁Z≤z₂=算和查表这是处理正态分布问题的熟练掌握查表技巧是分数就是基于标准正态分布的概念,Φz₂-Φz₁基本技巧解决正态分布问题的关键便于不同考试成绩的比较随机变量的数学期望期望值定义数学期望是随机变量的平均值,反映分布的中心位置对EX于离散型EX=Σx·PX=x线性性质,这个性质在实际计算中非常有EaX+bY=aEX+bEY用,简化了复杂问题的求解经典问题彩票期望收益、保险公司期望赔付、投资组合期望回报等都是期望值的典型应用随机变量的方差方差定义计算公式,衡量随机变量取,这是计算方差VarX=E[X-EX²]VarX=EX²-[EX]²值的离散程度2的简便公式方差性质标准差,常数的加减不影,与原随机变量同量纲,更直VaraX+b=a²VarXσ=√VarX响方差,但乘除会改变方差观地反映离散程度协方差与相关系数皮尔逊相关系数,范围ρ=CovX,Y/[√VarX√VarY][-1,1]相关性强度接近表示线性相关性强,接近表示线性无关|ρ|10协方差概念3,衡量两变量联合变化趋势CovX,Y=E[X-EXY-EY]多维随机变量与联合分布联合分布律二维随机变量的联合分布律描述两个变量同时取特定值的概率所有概率之和等于,且每个概率非负X,Y PX=xi,Y=yj1边缘分布获取从联合分布可以得到边缘分布,边缘分布反映单个变量的概率特征PX=xi=Σj PX=xi,Y=yj PY=yj=Σi PX=xi,Y=yj分布表表示通常用二维表格表示联合分布,行表示的取值,列表示的取值,表格中的数值为对应的联合概率,便于计算和理解X Y条件分布与独立性条件分布定义在已知的条件下,的条件分布律为Y=yj XPX=xi|Y=yj=条件分布反映在特定条件下随机变量的概率规PX=xi,Y=yj/PY=yj律,是研究变量间关系的重要工具独立性判别标准随机变量和相互独立当且仅当对所有可能的取值都有X Y这等价于条件分布等于边缘分PX=xi,Y=yj=PX=xiPY=yj布,即一个变量的分布不受另一个变量取值的影响实际应用意义独立性检验在质量控制、市场调研、医学研究等领域有广泛应用例如,检验性别与专业选择是否独立,或者药物治疗效果与患者年龄是否独立,都需要运用独立性理论大数定律切比雪夫大数定律生活实例与收敛意义设随机变量序列相互独立,且方差一致有界,则样本抛硬币实验中,随着次数增加,正面出现的频率越来越接近X1,X2,...均值依概率收敛到期望值的均值这个定律为用频率估计概率提保险公司根据大数定律,通过大量保单分散风险长春市
0.5供了理论依据,说明了大样本的重要性公交系统通过大量客流数据预测平均候车时间,体现了大数定律的实用价值数学表达为当时,n→∞P|X1+...+Xn/n-这意味着随着样本量增大,样收敛性质表明,虽然个别观测值可能偏离期望值很远,但大量观EX1+...+EXn/n|ε→1本均值越来越接近总体均值测值的平均结果是稳定可预测的,这是统计学的根本基础中心极限定理中心极限定理叙述测量误差应用设是独立同分布的随机变量序X1,X2,...1列,均值为,方差为,则当足够大多次测量的平均值误差服从正态分布,μσ²n时,标准化的样本均值近似服从标准正为精密测量和误差分析提供理论基础态分布质量控制应用抽样分布应用生产过程中产品质量指标的平均值分无论原总体分布如何,大样本均值的分布,为制定控制图和质量标准提供科学布都趋于正态,这是统计推断的重要依依据据概率统计的基本流程数据收集阶段制定调查方案,确定调查对象和抽样方法数据收集的质量直接影响后续分析结果的可靠性需要注意避免偏差和提高响应率数据整理阶段对原始数据进行清洗、分类、编码等预处理工作建立数据表格,检查数据完整性和一致性,为分析做好准备数据分析阶段运用适当的统计方法进行描述性分析和推断性分析计算统计量,进行假设检验,建立模型,得出科学结论结果报告阶段撰写分析报告,用图表和文字清晰地展示分析结果为决策者提供科学依据和建议数据的特征分析2频数分布表制作频率分布直方图绘制分布形状判断将数据按照一定的组距进行分组,以组距为底边,频率密度为高度绘通过直方图可以判断数据分布是否统计各组的频数和频率分组数一制矩形图直方图能直观显示数据对称、是否存在偏斜、是否为多峰般取组,组距要相等,确保每的分布形状,帮助识别分布类型和分布等特征,为选择合适的统计方5-12组都有适当的观测值数量异常值法提供依据数据的集中趋势算术平均数中位数众数所有数据之和除以数据将数据从小到大排列后出现次数最多的数值,个数,受极端值影响较位于中间位置的数值,适用于分类数据和离散大,适用于对称分布的不受极端值影响,适用数据,可能不存在或有数据于偏斜分布多个实例分析长春市居民收入分析中,平均数反映总体水平,中位数反映中等水平,众数反映普遍水平数据的离散程度箱线图与异常值识别箱型图结构箱子表示四分位距,中线为中位数,须线延伸到正常数据范围异常值判别2超出或的数据点被标记为异常值Q1-
1.5×IQR Q3+
1.5×IQR考试成绩分析通过箱线图可以直观看出成绩分布、识别特殊学生,指导教学改进数据的分布与拟合常见的数据分布类型包括正态分布、指数分布、均匀分布、卡方分布等,每种分布都有其特定的应用场景拟合优度检验帮助我们判断样本数据是否符合某种理论分布通过图、图、检验等方法可以评估拟合效果选择合适的分布模Q-Q P-P Kolmogorov-Smirnov型对后续的统计推断和预测具有重要意义回归分析入门散点图分析绘制自变量与因变量的散点图,直观判断两变量间的线性关系强度回归方程建立的线性关系,其中为截距,为斜率y=a+bx ab最小二乘法通过最小化残差平方和来确定最优的回归系数预测应用利用回归方程对新的自变量值进行因变量预测回归方程与预测回归系数计算利用最小二乘法计算回归系数,b=Σxi-x̄yi-ȳ/Σxi-x̄²a=ȳ-这些公式确保了回归直线与数据点的总体偏差最小,提供了最佳的bx̄线性拟合效果身高体重预测实例收集长春市成年人身高体重数据,建立回归方程假设得到体重=-身高的关系,可以预测身高的人体重约为100+
0.9×170cm53kg回归分析在医学、体育等领域有广泛应用预测精度评估通过计算决定系数、残差分析等方法评估回归模型的拟合优R²度越接近表示模型解释能力越强,残差应该呈随机分布且方R²1差齐性,这样才能保证预测的可靠性相关分析假设检验基础检验结论根据值与的比较做出统计决策Pα计算检验统计量根据样本数据计算相应的检验统计量值确定显著性水平通常选择或作为显著性水平α=
0.05α=
0.01建立假设4提出原假设和备择假设,明确检验目标H₀H₁常见统计检验方法检验应用检验应用Z t当总体方差已知且样本量较大时使用检验检验统计量当总体方差未知且样本量较小时使用检验检验统计量n≥30Z t t=x̄-服从标准正态分布检验常用于大样本均值服从自由度为的分布检验包括单样本检验、Z=x̄-μ₀/σ/√n Zμ₀/s/√n n-1t tt检验、比例检验等场合配对检验和两独立样本检验tt例如,检验长春市居民平均收入是否达到某个标准,如果样本量在教育研究中,比较两种教学方法的效果,通常使用两独立样本足够大且总体标准差已知,就可以使用检验进行判断检验配对检验则适用于比较同一组学生使用不同方法前后的Z tt成绩变化卡方检验介绍独立性检验拟合优度检验检验两个分类变量是否相互独检验样本数据是否符合某种理立例如,性别与专业选择是论分布通过比较观察频数与否独立,吸烟与肺癌是否相关期望频数的差异,判断假设分等卡方统计量观察布的合理性在质量控制中常χ²=Σ频数期望频数期望频数用于检验产品缺陷率分布-²/频数资料分析卡方检验特别适用于计数资料的分析,如调查问卷中的选择题结果、医学试验中的有效无效人数、市场调研中的偏好分布等实际问题值与显著性水平P值含义显著性水平设置P在原假设为真的条件下,观察到当前样表示错误拒绝真原假设的概率α=
0.0512本结果或更极端结果的概率不超过5%结果解释判断标准4值越小,证据反对原假设越强,但不值小于时拒绝原假设,认为结果在统P Pα能说明实际意义的大小计上显著判别分析简介线性判别分析通过线性组合变量建立判别函数,将样本正确分类到不同组别中,常用于信用评级、医学诊断等领域最小距离判别计算待判别样本到各组重心的距离,将其归入距离最近的组别,方法简单直观易于理解3落点判别案例根据学生的数学、语文成绩预测其适合理科还是文科,通过历史数据建立判别模型进行预测统计分析常见误区因果性与相关性混淆样本偏差问题相关不等于因果两个变量高度非随机抽样可能导致样本不具代相关并不意味着一个是另一个的表性,影响结论的普适性网络原因例如,冰淇淋销量与溺水调查、自愿响应样本等都可能存人数正相关,但不能说冰淇淋导在选择偏差,需要谨慎解释结致溺水,真正的原因是季节因果素数据伪相关在大数据时代,通过数据挖掘可能发现很多表面上的相关关系,但其中许多是偶然的巧合需要结合专业知识和实际意义来判断相关性的真实性软件工具与实际应用Excel基础统计Excel提供了丰富的统计函数,如AVERAGE、STDEV、CORREL等数据透视表功能强大,适合初学者进行基本的数据分析和图表制作内置的分析工具库包含回归分析、方差分析等高级功能SPSS专业分析SPSS是专业的统计分析软件,界面友好,功能全面支持各种高级统计方法,如因子分析、聚类分析、时间序列分析等输出结果详细规范,是科研和商业分析的重要工具实践演练通过实际数据集练习描述性统计、假设检验、回归分析等操作从数据导入、清洗到分析、可视化的完整流程训练,培养数据分析的实际操作能力和结果解释技能生活中的概率思想彩票概率计算保险风险评估天气预报概率双色球一等奖中奖保险公司通过大数降雨概率表示70%概率约为定律分散风险,个在相似气象条件,期人通过购买保险转下,次中约有1/17,721,088100望收益为负值,理移小概率大损失事次会下雨,帮助70性分析彩票投资的件的风险合理安排出行计划风险收益比长春本地案例分析长春市交通拥堵概率、冬季供暖需求预测、高考录取概率等与市民生活密切相关的实例。
个人认证
优秀文档
获得点赞 0