还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
概率论与数理统计欢迎来到概率论与数理统计课程本课程将带领您探索随机现象的数学规律,学习如何收集、分析和解释数据,以及如何在不确定性中做出合理的推断和决策我们将从基础的概率理论开始,逐步深入到统计推断的各个方面,帮助您建立扎实的概率统计思维这门课程不仅是数学专业的核心课程,也是工程、经济、管理等多个领域的重要工具让我们一起踏上这段探索随机世界规律的旅程课程概述1课程目标2教材介绍通过本课程的学习,学生将掌主教材《概率论与数理统计》握概率论与数理统计的基本概(高等教育出版社)辅助教念、理论和方法培养学生运材包括《概率论与数理统计习用概率统计思维分析和解决实题集》和《概率统计案例分际问题的能力,为后续专业课析》,这些材料将帮助学生深程学习和科学研究奠定坚实基入理解理论知识并提高应用能础力3考核方式平时成绩()包括课堂表现、作业完成情况和小测验期中考试30%()主要考察概率论部分期末考试()全面考核课程所有20%50%内容,着重考察学生的综合应用能力第一章概率论基础随机现象数学模型1研究对象分析工具2实际应用概率计算43最终目标核心技能概率论基础是整个课程的入门部分,为后续学习奠定基础本章将介绍随机试验、样本空间、事件关系等基本概念,帮助学生建立概率思维的框架我们将学习概率的不同定义方式,以及条件概率、全概率公式和贝叶斯公式等重要工具通过本章学习,学生将能够分析简单的随机现象,计算基本事件的概率,并理解事件之间的逻辑关系这些知识将在金融风险评估、质量控制、医学诊断等多个领域发挥重要作用随机试验与样本空间
1.1随机试验的定义随机试验是指在相同条件下可重复进行的试验,其结果不能事先确定,但其可能结果的全体是已知的典型的随机试验包括抛硬币、掷骰子、从整批产品中抽检等可重复性在相同条件下可以重复进行•随机性结果具有不确定性•可预知性所有可能结果是已知的•样本空间的概念样本空间是随机试验中所有可能结果的集合,通常用符号Ω表示样本空间中的元素称为样本点,代表随机试验的一个可能结果样本空间可以是有限集、可数无限集或不可数无限集•抛一枚硬币Ω={正面,反面}•掷一颗骰子Ω={1,2,3,4,5,6}•测量电阻Ω=[0,+∞事件与事件的关系
1.2事件的定义基本事件关系事件是样本空间的子集,表示随机试验结果的某种特性每个样事件之间存在各种逻辑关系,可以通过集合运算来表达本点就是一个基本事件,不可再分如果随机试验的结果属于事包含关系若⊂,则发生必导致发生•A B A B件,则称事件发生A A并集∪表示事件或至少有一个发生•A B A B例如,在掷骰子试验中,出现偶数点是一个A=={2,4,6}交集表示事件和同时发生•A∩B A B事件样本空间本身称为必然事件,空集称为不可能事件差集表示事件发生但不发生•A-BA B互斥事件若,则与不能同时发生•A∩B=∅A B对立事件,表示不发生的事件•Ā=Ω-A A概率的定义与性质
1.3古典概率古典概率适用于有限样本空间且每个基本事件等可能的情况事件的概率定义为事A PA=件包含的基本事件数样本空间中的基本事件总数A/例如,投掷一颗均匀骰子,事件出现偶数点的概率为古典概率的局限性PA=3/6=1/2在于等可能性假设在实际中难以满足统计概率统计概率是基于大量重复试验的相对频率当试验次数足够大时,事件出现的频率n Af_nA会稳定在某个值附近,这个值就定义为事件的概率A PA统计概率的优点是不需要事先假设等可能性,适用范围更广,但需要大量重复试验,且只能给出概率的近似估计公理化概率公理化概率是由科尔莫哥洛夫提出的现代概率理论基础它基于三条公理非负性对任意事件,•A PA≥0•规范性样本空间的概率PΩ=1可列可加性对互不相容的事件序列,其并集的概率等于各事件概率之和•公理化概率统一了概率的各种定义,建立了严格的数学理论体系条件概率
1.4条件概率的定义乘法公式独立性与条件概率条件概率表示在事由条件概率的定义,我们如果事件与相互独立,PA|BAB件已经发生的条件下,可以得到乘法公式则,即的B PA|B=PA B事件发生的概率其数发生与否不影响发生的A APA∩B=PB·PA|B学定义为概率此时=PA·PB|APA|B=PA∩B/PB,PA∩B=PA·PB其中PB0推广到多个事件,对于事独立性是概率论中的重要条件概率反映了新信息对件,有概念,它简化了复杂事件A₁,A₂,...,Aₙ概率判断的影响,是概率的概率计算判断事件是论中一个非常重要的概念否独立,可以检验PA∩BPA₁∩A₂∩...∩A=ₙ通过条件概率,我们可以是否成立=PA·PBPA更新对事件发生可能性的₁认知·PA₂|A₁·PA₃|A₁∩A₂·...·PA|A₁∩A₂∩...∩Aₙₙ₋₁全概率公式与贝叶斯公式
1.5完备事件组事件组构成一个完备事件组,需满足B₁,B₂,...,Bₙ•互斥性B_i∩B_j=∅i≠j•完备性B₁∪B₂∪...∪B=Ωₙ非空性•PB_i0i=1,2,...,n全概率公式推导全概率公式是概率论中的重要定理,它将一个事件的概率分解为与一组条件事件相关的概率之和PA=PB₁·PA|B₁+PB₂·PA|B₂+...+PB·PA|Bₙₙ这个公式在已知条件概率而求无条件概率时非常有用,体现了将复杂问题分解为简单问题的思想贝叶斯公式应用贝叶斯公式是关于条件概率的重要定理,可由全概率公式推导PB_i|A=[PB_i·PA|B_i]/[PB₁·PA|B₁+...+PB·PA|B]ₙₙ贝叶斯公式实现了从结果到原因的推理,常用于医学诊断、模式识别、垃圾邮件过滤等领域它是概率统计中最具有哲学意义的公式之一,体现了人类如何在获取新信息后更新已有认知第二章随机变量及其分布随机变量1建立随机现象与数值之间的桥梁分布函数2完整描述随机变量的概率特性概率分布3离散型与连续型随机变量的分布规律随机变量的函数4随机变量转换及其规律本章将引入随机变量的概念,将随机试验的结果与数值关联起来,便于数学分析我们将学习如何用分布函数和概率分布来描述随机变量的统计特性,并介绍常见的离散型分布(如二项分布、泊松分布)和连续型分布(如正态分布、指数分布)随机变量及其分布是概率论的核心内容,为后续学习随机变量的数字特征、抽样分布等奠定基础通过本章学习,您将能够识别和应用各种概率分布模型,为解决实际问题提供理论支持随机变量的概念
2.1随机变量的定义离散型随机变量随机变量是定义在样本空间Ω上的实值函数,离散型随机变量的可能取值是有限个或可列将随机试验的每个可能结果映射为一个实数无限个其概率分布可以用概率质量函数表通过随机变量,我们可以将难以直接描述的示随机现象转化为数值,便于进行数学分析,其中PX=x_i=p_i i=1,2,...典型的离散型随机变量例子包括抛硬币的形式化定义X=Xω,ω∈Ω,X是从样正面次数、家庭的子女数量、某地区每天的本空间Ω到实数集R的映射随机变量可以是交通事故数等离散型随机变量常用表格或离散的或连续的,这取决于其可能取值的集概率质量函数图形来表示其分布合特征连续型随机变量连续型随机变量的可能取值是不可列的,通常是某个区间内的所有点其概率分布需要通过概率密度函数来描述若存在非负函数,使得对任意实数,有,则是连续型fx a≤b Pa≤X≤b=∫_a^b fxdx X随机变量,是其概率密度函数fx连续型随机变量的例子包括产品的寿命、学生的身高、测量误差等需要注意的是,对连续型随机变量,任意单点的概率均为零分布函数
2.2定义与性质离散型分布函数连续型分布函数随机变量的分布函数定义为不超过对于离散型随机变量,其分布函数是一个对于连续型随机变量,其分布函数是连续X FxX的概率阶梯函数,在每个可能取值处有跳跃,跳的,可微的,并且x跃的高度等于该点的概率,Fx=PX≤x x∈-∞,+∞Fx=∫_{-∞}^x ftdtFx=∑_{x_i≤x}PX=x_i分布函数具有以下基本性质其中是概率密度函数反过来,如果fx例如,投掷一枚骰子,随机变量表示点可导,则X Fx•单调非减若x₁x₂,则Fx₁≤数,则其分布函数为Fx₂fx=Fx•有界性0≤Fx≤1Fx=0,x1连续型随机变量的分布函数图像是一条光•右连续性Fx+0=Fx滑的曲线,没有跳跃点通过分布函数,Fx=1/6,1≤x2我们可以计算随机变量落在任意区间的概•规范性F-∞=0,F+∞=1Fx=2/6,2≤x3率以此类推,直到Fx=1,x≥6PaX≤b=Fb-Fa离散型随机变量的分布
2.30-1分布二项分布泊松分布分布(也称为伯努利分布)是最简单的离散分二项分布描述了次独立重复试验中,成功恰好出泊松分布描述了单位时间(或空间)内随机事件发0-1n布,随机变量只取0和1两个值,代表试验的两种可现k次的概率如果每次试验成功的概率为p,那么生次数的概率分布若随机变量X服从参数为λ的泊能结果(如成功和失败)随机变量X(成功次数)服从参数为n,p的二项分松分布,记为X~Pλ,则布,记为X~Bn,p若随机变量X服从参数为p的0-1分布,则PX=k=λ^k·e^-λ/k!,k=0,1,其概率质量函数为2,...,,其中PX=1=p PX=0=1-p0≤p≤1PX=k=Cn,k·p^k·1-p^n-k,k=0,当λ较小而n较大时,二项分布Bn,p可以用泊松分1,2,...,n布Pλ=np近似泊松分布常用于描述罕见事件分布是二项分布的特例(),也是多次伯努0-1n=1的发生次数,如电话呼叫中心在一小时内接到的紧利试验的基础二项分布广泛应用于质量控制、医学试验、市场调急呼叫数量查等领域连续型随机变量的分布
2.4均匀分布指数分布正态分布均匀分布是最简单的连续型分布,随机变量在区间指数分布常用于描述独立随机事件之间的时间间隔正态分布(或高斯分布)是最重要的连续型分布,具[a,b]上均匀分布,记为X~U[a,b]其概率密度函数若随机变量X服从参数为λ的指数分布,记为X~有钟形的概率密度函数若随机变量X服从参数为μ和为Expλ,则σ²的正态分布,记为X~Nμ,σ²,则fx=1/b-a,当a≤x≤b时fx=λe^-λx,当x0时fx=1/√2πσ²·e^-x-μ²/2σ²,x∈-∞,+∞,当或时,当时fx=0xa xb fx=0x≤0正态分布在自然和社会科学中有广泛应用,如测量误均匀分布的特点是区间内每个点的概率密度相同,常指数分布具有无记忆性PXs+t|Xs=PX差、身高分布、智商分布等中心极限定理解释了为用于模拟随机数生成现实生活中,公交车到站时间这意味着已经等待的时间不影响未来等待时间t什么正态分布如此普遍标准正态分布是正态N0,1(在一定范围内)近似服从均匀分布的分布指数分布常用于可靠性分析、排队论和生存分布的特例,其概率计算可通过标准正态分布表查询分析随机变量的函数的分布
2.5连续型随机变量函数对于连续型随机变量,常用的方法是分布函数法基本问题描述求的分布函数
1.Y F_Yy=PY≤y=PgX≤y给定随机变量的分布,求的分布是概率论中的基本问题X Y=gX将不等式转化为关于的不等式
2.gX≤y X这种转换在实际应用中经常出现,如对原始数据进行函数变换以便利用的分布计算对应的概率
3.X分析若需要,求导得到的概率密度函数
4.Y求解的分布的基本方法有分布函数法、概率密度函数法和数学期望Y法等不同情况下应选择适当的方法,但核心原理都是概率不变性当是严格单调函数时,可以使用变量替换公式gx f_Yy=原则f_Xg^-1y·|dg^-1y/dy|1234离散型随机变量函数常见的随机变量函数对于离散型随机变量,求的分布相对简单一些常见的随机变量函数变换及其性质X Y=gX
1.确定Y的所有可能取值y_j=gx_i
1.线性变换若X~Nμ,σ²,则Y=aX+b~Naμ+b,a²σ²
2.计算对应的概率PY=y_j=∑_{i:gx_i=y_j}PX=x_i
2.平方变换若X~N0,1,则Y=X²~χ²
13.指数变换若X~Nμ,σ²,则Y=e^X服从对数正态分布例如,若服从参数为的分布,求的分布由于只能取X p0-1Y=X²Y0这些变换在统计学、金融分析、信号处理等领域有重要应用或,且与取值相同,因此也服从相同的分布1X Y0-1第三章多维随机变量及其分布联合分布1多维随机变量的概率规律边缘分布2单个变量的分布特性条件分布3在给定条件下的概率规律独立性4随机变量之间的相互影响关系本章将研究多个随机变量组成的随机向量,探讨它们的联合分布规律我们会学习如何从联合分布推导出边缘分布和条件分布,以及如何判断随机变量之间的独立性这些概念在多变量统计分析、回归模型和机器学习等领域都有重要应用通过本章学习,您将能够分析多变量随机现象,理解变量之间的相互关系,为后续学习相关性、回归分析等内容打下基础这对于理解实际问题中多个因素的交互作用至关重要二维随机变量
3.1二维随机变量是由两个随机变量组成的随机向量我们需要研究这两个变量的联合分布以及它们之间的关系与一维随机变量类似,二维随机X,Y变量也可以分为离散型和连续型对于离散型二维随机变量,其联合分布可以用联合概率质量函数表示对于连续型二维随机变量,则需要用联合概率PX=x_i,Y=y_j=p_{ij}密度函数来描述,满足fx,y∫∫fx,ydxdy=1联合分布函数是描述二维随机变量最基本的工具,对于连续型随机变量,有联合Fx,y=PX≤x,Y≤y Fx,y=∫_{-∞}^x∫_{-∞}^y fs,tdtds分布函数满足类似一维情况的单调性、有界性和连续性等性质条件分布
3.2条件分布的概念离散型条件分布连续型条件分布条件分布描述了在已知一个随机变量取某对于离散型二维随机变量,在给定对于连续型二维随机变量,在给定X,Y Y X,Y Y特定值的条件下,另一个随机变量的分布的条件下的条件分布为的条件下的条件概率密度函数为X=xX=x规律这是对条件概率概念的自然延伸,,当,当PY=y|X=x=PX=x,Y=y/PX=x f_{Y|X}y|x=fx,y/f_Xx反映了随机变量之间的相互依赖关系PX=x0f_Xx0这是一个概率质量函数,满足其中是联合概率密度函数,∑_y fx,y f_Xx例如,在气象分析中,我们可能关注在已例如,若随机试验是投是的边缘概率密度函数条件概率密度PY=y|X=x=1X知气温的条件下,湿度的分布情况;在金掷两颗骰子,表示第一颗的点数,表示函数满足通过条X Y∫f_{Y|X}y|xdy=1融分析中,我们可能研究在特定市场条件总点数,那么我们可以计算在已知第一颗件分布,我们可以研究对的影响,这在X Y下,某股票收益率的分布特性骰子点数的条件下,总点数的条件分布回归分析、预测模型等领域有重要应用随机变量的独立性
3.31独立性的定义2独立性的判断随机变量和称为相互独立,如果对任意实数和,判断随机变量是否独立,可以采用以下方法X Yx y有检验定义验证•PX≤x,Y≤y=是否对所有成立PX≤x,Y≤y=PX≤x·PY≤y PX≤x·PY≤y x,y对于离散型随机变量,检验联合概率质量函或等价地,对于离散型随机变量,•PX=x,Y=y=数是否等于边缘概率质量函数的乘积;对于连续型随机变量,PX=x·PY=y fx,y=f_Xx·f_Yy•对于连续型随机变量,检验联合概率密度函数是否等于边缘概率密度函数的乘积独立性意味着一个随机变量的取值不会影响另一个随机变量的分布,这是一个非常重要的概念,因为•对于有特定表达式的随机变量,分析其构造它大大简化了多维随机变量的分析方式3独立性与不相关性随机变量的独立性与不相关性是两个不同的概念不相关性是指协方差为零CovX,Y=0独立性蕴含不相关性,但反之不一定成立例如,若服从标准正态分布,,则,但和不X Y=X²CovX,Y=0X Y独立独立性是一个更强的条件,它要求任何形式的依赖关系都不存在,而不相关性只表示线性相关系数为零二维随机变量函数的分布
3.4和与差的分布基本问题随机变量的和是最常见的函数形式之一若和Z=X+YX Y是独立的,则给定二维随机变量的联合分布,求的分布X,Y Z=gX,Y是概率论中的重要问题这类问题在工程、物理和经济等对于离散型随机变量PZ=z=∑_x PX=x·PY=领域有广泛应用z-x解决这类问题的基本方法是通过分布函数转换或密度函数对于连续型随机变量f_Zz=∫f_Xx·f_Yz-xdx变换对于不同形式的函数,可能需要不同的处理12gX,Y后者称为卷积公式特别地,若X~Nμ₁,σ₁²,技巧Y~Nμ₂,σ₂²且X,Y独立,则Z=X+Y~Nμ₁+μ₂,σ₁²+σ₂²最大值与最小值的分布积与商的分布设,,则M=maxX,Y N=minX,Y随机变量的积和商的分布计算通常更复杂,Z=XY Z=X/Y43常用变量替换法或特征函数法F_Mz=PM≤z=PX≤z,Y≤z=F_{X,Y}z,z例如,若和是独立的连续型随机变量,的概率密X YZ=X/YF_Nz=PN≤z=1-PNz=1-PXz,Y度函数可以表示为z若和独立,则,f_Zz=∫|y|f_Xzy·f_YydyX YF_Mz=F_Xz·F_Yz F_Nz=1-[1-F_Xz]·[1-F_Yz]特别地,若和是独立的标准正态随机变量,则服X YZ=X/Y从柯西分布这在可靠性理论、极值统计等领域有重要应用第四章随机变量的数字特征数学期望方差相关性随机变量的平均值,反映集随机变量的离散程度,反映随机变量之间的线性相关程中趋势波动性度矩更高阶的数字特征,描述分布形状本章研究随机变量的数字特征,这些参数可以简洁地概括随机变量的分布特性我们将学习数学期望、方差、协方差、相关系数等概念,这些都是描述随机变量本质特性的重要工具数字特征在实际应用中极为重要,它们是统计推断的基础,也是建立数学模型的关键参数通过这些特征,我们可以不必完全了解随机变量的分布,就能对其主要性质做出判断,进行比较和分析,为决策提供依据数学期望
4.1数学期望的定义离散型随机变量的期望数学期望(又称均值或期望值)是随机变量的加权平对于常见的离散分布,数学期望有以下结果均值,权重由概率给出它反映了随机变量取值的集分布•0-1B1,p EX=p中趋势,是最基本的数字特征二项分布•Bn,p EX=np形式化定义•泊松分布PλEX=λ对于离散型随机变量X EX=∑x_i·PX=x_i几何分布•Gp EX=1/p计算离散型随机变量期望时,需要注意收敛性问题,对于连续型随机变量X EX=∫x·fxdx特别是当取值有无穷多个时若级数∑|x_i|PX=x_i期望值不一定是随机变量可能的取值,例如,投掷一发散,则EX不存在颗均匀骰子,点数的期望是,而不是任何可能的点
3.5数连续型随机变量的期望对于常见的连续分布,数学期望有以下结果均匀分布•U[a,b]EX=a+b/2•指数分布ExpλEX=1/λ•正态分布Nμ,σ²EX=μ计算连续型随机变量期望时,需要注意积分的收敛性若积分发散,则不存在∫|x|fxdx EX期望值在概率统计中有广泛应用,是描述随机现象的中心位置的重要指标,也是后续定义其他数字特征的基础方差
4.2方差的定义方差的计算方差的性质方差是随机变量取值与其数学期望的偏离程度的对于离散型随机变量方差具有以下重要性质VarX=∑x_i-度量,反映了随机变量分布的离散或集中程度EX²·PX=x_i•非负性VarX≥0,且VarX=0当且仅方差越大,随机变量的波动性越大;方差越小,对于连续型随机变量当为常数(概率为)VarX=∫x-X1取值越集中在期望附近EX²·fxdx•常数的方差为零Varc=0形式化定义常见分布的方差•线性变换VaraX+b=a²·VarXVarX=E[X-EX²]=EX²-[EX]²•0-1分布B1,p VarX=p1-p•独立随机变量的和的方差若X和Y独立,则VarX+Y=VarX+VarY二项分布•Bn,p VarX=np1-p方差的平方根称为标准差,它与原随机变量具有•切比雪夫不等式对任意ε0,P|X-•泊松分布PλVarX=λ相同的量纲,更适合直观理解EX|≥ε≤VarX/ε²均匀分布•U[a,b]VarX=b-a²/12切比雪夫不等式给出了随机变量取值偏离期望的•指数分布ExpλVarX=1/λ²概率上界,是大数定律的理论基础•正态分布Nμ,σ²VarX=σ²协方差与相关系数
4.3协方差的计算相关系数的意义相关与因果协方差是描述两个随机变量线性相关程度的数字特征相关系数是协方差的标准化形式,克服了协方差依赖理解相关性的局限性非常重要若和是两个随机变量,其协方差定义为于量纲的缺点其定义为X Y相关不等于因果两个变量间存在相关性,并不意
1.CovX,Y=E[X-EXY-EY]=EXY-ρX,Y=CovX,Y/[√VarX·√VarY]味着一个变量的变化导致另一个变量的变化可能存在共同的原因,或者相关纯属偶然EXEY相关系数具有以下重要性质协方差可以是正值、负值或零零相关不等于独立若两个随机变量独立,则它们
2.•-1≤ρX,Y≤1不相关(ρ=0);但反之不成立,不相关只排除了线性正协方差表示增大时趋于增大,负协方差表示•X YX•|ρX,Y|=1当且仅当X和Y之间存在严格的线性相关关系,仍可能存在非线性相关增大时趋于减小Y关系()Y=aX+b a≠0相关性分析是数据探索的起点,而非终点,需要结协方差为零表示和不相关(但不一定独立)
3.•X Y•ρX,Y=0表示X和Y不相关合领域知识和更复杂的模型进行因果推断协方差的绝对值大小难以直接判断相关强度,因为•相关系数度量的是线性相关性,对非线性关系不敏•它依赖于变量的量纲感矩、协方差矩阵
4.4原点矩与中心矩矩母函数与特征函数协方差矩阵的应用随机变量的阶原点矩定义为矩母函数和特征函数是研究随机变量矩的重要工对于维随机向量,其k nX=X₁,X₂,...,Xₙ具协方差矩阵Σ是一个n×n的矩阵,其中元素σ_{ij}μ_k=EX^k对角线元素是各个随机变量=CovX_i,X_j矩母函数M_Xt=Ee^{tX}=∑_{k=0}^∞的方差随机变量的阶中心矩定义为kEX^kt^k/k!协方差矩阵具有以下性质μ_k=E[X-EX^k]特征函数φ_Xt=Ee^{itX}=∑_{k=0}^∞特别地,一阶原点矩即为数学期望,二阶中心矩EX^kit^k/k!•对称性Σ=Σ^T即为方差高阶矩可以描述分布的更多特性•半正定性对任意向量a,有a^TΣa≥0通过对矩母函数或特征函数求导,可以得到随机变量的各阶矩例如协方差矩阵在多元统计分析中有广泛应用三阶中心矩与偏度有关,描述分布的不对称•EX^k=M_X^{k}0=d^k主成分分析寻找数据的主要变异方向•性M_Xt/dt^k|_{t=0}马氏距离考虑变量相关性的距离度量•四阶中心矩与峰度有关,描述分布尾部的厚•度矩母函数和特征函数还可以用于确定随机变量的•多元正态分布完全由均值向量和协方差矩分布类型,以及处理随机变量和的分布问题阵确定第五章大数定律与中心极限定理本章介绍概率论中两个最基本、最重要的极限定理大数定律和中心极限定理这些定理揭示了大量独立随机变量之和的统计规律,是概率论与统计学的理论基础,也是联系概率模型与统计实践的桥梁大数定律说明,在大量重复试验中,随机事件的频率会稳定在某个值附近,这个值就是事件的概率它解释了为什么我们可以用频率来估计概率,为统计推断提供了理论依据中心极限定理则告诉我们,大量独立同分布随机变量之和(经适当标准化后)的分布近似于正态分布,无论这些变量本身的分布如何这解释了为什么正态分布在自然和社会科学中如此普遍,也为许多统计方法提供了理论基础大数定律
5.11大数定律的基本思想2切比雪夫大数定律大数定律是概率论中最基本的定律之一,阐述了样切比雪夫大数定律适用于相互独立的随机变量序列,本均值收敛到总体均值的条件和方式它表明,当要求这些变量具有有限的数学期望和方差,但不要样本量足够大时,样本的统计特性会稳定在总体的求同分布相应特性附近定理陈述设是相互独立的随机X₁,X₂,...,Xₙ直观上,大数定律解释了为什么随着试验次数的增变量序列,具有数学期望EXᵢ=μᵢ和方差VarXᵢ=加,随机事件出现的频率会越来越接近其概率它σᵢ²如果存在常数C使得σᵢ²≤C对所有i成立,则对是频率学派概率观点的理论基础,也为统计推断方任意ε0,有法提供了合理性证明P|X̄-μ̄|ε→1当n→∞ₙₙ其中X̄=X₁+X₂+...+X/n,μ̄=μ₁ₙₙₙ+μ₂+...+μ/nₙ切比雪夫不等式是证明该定理的关键工具3伯努利大数定律伯努利大数定律是大数定律的一个特例,适用于独立重复试验(伯努利试验)的情况定理陈述设在n次独立重复试验中,事件A发生的次数为nₐ,事件A在每次试验中发生的概率为p,则对任意ε0,有P|nₐ/n-p|ε→1当n→∞这个定理表明,随着试验次数的增加,事件A发生的频率nₐ/n几乎必然地收敛到其概率p伯努利大数定律是最早的大数定律形式,由雅各布伯努利在世纪末提出,为概率论的发展奠定了基础它在抽·17样调查、质量控制等领域有广泛应用中心极限定理
5.216961733∞独立同分布的情形二项分布的正态近似广泛适用性林德伯格莱维中心极限定理是在独立同分德莫弗拉普拉斯定理是最早的中心极限定即使原分布不是正态的,和的分布也会趋于--布条件下的经典结果理形式正态中心极限定理是概率论中最重要的定理之一,它揭示了大量独立随机变量之和的分布规律,无论这些变量本身服从什么分布林德伯格莱维中心极限定理陈述设是独立同分布的随机变量序列,具有数学期望和有限方差,则随机变量-X₁,X₂,...,Xμσ²Z=ₙₙ的分布函数在时收敛到标准正态分布函数X₁+X₂+...+X-nμ/σ√n n→∞ₙ棣莫弗拉普拉斯中心极限定理是中心极限定理的一个特例,适用于二项分布当很大时,二项随机变量可以用正态分布-n Bn,p Nnp,近似这一结果在年由棣莫弗首次发现,后来由拉普拉斯推广np1-p1733中心极限定理解释了为什么许多自然和社会现象近似服从正态分布,为统计推断方法提供了理论基础在实际应用中,它允许我们使用正态分布来近似其他复杂的分布,大大简化了计算第六章数理统计的基本概念参数估计假设检验回归分析方差分析非参数统计从本章开始,我们进入数理统计的研究领域数理统计与概率论紧密相连,但研究问题相反概率论是已知总体分布,研究样本的概率规律;而数理统计是已知样本,推断总体的分布特征本章将介绍数理统计的基本概念,包括总体与样本、抽样分布和统计量等这些是开展统计推断的基础知识,为后续学习参数估计、假设检验等内容做准备数理统计在科学研究、工程技术、经济管理等领域有广泛应用,通过对样本数据的分析,帮助我们在不确定条件下做出合理的推断和决策这也是大数据时代数据分析的理论基础总体与样本
6.1总体的概念样本的特征样本与总体的关系总体是研究对象的全体,是具有共同性质的样本是从总体中抽取的一部分个体,用于推样本是了解总体的窗口,但样本特征与总体个体的集合从数学角度看,总体可以用一断总体的特征样本数据的合理收集和分析特征之间存在随机误差样本统计量(如样个或多个随机变量来描述,这些随机变量所是统计推断的基础本均值、样本方差)是总体参数的估计,通服从的概率分布称为总体分布常用相应的拉丁字母表示,如x̄对应μ,s²对样本需具备代表性,这通常通过随机抽样来应σ²总体可以是有限的,如某校所有学生的身高;实现简单随机抽样是最基本的抽样方法,也可以是无限的,如某生产过程中所有可能它使每个个体被抽到的概率相等,且各次抽根据大数定律,当样本容量增大时,样本统产品的质量总体参数是描述总体分布特征样相互独立计量会趋于相应的总体参数但在有限样本的量,如均值μ、方差σ²等,它们通常是我们下,样本与总体之间存在抽样误差,这种误设总体的分布为,样本记为X FX₁,X₂,...,关心的未知量差的大小和分布规律是统计推断的重要研究若各个样本观测值相互独立且都服从总Xₙ内容在实际问题中,由于时间、成本或物理条件体分布,则称这组样本为简单随机样本样F的限制,我们通常无法获得总体中所有个体本容量是样本中包含的观测值数量,它影响理解总体与样本的关系,是正确应用统计方n的信息,而只能观察其中的一部分,这就需着统计推断的精确度法的关键在实际应用中,我们需要基于样要抽样本信息,结合适当的统计模型,对总体特征做出合理推断抽样分布
6.2χ²分布t分布F分布卡方分布(χ²分布)是统计学中的重要分布,它是n个独立t分布(或称学生t分布)是一个对称的钟形分布,比正态分F分布是两个独立的χ²变量(各自除以其自由度)的比值的的标准正态随机变量的平方和的分布若随机变量服从自布有更厚的尾部若随机变量服从自由度为的分布,记分布若随机变量服从自由度为的分布,记为X Tn tF n₁,n₂F F~由度为n的χ²分布,记为X~χ²n,则其概率密度函数为为T~tn,则T可表示为Fn₁,n₂,则F可表示为T=Z/√Y/n,其中Z~N0,1,Y~χ²n,且Z与Y独立F=U/n₁/V/n₂,其中U~χ²n₁,V~χ²n₂,且U与fx=1/2^n/2Γn/2·x^n/2-1e^-x/2,x0V独立分布的性质tχ²分布的性质F分布的性质概率密度函数对称于零点•数学期望分布是非对称的,取值范围是•EX=n当时,期望•F0,+∞•n1ET=0方差若,则•VarX=2n当时,方差•F~Fn₁,n₂1/F~Fn₂,n₁•n2VarT=n/n-2•若X₁~χ²n₁,X₂~χ²n₂,且X₁与X₂独立,则当时,分布趋近于标准正态分布•当n₁和n₂足够大时,Fn₁,n₂近似于正态分布•n→∞tX₁+X₂~χ²n₁+n₂分布主要用于方差分析和回归分析中的显著性检验,以及分布主要用于小样本条件下的参数估计和假设检验,特别Ftχ²分布在假设检验、区间估计和拟合优度检验中有广泛应用是在总体方差未知时的均值推断对两个总体方差比的推断统计量
6.3统计量的定义样本均值样本方差统计量是样本的函数,不依赖于任何未知参样本均值是最基本的统计量,定义为样本方差是衡量样本数据离散程度的统计量,数形式上,若是来自总有两种常见定义X₁,X₂,...,XₙX̄=X₁+X₂+...+X/n体的样本,则统计量ₙT=TX₁,X₂,...,样本方差S²=∑Xᵢ-X̄²/n-1是样本的函数,其值完全由样本确定X样本均值的性质ₙ修正样本方差S²=∑Xᵢ-X̄²/n统计量本身是随机变量,其概率分布称为抽•若总体X的均值为μ,方差为σ²,则EX̄=样分布了解重要统计量的抽样分布是统计μ,VarX̄=σ²/n其中n-1称为自由度通常使用第一种定义,推断的基础,如前一节介绍的χ²分布、t分布因为它是总体方差的无偏估计根据中心极限定理,当足够大时,无论•n和分布都是特定统计量的分布F总体分布如何,的分布近似于正态分布X̄若总体X服从正态分布Nμ,σ²,则统计量常用的统计量包括样本均值、样本方差、样Nμ,σ²/nn-1S²/σ²服从χ²n-1分布这一性质是进本中位数、样本极值等这些统计量用于估•若总体X服从正态分布Nμ,σ²,则样本行方差相关推断的基础计总体参数或进行假设检验均值X̄服从正态分布Nμ,σ²/n样本标准差是样本方差的平方根,是与总体S样本均值是总体均值的无偏估计,广泛用于标准差相对应的统计量在实际应用中,样参数估计和假设检验本标准差常用于估计误差范围和计算置信区间第七章参数估计点估计1用一个数值估计未知参数区间估计2用一个区间包含未知参数估计量评价3无偏性、有效性、一致性估计方法4矩估计、最大似然、贝叶斯方法参数估计是统计推断的核心内容之一,目的是根据样本信息推断总体分布中的未知参数通过参数估计,我们可以了解总体的中心趋势、离散程度等特征,为决策和预测提供依据本章将介绍参数估计的两种基本形式点估计和区间估计点估计给出参数的单一最佳猜测值,而区间估计则提供一个可能包含真值的区间,并附带一定的置信水平我们还将学习几种常用的估计方法,包括矩估计法、最大似然估计法和贝叶斯估计法,以及评价估计量优劣的标准点估计
7.1点估计的基本概念矩估计法点估计是用样本计算出的单个数值(统计量)来估计矩估计法是一种直观的参数估计方法,基本思想是用总体参数的方法形式上,若θ是待估参数,θ̂=θ̂X₁,样本矩代替相应的总体矩,然后解方程组得到参数估X₂,...,X是基于样本的估计值,则θ̂称为θ的点估计值ₙ计,相应的函数θ̂X₁,X₂,...,X称为估计量ₙ设总体X的前k阶矩μᵣ=EX^r是参数θ₁,θ₂,...,θ的函数μᵣ=gᵣθ₁,θ₂,...,θ,r=1,ₖₖ一个好的点估计应该接近真实参数值评价点估计2,...,k矩估计法是将样本矩m_r=1/n∑X_i^r的标准包括无偏性(Eθ̂=θ)、有效性(方差最小)代入上述关系式,解方程组和一致性(当n→∞时,θ̂收敛到θ)m_r=g_rθ̂₁,θ̂₂,...,θ̂,r=1,2,...,kₖ矩估计法计算简单,但在某些情况下效率不如最大似然估计最大似然估计法最大似然估计法是统计学中最重要的参数估计方法之一,其基本思想是选择能使观测数据出现概率最大的参数值作为估计值设总体X的概率密度(或质量)函数为fx;θ,其中θ是未知参数给定样本X₁,X₂,...,X,似然函数定义为ₙLθ=∏ᵢfXᵢ;θ最大似然估计是使Lθ达到最大值的θ值,通常通过求解方程dLθ/dθ=0或d[ln Lθ]/dθ=0来得到最大似然估计具有良好的大样本性质,在大多数情况下是渐近无偏、渐近有效的,而且具有不变性区间估计
7.2置信区间的概念区间估计是用一个区间来估计未知参数的方法,比点估计提供了更多的信息,包括估计的精确度给定置信水平1-α(通常为
0.95或
0.99),参数θ的置信区间是由两个统计量构成的随机区间[θ̂₁,θ̂₂],使得Pθ̂₁≤θ≤θ̂₂=1-α置信水平1-α表示在重复抽样中,有1-α×100%的置信区间会包含真实参数θ置信区间的宽度反映了估计的精确度,区间越窄表示估计越精确正态总体均值的区间估计对于正态总体Nμ,σ²,均值μ的区间估计有以下情况•σ²已知时μ的置信区间为X̄±z_{α/2}·σ/√n其中z_{α/2}是标准正态分布的上α/2分位点•σ²未知时μ的置信区间为X̄±t_{α/2}n-1·S/√n其中t_{α/2}n-1是自由度为n-1的t分布的上α/2分位点其他常见参数的区间估计
1.正态总体方差σ²的置信区间(μ未知)[n-1S²/χ²_{α/2}n-1,n-1S²/χ²_{1-α/2}n-1]
2.两个正态总体均值差μ₁-μ₂的置信区间若σ₁²和σ₂²已知X̄₁-X̄₂±z_{α/2}·√σ₁²/n₁+σ₂²/n₂若σ₁²=σ₂²=σ²但未知X̄₁-X̄₂±t_{α/2}n₁+n₂-2·S_p·√1/n₁+1/n₂其中S_p²是合并样本方差
3.二项分布参数p的置信区间(大样本情况)p̂±z_{α/2}·√[p̂1-p̂/n]其中p̂=X/n是样本成功率贝叶斯估计
7.3先验分布与后验分布贝叶斯估计的基本方法贝叶斯估计的应用贝叶斯估计是基于贝叶斯理论的参数估计方法,贝叶斯点估计通常采用后验分布的某个特征值,贝叶斯方法在处理小样本问题、复杂模型和不确它将参数θ视为随机变量,具有概率分布贝叶如定性时有独特优势常见的应用包括斯方法的核心是先验分布和后验分布的概念•后验均值Eθ|x=∫θπθ|xdθ•共轭先验选择使后验分布与先验分布同类型的先验,简化计算•后验中位数Pθ≤m|x=Pθm|x=先验分布πθ表示在获得样本数据前,对参数θ多参数估计处理具有多个未知参数的复杂1/2•的信念或知识它可以来自以往的经验、专家判模型•后验众数使πθ|x达到最大的θ值断或理论分析先验分布的选择可能带有主观因层次模型通过多层次的先验分布捕捉参数•素,这是贝叶斯方法与传统频率派方法的主要区贝叶斯区间估计使用后验分布的分位点构造区间间的关系别之一给定置信水平1-α,贝叶斯置信区间(也称可信贝叶斯决策理论基于后验分布和损失函数•区间)满足[a,b]后验分布πθ|x是在获得样本数据x后,对参数θ做出最优决策更新的信念,通过贝叶斯公式计算Pa≤θ≤b|x=1-α随着计算技术的发展,特别是马尔可夫链蒙特卡πθ|x∝Lθ|x·πθ贝叶斯估计的一个重要特点是能够自然地将先验洛(MCMC)方法的应用,贝叶斯方法在医学、金信息融入到估计中,随着样本量增加,数据信息融、气象等领域的应用越来越广泛其中Lθ|x是似然函数,比例符号∝表示等比例的权重会增大,先验信息的影响减小关系,省略了归一化常数第八章假设检验构造检验统计量提出假设2基于样本数据1原假设与备择假设确定拒绝域临界值与显著性水平35解释结果做出决策实际意义的分析4接受或拒绝原假设假设检验是统计推断的另一个重要分支,目的是基于样本数据判断关于总体的某个假设是否成立本章将系统介绍假设检验的基本原理、方法和应用我们将学习如何正确设置原假设和备择假设,选择合适的检验统计量,确定拒绝域,以及解释检验结果主要内容包括关于正态总体均值和方差的各种检验,以及分布拟合检验等假设检验在科学研究、质量控制、医学试验等领域有广泛应用,是实证研究的重要工具通过本章学习,您将能够理解并应用假设检验的思想方法,对实际问题做出客观的统计判断假设检验的基本思想
8.1原假设与备择假设第一类错误与第二类错误P值与显著性检验假设检验的第一步是明确提出待检假设检验可能产生两种类型的错误值是假设检验中的核心概念,定P验的假设通常设置两个互斥的假义为在原假设为真的条件下,H₀设得到观测结果或更极端结果的概率第一类错误(α错误)当H₀为真原假设关于总体参数的一个陈时拒绝的概率,也称为显著性水H₀H₀述,通常表示无效应或无差异平αP值的解释的情况第二类错误(β错误)当H₀为假•P值越小,表示样本数据与原备择假设H₁与原假设相对立的陈时接受H₀的概率1-β称为检验的假设越不相容述,通常表示研究者希望证明的情功效,表示当为假时正确拒绝H₀H₀•若P值≤显著性水平α,则拒况的概率绝原假设H₀假设可以是点假设(如H₀:μ=两类错误之间存在权衡关系在样•若P值α,则不能拒绝H₀μ₀)或区间假设(如H₀:μ≤本量固定的情况下,降低一类错误值方法与临界值法是等价的,但P Pμ₀)根据备择假设的形式,检的概率会增加另一类错误的概率值提供了更详细的信息,不仅告诉验可分为双侧检验(H₁:μ≠μ₀)在实际应用中,通常先控制第一类我们是否拒绝,还指示了拒绝的H₀和单侧检验(H₁:μμ₀或H₁:μ错误的概率(如α=
0.05或强度μ₀)
0.01),然后在此约束下最大化检需要注意,值不是原假设为真的验的功效P概率,而是在原假设为真的条件下,观测到当前或更极端结果的概率正态总体均值的假设检验
8.2单个正态总体均值检验两个正态总体均值差的检验配对样本t检验对于来自正态总体Nμ,σ²的样本,关于均值μ的对于来自两个正态总体Nμ₁,σ₁²和Nμ₂,σ₂²当两个样本存在自然配对关系时(如同一对象的前检验有以下情况的独立样本,关于均值差μ₁-μ₂的检验有以下情后测量),应使用配对t检验而非独立样本t检验况
1.σ²已知时,检验H₀:μ=μ₀对H₁:μ≠μ₀(或μμ₀,或μμ₀)
1.σ₁²和σ₂²已知时,检验H₀:μ₁=μ₂对H₁:μ₁配对t检验将每对数据的差值作为新的样本,然后≠μ₂对这些差值进行单样本t检验检验统计量Z=X̄-μ₀/σ/√n~N0,1检验统计量Z=X̄₁-X̄₂-d₀/√σ₁²/n₁+设Dᵢ=X₁ᵢ-X₂ᵢ(i=1,2,...,n)是每对观测双侧检验的拒绝域|Z|z_{α/2}σ₂²/n₂~N0,1的差值,检验H₀:μ_D=d₀对H₁:μ_D≠d₀
2.σ²未知时,检验H₀:μ=μ₀对H₁:μ≠μ₀(或其中是假设的均值差(通常为)检验统计量d₀0T=D̄-d₀/S_D/√n~tn-1μμ₀,或μμ₀)
2.σ₁²=σ₂²=σ²但未知时,检验H₀:μ₁=μ₂其中D̄和S_D分别是差值的样本均值和样本标准差检验统计量T=X̄-μ₀/S/√n~tn-1对H₁:μ₁≠μ₂双侧检验的拒绝域|T|t_{α/2}n-1检验统计量配对设计通过控制个体间的变异,提高了检验的灵T=X̄₁-X̄₂-d₀/S_p·√1/n₁+这两种检验分别称为检验和检验,它们是最常用Z t敏度,广泛应用于临床试验、心理学研究等领域1/n₂~tn₁+n₂-2的参数检验方法其中是合并样本方差S_p²这些检验广泛应用于比较两个总体的均值是否有显著差异,如比较两种治疗方法的效果、两个产品的平均质量等正态总体方差的假设检验
8.3χ²检验F检验方差检验的应用注意事项对于来自正态总体Nμ,σ²的样本,关于方差σ²的对于来自两个正态总体Nμ₁,σ₁²和Nμ₂,σ₂²的在进行方差检验时,需要注意以下几点检验称为χ²检验独立样本,关于方差比σ₁²/σ₂²的检验称为F检验正态性假设方差检验对正态性假设的依赖比均•检验H₀:σ²=σ₀²对H₁:σ²≠σ₀²(或σ²σ₀²,值检验更强,应先检验数据是否满足正态分布或σ²σ₀²)检验H₀:σ₁²=σ₂²对H₁:σ₁²≠σ₂²(或σ₁²σ₂²,或σ₁²σ₂²)样本独立性对于检验,两个样本必须相互独•F检验统计量χ²=n-1S²/σ₀²~χ²n-1立检验统计量F=S₁²/S₂²~Fn₁-1,n₂-1双侧检验的拒绝域χ²χ²_{1-α/2}n-1或χ²检验的敏感性方差检验的功效通常不如均值检•χ²_{α/2}n-1其中S₁²和S₂²分别是两个样本的样本方差为使F值验,可能需要较大的样本量才能检测到显著差异较大,通常将较大的样本方差放在分子位置右侧检验的拒绝域χ²χ²_{α}n-1双侧检验的拒绝域FF_{1-α/2}n₁-1,n₂-1或F•数据变换如果数据不满足正态性假设,可考虑左侧检验的拒绝域χ²χ²_{1-α}n-1进行适当的变换,如对数变换F_{α/2}n₁-1,n₂-1χ²检验在质量控制、可靠性分析等领域有重要应用,•非参数方法当正态性假设严重不满足时,可考右侧检验的拒绝域FF_{α}n₁-1,n₂-1用于检验产品质量的稳定性或波动性是否满足要求虑使用非参数检验方法,如检验Levene检验常用于比较两个生产工艺的稳定性、两种测量F在许多实际应用中,方差检验常作为均值检验的前置方法的精确度等它也是方差分析的基础步骤,用于确定应选择哪种均值检验方法
8.4分布拟合检验1拟合优度检验的目的分布拟合检验(或拟合优度检验)用于检验样本数据是否来自于某个特定的理论分布这类检验的原假设通常是H₀总体分布为某个指定的分布(如正态分布、泊松分布等)H₁总体分布不是该指定分布拟合优度检验广泛应用于模型验证、质量控制、风险评估等领域,是确保统计模型适用性的重要工具2皮尔逊χ²检验皮尔逊χ²检验是最常用的拟合优度检验方法,适用于分类数据和离散分布,也可用于连续分布(通过分组)检验步骤•将观测数据分为k个组,计算每组的观测频数Oᵢ•根据理论分布,计算每组的期望频数Eᵢ•计算检验统计量χ²=∑Oᵢ-Eᵢ²/Eᵢ•当样本量足够大且H₀成立时,χ²近似服从自由度为k-1-r的χ²分布,其中r是从样本估计的参数个数•拒绝域χ²χ²_{α}k-1-rχ²检验要求每组的期望频数不能太小,通常建议Eᵢ≥53K-S检验柯尔莫哥洛夫-斯米尔诺夫检验(K-S检验)是另一种重要的拟合优度检验,适用于连续分布,不需要对数据进行分组检验统计量D_n=sup|F_nx-Fx|其中F_nx是样本的经验分布函数,Fx是理论分布函数,sup表示上确界(最大差值)当H₀成立时,D_n的分布是已知的,可查表或用相关软件获得临界值K-S检验的优点是对小样本也适用,且保持了数据的连续性,不需要人为分组但当理论分布的参数是从样本估计得到时,标准K-S检验变得保守,这时可使用Lilliefors修正4其他拟合检验方法除了χ²检验和K-S检验外,还有其他一些拟合优度检验方法•Anderson-Darling检验对分布尾部更敏感,特别适用于检验尾部事件重要的分布•Shapiro-Wilk检验专门用于正态性检验,对小样本特别有效•Q-Q图虽然不是正式的假设检验,但可视化比较样本分位数与理论分位数,直观评估拟合情况•经验似然比检验基于似然比原理,具有良好的理论性质在实际应用中,建议结合多种方法进行拟合检验,不仅看p值,也要考虑实际偏离的大小和模式,以及模型的应用目的第九章方差分析与回归分析方差分析1比较多个总体均值一元回归2探索两变量线性关系多元回归3多个自变量的综合影响模型诊断4评估模型有效性本章介绍两种重要的统计分析方法方差分析和回归分析这些方法广泛应用于科学研究、工程技术、经济管理等领域,用于探索变量之间的关系和差异方差分析是比较多个总体均值是否相等的统计方法,它将数据的总变异分解为组内变异和组间变异,通过比较这两种变异来判断分组因素的影响是否显著回归分析则是研究变量之间依赖关系的统计方法,建立数学模型来描述自变量对因变量的影响我们将学习一元线性回归和多元线性回归的理论和应用,以及模型的估计、检验和诊断方法单因素方差分析
9.1单因素方差分析(One-Way ANOVA)用于比较三个或更多总体的均值是否相等其基本思想是将总变异分解为组间变异(反映因素的影响)和组内变异(反映随机误差),通过比较这两种变异来判断因素的显著性假设我们有k个总体,每个总体都服从正态分布Nμᵢ,σ²,i=1,2,...,k,即假设各总体方差相等我们要检验的假设是H₀:μ₁=μ₂=...=μₖH₁:至少有两个μᵢ不相等F检验统计量为F=MSB/MSW~Fk-1,n-k,其中MSB是组间均方,MSW是组内均方当FF_{α}k-1,n-k时,拒绝原假设H₀,认为不同组的均值存在显著差异如果方差分析结果显示存在显著差异,通常需要进行多重比较(如LSD法、Tukey法等)来确定具体哪些组之间存在差异双因素方差分析
9.2交互作用示意均值图方差分析表有交互作用线不平行因素和的水平组合来源、自由度、平方和、均方AB无交互作用线平行主效应可分别解释值和值判断显著性F P双因素方差分析()考虑两个因素对响应变量的影响,包括各因素的主效应和它们之间的交互作用主效应是指一个因素在不考虑另Two-Way ANOVA一个因素的情况下的平均效应,而交互作用则表示一个因素的效应是否依赖于另一个因素的水平设因素有个水平,因素有个水平,每种组合有次重复观测检验的假设包括A aB br因素的各水平均值相等H₀A:A因素的各水平均值相等H₀B:B和之间无交互作用H₀AB:AB总变异分解为四部分,分别对应因素的主效应、因素的主效应、交互作用和随机误差SST=SSA+SSB+SSAB+SSE AB检验统计量,,F F_A=MSA/MSE~Fa-1,abr-1F_B=MSB/MSE~Fb-1,abr-1F_AB=MSAB/MSE~Fa-1b-1,abr-1一元线性回归
9.3x值实际y值预测y值一元线性回归分析研究一个自变量X与一个因变量Y之间的线性关系其基本模型为Y=β₀+β₁X+ε其中β₀是截距,β₁是斜率,ε是随机误差项,通常假设ε~N0,σ²最小二乘法是估计回归参数的标准方法,它选择使残差平方和最小的参数估计值设有n对观测数据x₁,y₁,x₂,y₂,...,x,y,则参数估计为ₙₙβ̂₁=∑xᵢ-x̄yᵢ-ȳ/∑xᵢ-x̄²β̂₀=ȳ-β̂₁x̄回归方程的显著性检验包括对整个回归方程和回归系数的检验对整个方程的检验使用F检验,检验H₀:β₁=0;对斜率β₁的检验使用t检验,检验H₀:β₁=0决定系数R²衡量回归模型的拟合优度,表示被回归方程解释的变异部分R²=SSR/SST=1-SSE/SST,其值在0到1之间,越接近1表示拟合越好多元线性回归
9.4多元回归模型回归系数的估计与检验多元回归分析的实际应用多元线性回归分析研究多个自变量X₁,X₂,...,最小二乘估计法的矩阵形式为β̂=XX⁻¹XY,多元回归在实际应用中需要注意以下几点与一个因变量之间的线性关系其基本模型其中表示的转置XYX Xₖ多重共线性自变量之间存在高度相关可能•为对回归方程的显著性检验使用检验导致估计不稳定,解决方法包括删除冗余变FY=β₀+β₁X₁+β₂X₂+...+βX+ε量、岭回归等ₖₖF=MSR/MSE~Fk,n-k-1变量选择在大量潜在自变量中选择最优子•其中β₀,β₁,...,β是回归系数,ε是随机误ₖ其中MSR=SSR/k,MSE=SSE/n-k-1检验假集,方法包括逐步回归、信息准则AIC,BIC差项,通常假设ε~N0,σ²多元线性回归模设为等型可以用矩阵形式表示为Y=Xβ+ε,便于进行数学处理•模型诊断检查残差的正态性、独立性和方H₀:β₁=β₂=...=β=0ₖ差齐性等假设是否满足多元回归比一元回归更强大,可以同时考虑多个H₁:至少有一个βⱼ≠0非线性关系如果变量间存在非线性关系,•因素的影响,更接近现实中的复杂情况可考虑变量变换或非线性回归模型对个别回归系数βⱼ的显著性检验使用t检验多元回归是数据分析中最常用的工具之一,在经t=β̂ⱼ/seβ̂ⱼ~tn-k-1济学、生物学、社会科学等领域有广泛应用检验假设为H₀:βⱼ=0对H₁:βⱼ≠0第十章非参数统计方法非参数统计方法是不依赖于总体分布形式的统计推断方法,特别适用于当总体分布未知或不满足正态分布假设时与参数方法相比,非参数方法通常具有以下特点计算简单、适用范围广、对异常值不敏感,但在总体确实服从正态分布时,效率略低本章将介绍几种常用的非参数统计方法,包括符号检验、秩和检验等这些方法通常基于数据的次序或符号,而非具体数值,因此对数据分布的要求较低,适用于序次数据或难以精确量化的情况非参数方法在医学研究、社会调查、生态学和质量控制等领域有广泛应用,特别是在样本量小或无法确保数据满足参数方法假设的情况下,非参数方法提供了稳健的统计推断工具符号检验
10.11符号检验的基本原理2单样本符号检验符号检验是最简单的非参数检验方法之一,它只考虑数单样本符号检验用于检验总体中位数是否等于某个指定据的符号(正、负或零),而不考虑数值大小符号检值M₀具体步骤如下验基于二项分布,适用于检验中位数或进行配对样本比•设定假设H₀:中位数=M₀,H₁:中位数≠M₀较(或M₀,或M₀)符号检验的基本假设是如果原假设为真,则观测值大•计算样本中大于M₀的观测值个数S⁺和小于M₀的观测于(或小于)中位数的概率为1/2这一假设很弱,不需值个数S⁻(等于M₀的观测值通常忽略)要总体分布的对称性或其他特定形式,因此适用范围广•在双侧检验中,检验统计量T=minS⁺,S⁻泛•当样本量n较大时,可以使用正态近似Z=T-符号检验的优点是简单直观,不受极端值影响;缺点是n/2/√n/4~N0,1只利用了数据的符号信息,没有利用数值大小,因此统•根据显著性水平α决定是否拒绝原假设计效率较低单样本符号检验对总体分布没有要求,适用于无法精确量化但可比较的数据3配对样本符号检验配对样本符号检验用于比较两个相关样本的中位数是否有差异具体步骤如下•对每对观测值X_i,Y_i计算差值D_i=X_i-Y_i•记录差值的符号(正、负或零),忽略差值为零的配对•设定假设H₀:两总体中位数相等,H₁:两总体中位数不等(或一个大于另一个)•计算正差值数S⁺和负差值数S⁻•检验统计量和决策规则与单样本符号检验相同配对样本符号检验适用于同一对象在两种条件下的比较,如药物治疗前后的效果比较、同一消费者对两种产品的偏好比较等它不要求差值的分布形式,只关心差值的方向
10.2秩和检验1秩的概念与秩和检验基础秩和检验是一类基于数据排序位置(秩)而非具体数值的非参数检验方法秩是指观测值在所有数据排序后的位置号相比符号检验,秩和检验利用了数据的更多信息(顺序大小),因此统计效率更高秩和检验的基本思想是如果两个总体相同,则它们的样本混合后,各组样本的秩和应该大致相等;如果一个总体倾向于产生较大(或较小)的值,则其样本的秩和会相应较大(或较小)秩和检验对总体分布的要求较低,主要假设是两总体分布形状相似(但不一定是正态分布)2Wilcoxon秩和检验Wilcoxon符号秩检验用于单样本或配对样本的情况,是符号检验的改进版本,考虑了差值的大小而非仅符号配对样本Wilcoxon检验步骤•计算每对观测的差值D_i=X_i-Y_i•忽略差值为零的配对,对剩余|D_i|按从小到大排序并赋予秩次•将秩次与原差值的符号相结合•计算正秩和W⁺和负秩和W⁻•检验统计量T=minW⁺,W⁻•对较大样本,可使用正态近似Wilcoxon符号秩检验比符号检验效率高,在正态分布条件下,其效率相对于t检验可达95%3Mann-Whitney U检验Mann-Whitney U检验(也称为Wilcoxon秩和检验)用于比较两个独立样本,是独立样本t检验的非参数替代方法检验步骤•将两组样本合并并按从小到大排序•为每个观测值赋予秩次(相同值取平均秩)•分别计算两组样本的秩和R₁和R₂•计算统计量U₁=n₁n₂+n₁n₁+1/2-R₁,U₂=n₁n₂+n₂n₂+1/2-R₂•检验统计量U=minU₁,U₂•对较大样本,可使用正态近似Mann-Whitney U检验广泛应用于医学研究、社会科学和工业实验等领域,特别是当无法确保数据满足正态分布假设时4Kruskal-Wallis检验Kruskal-Wallis检验是单因素方差分析的非参数替代方法,用于比较三个或多个独立样本课程总结555概率论基础随机变量与分布统计推断随机试验、事件关系、概率公式离散型与连续型分布、数字特征参数估计、假设检验、回归分析在本课程中,我们系统学习了概率论与数理统计的基本概念、理论和方法这些知识构成了处理随机现象和数据分析的理论基础,在现代科学、工程和管理等领域具有广泛应用概率论部分,我们从随机试验和样本空间开始,学习了概率的定义和计算方法,研究了随机变量及其分布规律,掌握了期望、方差等数字特征,以及大数定律和中心极限定理等基本定理数理统计部分,我们学习了如何从样本数据推断总体特征,包括参数估计、假设检验、方差分析和回归分析等方法,以及非参数统计技术这些方法为我们提供了科学的数据分析工具概率统计思维是现代科学思维的重要组成部分,它帮助我们在不确定性中做出合理的推断和决策希望通过本课程的学习,大家不仅掌握了基本理论和方法,更养成了科学的思维习惯和数据分析能力,为今后的学习和工作奠定坚实基础参考文献与学习资源教材与参考书目主教材•《概率论与数理统计》,高等教育出版社•《概率论与数理统计习题集》,配套练习册推荐参考书•《概率与统计》,陈希孺著,中国科学技术大学出版社•《数理统计学教程》,茆诗松、周纪芗著,中国统计出版社•《概率论基础》,钟开莱著,高等教育出版社•《Statistical Inference》,G.CasellaR.L.Berger著在线学习资源推荐课程视频•中国大学MOOC平台概率论与数理统计课程•可汗学院Khan Academy概率与统计课程•麻省理工学院公开课概率系统分析与应用随机过程学习网站•统计之都Capital ofStatistics:https://cosx.org/•STATS.ORG:统计学资源网站•Seeing Theory:概率统计可视化学习网站软件工具•R语言及RStudio:开源统计计算和绘图软件•Python的统计库NumPy,SciPy,Pandas,Statsmodels•SPSS,SAS:专业统计分析软件学习概率统计需要理论与实践相结合建议同学们在学习理论的同时,多做习题,多进行实际数据分析练习可以从简单的描述统计开始,逐步尝试更复杂的统计推断和模型分析与同学组成学习小组,相互讨论和解答问题也是提高学习效果的好方法此外,关注日常生活和专业领域中的统计应用实例,思考如何运用所学知识解决实际问题,能够加深对理论的理解和应用能力的培养如有学习困难或疑问,欢迎在课后向任课教师咨询,或参加定期举办的答疑辅导活动祝大家学习顺利!。
个人认证
优秀文档
获得点赞 0