还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
《概率论与数理统计》欢习论数计课课将绍论数迎学《概率与理统》程本程系统地介概率与理统计论数维计课内的基本理和方法,帮助大家建立起学思和统分析能力程容论础维数包括概率基、随机变量及其分布、多随机变量、随机变量的字特数数计检验征、大定律与中心极限定理、抽样分布、参估和假设等过课习将计计将这通本程的学,你掌握概率统的核心概念与算方法,并能些识应领这课计知用到各个学科域中希望门程能够帮助你建立起概率统思维数,提升据分析能力课程概述课程目标与学习要求教材与参考资料课养论数为论数计本程旨在培学生掌握概率与主教材《概率与理统》(高计论书理统的基本理和方法,建立随机等教育出版社)参考籍包括《概维问题论数计诗编思,提高解决实际的能力学率与理统教程》(茆松计论数计陈生需要掌握基本概念和算方法,能著)和《概率与理统》(希识问编线资课频够运用所学知分析和解决实际孺著)等在源包括程视题习题和解析考核方式与评分标准时绩试结时绩考核采用平成(30%)和期末考(70%)相合的方式平成包括出课现试计应勤、作业和堂表期末考主要考察基本概念、算方法和实际用能力课专础课对习数领本程是理工科业的重要基程,学据分析、人工智能、金融工程等域议们养习习惯课预习课习习具有重要意义建同学成良好的学,做好前和后复,多做题巩识问题时师讨论固所学知遇到及与教和同学交流第一章概率论的基本概念随机试验、样本空间与随机事件现研究不确定性象的基本概念框架概率的定义与性质描述随机事件发生可能性的量化方法概率的公理化定义论严数础建立概率的格学基古典概型与几何概型计两类重要的概率算模型论现计规数认识现础概率是研究随机象统律的学分支,其基本概念是和分析随机象的基本将绍论试验关章介概率的基本概念和方法,包括随机、样本空间、随机事件及其系、概率的质计定义和性,以及几种重要的概率算模型过习将论维为续节习坚础这通本章的学,你建立起概率的基本思框架,后章的学奠定实基将贯计习过些基本概念穿整个概率统的学程随机试验随机试验的定义与特点样本点与样本空间试验进试验结随机是在相同条件下可重复样本点是随机的每个可能试验结称为行的,其果具有不确定性,果,所有样本点的集合样本空结但其可能果的全体是确定的,并间,通常用Ω表示样本空间可以试验现计规数数且在大量重复中呈统律是有限集、可无限集或不可无性限集随机事件的表示方法随机事件是样本空间的子集,可用集合表示基本事件是只包含一个样本点的事件,必然事件是样本空间Ω,不可能事件是空集∅试验论础对掷抛币应随机是概率研究的基象,例如骰子、硬、抽取样本等在实际用们识别试验结论语中,我需要明确随机的可能果,建立合适的样本空间,并用集合的言描述感兴趣的随机事件进计问题样本空间的建立是行概率算的前提,需要根据具体确定合适的样本点例掷组如,两枚骰子的样本空间可以是36个样本点成的集合,每个样本点表示一种可能数组的点合事件的关系与运算事件的包含、相等与互斥对立事件与完备事件组导事件A包含于事件B(A⊂B)意味着A发生必对̅事件A的立事件A表示A不发生的事件,即致B发生;事件相等(A=B)表示两事件包含相̅组组A=Ω-A完备事件是指一事件同的样本点;互斥事件(A∩B=∅)表示两事件₁₂满们为时A,A,...,Aₙ足它两两互斥且并集样不能同发生本空间Ω事件运算的性质事件的和(并)与积(交)满换结数事件运算足交律、合律、分配律等代性质规则事件的和A∪B表示至少一个事件发生;事件的,与集合运算一致也适用德摩根律积时̅̅̅̅̅̅A∩B表示两事件同发生;事件的差A-B表示A∪B=A∩B,A∩B=A∪BA发生但B不发生关进计础过论们将杂为简单组简计事件之间的系和运算是行概率算和推理的基工具通集合的方法,我可以复事件分解事件的合,从而化概率算问题关转在实际中,善于利用事件之间的系化,常常能够事半功倍质对应图观关这质对杂问题关事件运算的性与集合运算完全,因此可以借助韦恩直理解事件之间的系掌握些运算性于解决复概率至重要概率的定义概率的频率解释古典概率与几何概率概率的公理化定义试验频在大量重复中,随机事件A发生的古典概率适用于有限个等可能基本事件概率是定义在样本空间Ω的事件域F上的趋稳这稳称为计为数满对率近于一个定值,个定值的情况,算公式PA=事件A包含的函P,足1任何事件A,频质数数对事件A的概率PA率具有以下性基本事件/样本空间的基本事件总PA≥0;2PΩ=1;3互不相容的对匀区₁₂10≤f_nA≤1;2f_nΩ=1;3几何概率适用于样本点均分布在域事件A,A,...,有计为对应₁₂₁₂于互斥事件,中的情况,算公式PA=事件A PA∪A∪...=PA+PA+...这组质称为f_nA∪B=f_nA+f_nB的几何度量/样本空间的几何度量性概率的公理历过频释为观给概率定义的发展经了从具体模型到抽象公理化的程率解概率提供了直含义,古典概率和几何概率出了特定情况下的计则严数础算方法,而公理化定义建立了格的学基应们问题选择论满负规在实际用中,我需要根据具体合适的概率模型无采用哪种定义,概率都足非性、范性和可加性三个基本性质这计础规则,构成了概率算的基古典概型等可能概型的定义基本事件具有相同概率的有限样本空间计数原理组项数排列、合与二式系概率计算方法PA=|A|/|Ω|实际应用问题扑克、抽样、彩票等认为验古典概型是最早被研究的概率模型,适用于样本空间中每个基本事件等可能发生的情况它的核心思想是等可能性假设,即在缺乏任何先信息的情况下,每结个基本果具有相同的概率应时关键计数组数数数组数用古典概率模型,是准确排列合是重要的学工具排列A_n^m=n!/n-m!表示从n个不同元素中取出m个并排成一列的方法;合数这计数对问题关C_n^m=n!/[m!n-m!]表示从n个不同元素中取出m个的方法掌握些方法解决古典概型至重要几何概型几何概率的定义当对应区区内匀时该对应区积积这称为样本空间一个域,且样本点在域均分布,事件的概率等于事件的域度量(长度、面或体)与整个样本空间度量之比种概率模型几何概型计算方法与步骤计骤对应区计区对应区计区关键算几何概率的步包括确定样本空间和的几何域、算整个域的几何度量、确定事件的子域、算子域的几何度量、求度量之比在于正确构建几何模型贝特朗悖论论问题时问题导这论们时须试验过贝特朗悖是几何概率中著名的例子,它表明在解决概率,若描述不够精确,可能致不同的答案一悖提醒我在建立概率模型必明确随机的具体程应问题线针问题过掷针验计圆几何概型广泛用于空间随机分布,如随机投点、随机段相交等著名的布丰投就是几何概率的典型例子,它通随机投的实可以估周率π的值应时匀验导须过在用几何概率模型,需要注意的是均分布假设的合理性此外,不同的随机实方式可能致不同的概率分布,因此必明确随机化的具体程条件概率条件概率的定义记为计为在事件B已经发生的条件下,事件A发生的概率,PA|B,算公式PA|B=满质PA∩B/PB,其中PB0条件概率足概率的所有基本性乘法定理时过计对多个事件同发生的概率可通条件概率算PA∩B=PBPA|B=PAPB|A于n个事₁₂ₙ件PA∩A∩...∩A=₁₂₁₃₁₂₁₂ₙₙ₋₁PA PA|A PA|A∩A...PA|A∩A∩...∩A全概率公式₁₂组则对ₙₖ若B,B,...,B构成一个完备事件,且PB0k=1,2,...,n,任意事件A,有PA=₁₁₂₂将为ₙₙPB PA|B+PB PA|B+...+PB PA|B全概率公式事件A的概率分解在不同条件下发生的概率之和贝叶斯公式计观断ₖₖ贝叶斯公式用于算在察到事件A发生后,推事件B发生的概率PB|A=ⱼⱼ这计关ₖₖₖₖPB PA|B/PA=PB PA|B/[∑PB PA|B]一公式是概率统中因果系反推的重要工具关问题应条件概率是处理随机事件之间相性的基本工具,在很多实际中都有重要用全概率公式和贝叶斯公式是条应杂结件概率的两个重要用,前者用于分解复事件的概率,后者用于从果反推原因现应诊断识别习领获贝叶斯定理在代科学和工程中有广泛用,包括医学、模式、机器学等域它提供了一种在得新计维内信息后更新概率估的方法,是概率思的核心容之一事件的独立性独立性的定义相互独立与两两独立独立重复试验则称独满独试验如果PA∩B=PAPB,三个或更多事件的立性需立重复是指在相同条件独独严仅进试验事件A与B相互立立性表足更格的条件不要两两下重复行的随机,每次独还试验结独这示一个事件的发生不影响另一立,要任意子集的交事件的果相互立是概积论抛个事件发生的概率,即PA|B=概率等于各事件概率的乘率中的重要模型,如硬独独币掷验独PA或PB|A=PB立性例如,事件A、B、C相互立、骰子的重复实在满试验试验结是概率中的重要概念,但与互需足七个条件,包括三个两立重复中,各次果独组独斥性完全不同两立条件和PA∩B∩C=成的事件相互立PAPBPC伯努利公式独试验在n次立重复中,事件A恰好发生k次的概率由伯努利公给式出PX=k=Cn,kp^k1-p^n-k,其中p为单试验次中事件A发生的概这项质率是二分布的概率量数函独论没独事件的立性是概率中的核心概念,它描述了随机事件之间有相互影响的情况需要注意的是,立性与互斥性是两个完独独全不同的概念互斥事件(除非都是零概率事件)不可能相互立;相互立的事件(除非有零概率事件)不可能互斥问题独来断数则过计试验在实际中,事件的立性通常要根据具体的物理背景判,而学上的判定需要通概率算伯努利模型在科践应为项论础学研究和工程实中有广泛用,二分布等概率分布提供了理基第二章随机变量及其分布随机变量的定义数将现结为数现数转随机变量是定义在样本空间上的实值函,随机象的果映射实它实了从随机事件到值的换现数进,使得随机象可以用学方法行量化研究离散型随机变量应离散型随机变量的取值是有限个或可列无限个其概率分布可用分布律表示,即列出所有可能取值及其相的项概率常见的离散型分布包括二分布、泊松分布、几何分布等连续型随机变量连续区区数连续型随机变量的可能取值是一个间或多个间的并集其概率分布由概率密度函描述常见的型分匀态数布包括均分布、正分布、指分布等分布函数数过对单调分布函Fx=PX≤x表示随机变量X取值不超x的概率它任意随机变量都有定义,且具有不减、右连续质数、极限等性分布函完整地描述了随机变量的概率分布论内为现数过们将随机变量及其分布是概率的核心容,研究随机象提供了学模型通引入随机变量,我可以随机事转为数应数件的研究化值的研究,从而用学分析的方法和工具数连续分布函是描述随机变量概率分布的基本工具,它既适用于离散型随机变量,也适用于型随机变量概率分布规连论数反映了随机变量取值的律性,是接理模型与实际据的桥梁随机变量的定义与分类随机变量的概念数对数对应随机变量X是定义在样本空间Ω上的实值函,每个样本点ω∈Ω,有一个实值Xω与之随机变将试验结为数数量随机的果映射实,便于学处理离散型与连续型随机变量为连续为区离散型随机变量的取值有限或可列无限多个,用分布律表示概率分布;型随机变量的取值一个数还时连续间,用概率密度函表示概率分布此外有混合型随机变量,同具有离散和的特性分布函数的定义与性质数过质单调分布函Fx=PX≤x,表示随机变量X的取值不超x的概率性包括10≤Fx≤1;2Fx连续不减;3Fx右;4limx→-∞Fx=0,limx→+∞Fx=1随机变量的转换数则过数若Y=gX是X的函,Y也是随机变量求Y的分布可通分布函法F_Yy=PY≤y=PgX≤y,导数连续再求得到概率密度函(型)或列出分布律(离散型)论将现结数数进随机变量是概率的核心概念,它随机象的果用值表示,使得可以用学方法行处理根据取值的不同特为连续数对点,随机变量可分离散型和型两大类分布函是描述随机变量概率分布的基本工具,任何类型的随机变量都适用应们数转换在实际用中,我常常需要研究随机变量的函所构成的新随机变量,如样本均值、样本方差等掌握随机变量对问题关为续维数计检验础的方法于解决实际至重要随机变量及其分布后研究多随机变量、参估和假设奠定了基离散型随机变量概率质量函数分布律的表示方法质数为质数图离散型随机变量X的概率量函(PMF)px定义X取各个可能值的概率px=离散型随机变量的分布律可以用表格、概率量函表达式或概率直方表示表格形式满对围将₁₂对应₁₂数给PX=x它足1任意x,px≥0;2∑px=1,其中求和范是X的所有可能取随机变量的取值x,x,...和的概率p,p,...列出;函表达式出px的解析质数图则观值概率量函完全描述了离散型随机变量的概率分布式;概率直方直展示了取值及其概率项负项质数数现项常见的离散型分布包括伯努利分布、二分布、泊松分布、几何分布和二分布等每种分布都有特定的概率量函和参,适用于不同类型的随机象例如,二分布Bn,p适独试验数用于n次立重复中成功次的建模趋势这数对应离散型随机变量的期望和方差是衡量其集中和离散程度的重要特征期望EX=∑x·px,方差VarX=∑x-EX²·px=EX²-[EX]²些字特征于理解和用概率分布具有重要意义二项分布独立重复试验模型试验为n次,每次成功概率p概率质量函数2PX=k=Cn,kp^k1-p^n-k数字特征3EX=np,VarX=np1-p应用场景4质调量控制、流行病学、民意查项论独试验数试验数则数为项二分布是概率中最基本的离散型分布之一,表示n次立重复中成功的次如果用X表示n次伯努利中成功的次,X服从参n和p的二记为单试验分布,X~Bn,p,其中p是次成功的概率项质₁₁₂₂₁₂独则₁₂₁₂应当时项二分布具有加法性如果X~Bn,p且X~Bn,p,且X与X相互立,X+X~Bn+n,p在实际用中,n很大而p很小,二分当时项态这计布可以用泊松分布近似;n很大,根据中心极限定理,二分布可以用正分布近似些近似方法在实际算中非常有用泊松分布1参数数单时内数泊松分布只有一个参λ,表示位间(或空间)随机事件的平均发生次e^-λλ^k/k!概率质量函数给区内数为随机变量X表示事件在定间发生的次,其分布律PX=k=e^-λλ^k/k!,k=0,1,2,...λ期望数泊松分布的期望等于其参λλ方差数这泊松分布的方差也等于其参λ,是一个重要特性单时内数队现络访问泊松分布是描述位间随机事件发生次的重要概率分布,适用于小概率、大样本量的情况它常用于建模排象、设备故障、网请₁₁₂₂₁₂独则₁₂₁₂求、放射性衰变等随机事件泊松分布具有可加性如果X~Pλ且X~Pλ,且X与X相互立,X+X~Pλ+λ还为项当当时项为这计泊松分布可作二分布的近似n很大而p很小,且np=λ保持适的值,二分布Bn,p可以近似泊松分布Pλ一近似在实际算中别当项数时计项较难非常有用,特是二分布的参n很大,直接算二概率比困几何分布与负二项分布几何分布负二项分布独试验试验数负项独试验几何分布描述了立重复中首次成功所需的次X如二分布是几何分布的推广,描述了立重复中取得第r单试验为则为试验数单试验为则果次成功的概率p,X的分布律次成功所需的总次X如果次成功的概率p,X为的分布律PX=k=1-p^k-1p,k=1,2,3,...PX=k=Ck-1,r-1p^r1-p^k-r,k=r,r+1,r+2,...几何分布的期望EX=1/p,方差VarX=1-p/p²几何分布具记忆负项当有无性PXm+n|Xm=PXn二分布的期望EX=r/p,方差VarX=r1-p/p²r=1时负项为,二分布退化几何分布负项试验们时问题应几何分布和二分布都是基于伯努利模型的离散型概率分布,它在等待间中有广泛用几何分布描述了等待第一次试验数负项则试验数成功的次,而二分布描述了等待第r次成功的次这许应场质检测检产数传数两种分布在实际中有多用景例如,量控制中到第一个次品所需查的品量,通信系统中成功输一个据包所尝试数传导问题负项需的次,以及疾病播研究中患者接触多少人后致新感染等,都可以用几何分布或二分布建模连续型随机变量1概率密度函数的定义连续数负数满数轴积对区型随机变量X的概率密度函PDF是一个非函fx,足∫fxdx=1(在全实上分)任意积连续单间[a,b],有Pa≤X≤b=∫fxdx(从a到b分)与离散型随机变量不同,型随机变量取任意点的概率为零2分布函数与密度函数的关系数数关为负穷积连续分布函Fx与概率密度函fx之间的系Fx=∫ftdt(从无到x分),fx=Fx(在Fx点数数积数数导数处)分布函是概率密度函的分,而概率密度函是分布函的3常见连续分布的特点连续匀数态数数常见的分布包括均分布、指分布、正分布等每种分布都有特定的概率密度函形式和参,用于描现状态线数单调线述不同类型的随机象不同分布有不同的形特征,如正分布的钟形曲、指分布的递减曲等4期望与方差计算连续计为计为型随机变量X的期望算公式EX=∫xfxdx,方差算公式VarX=∫x-EX²fxdx=EX²-这积围进[EX]²,其中EX²=∫x²fxdx些分都在X的取值范上行连续满区过质数连续型随机变量是随机变量的一种重要类型,其取值充某个间与离散型随机变量通概率量函描述不同,过数来数对区型随机变量通概率密度函描述其概率分布概率密度函本身不是概率,而是概率的密度,只有它在某个间上积分才得到概率应连续时产连续在实际用中,型随机变量广泛用于建模物理量、间间隔、品尺寸等变化的量例如,电子元件的寿命可用数测误态区内匀连续质计指分布描述,量差常用正分布描述,间随机位置可用均分布描述掌握型随机变量的性和算方法对问题关解决实际至重要均匀分布指数分布概率密度函数fx=λe^-λx,x0;fx=0,x≤0分布函数Fx=1-e^-λx,x0;Fx=0,x≤0数字特征EX=1/λ,VarX=1/λ²无记忆性PXs+t|Xs=PXt数连续来独时数单时指分布是一种重要的型概率分布,常用描述立随机事件发生的间间隔参λ表示位间内数称为数数过时事件发生的平均次,也率参指分布是泊松程中事件之间等待间的分布,如果事件发生则时数服从泊松分布Pλ,事件之间的等待间服从指分布Expλ数独质记忆数对指分布最特的性是无性如果一个随机变量X服从指分布,那么PXs+t|Xs=PXt任这时单没时单意s,t0成立意味着,如果某元件已经使用了s个间位而有失效,那么它再使用t个间位而时单这质论队论不失效的概率,与一个新元件使用t个间位不失效的概率相同一性在可靠性理、排和生应存分析中有重要用正态分布正态分布的定义与参数态称连续数为态记为态数关正分布(也高斯分布)是最重要的型概率分布,其概率密度函fx=1/√2πσ²e^-x-μ²/2σ²,其中μ是期望,σ²是方差正分布通常Nμ,σ²正分布的概率密度函呈钟形,于x=μ对称标准正态分布与一般正态分布当时态称为标态记为数为数为则这换将态转为标态μ=0,σ=1,正分布准正分布,N0,1其概率密度函φx=1/√2πe^-x²/2,分布函Φx若X~Nμ,σ²,Z=X-μ/σ~N0,1一变任意正分布化准正分态计础布,是正分布算的基正态分布的性质与应用态许质线组态则约数围内独态态应测误质正分布具有多重要性性合仍是正分布;3σ原(
99.7%的据在μ±3σ范);中心极限定理(大量立同分布随机变量之和近似服从正分布)正分布广泛用于量差分析、量控评领制、金融风险估等域态论计这仅为许现还为证态这态为许计论础正分布在概率和统学中占有核心地位,不因它能够很好地拟合多自然象,因中心极限定理保了在一定条件下,大量随机变量之和的分布近似服从正分布使得正分布成多统方法的理基应过标态计软计态对数态检验数计态质计对习计断在实际用中,通查准正分布表或使用统件可以方便地算正分布的概率于据分析,正性是很多参统方法的前提掌握正分布的性和算方法于学统推具有重要意义第三章多维随机变量及其分布多维随机变量的概念联合分布与边缘分布组关维结单由多个随机变量成的向量,描述多个相随机全面描述多随机变量的概率构和各分量的独量分布条件分布随机变量的独立性4计关在已知某些分量取值的条件下,其他分量的概率分量之间无统相性的特殊情况分布维关问题应维维论缘多随机变量是研究多个相随机量的基本工具,在实际中具有广泛用本章主要研究二或多随机变量的概率分布理,包括联合分布、边分独内布、条件分布以及随机变量的立性等容过维们关赖这许问题关标关通多随机变量,我可以研究随机变量之间的相互系和依性在多科学和工程中至重要,例如分析多个经济指之间的相性、研究多种对综评杂组维论对应计风险因素健康的合影响、估复系统中多个件的可靠性等掌握多随机变量的理于理解和用多元统方法具有重要意义二维随机变量二维随机变量的定义联合分布函数的性质离散型与连续型二维随机变量维维数为维二随机变量X,Y是定义在同一样本空间Ω上的两个随机二随机变量X,Y的联合分布函定义离散型二随机变量可用联合分布律px,y=PX=x,Y=y组对将质满连续维变量成的有序它每个样本点ω∈Ω映射到平面上Fx,y=PX≤x,Y≤y,它具有以下性表示,足px,y≥0且∑∑px,y=1型二随机维关关单调则数满的点Xω,Yω二随机变量可以描述两个相随机10≤Fx,y≤1;2Fx,y于x和y不减;变量有联合概率密度函fx,y,足fx,y≥0且关连续量,如身高与体重、收入与支出等3Fx,y于x和y右;4F-∞,y=Fx,-∞=0,∫∫fx,ydxdy=1,并且PX,Y∈D=∫∫fx,ydxdy,对区积区为F∞,∞=1;5任意矩形域,其中分域D₂₂₂₁PX,Y∈R=Fx,y-Fx,y-₁₂₁₁Fx,y+Fx,y维关数维数则过这二随机变量是研究两个相随机量的基本工具联合分布函完整描述了二随机变量的概率分布,而联合分布律或联合概率密度函提供了更直接的概率信息通些函数们计维区,我可以算二随机变量落在平面上任意域的概率应维对现产质标场资产湿维质在实际用中,二随机变量可以描述各种成出的随机量,例如品的两个量指、金融市的两种收益、气象学中的温度和度等理解和掌握二随机变量的性计对关进预测和算方法,于分析变量之间的系和行概率具有重要意义边缘分布边缘分布的定义边缘分布的计算对维缘仅虑对缘为于二随机变量X,Y,X的边分布是指考X的取值而不于离散型随机变量,X的边分布律p_Xx=∑px,y,其虑缘仅虑对进缘为考Y的取值的概率分布类似地,Y的边分布是指考Y的中求和是y的所有可能取值行的类似地,Y的边分布律缘数别为对进取值的概率分布边分布函分p_Yy=∑px,y,其中求和是x的所有可能取值行的F_Xx=PX≤x=Fx,+∞和F_Yy=PY≤y=F+∞,y对连续缘数为于型随机变量,X的边概率密度函缘积对负穷穷进边分布完全由联合分布确定,但反之不然即知道X和Y的边f_Xx=∫fx,ydy,分是y从无到正无行的类似缘们独缘数为积对分布,一般不能确定它的联合分布,除非X和Y相互立地,Y的边概率密度函f_Yy=∫fx,ydx,分是x从负穷穷进无到正无行的缘维单为过缘们将关边分布是研究多随机变量中个分量概率行的重要工具通边分布,我可以注意力集中在心的特定随机变量上,而虑这简计计不必考其他变量的具体取值在化概率算和统分析中非常有用缘为将数维维从几何角度看,边分布可以理解联合概率密度函在特定方向上的投影例如,在三空间中,二随机变量的联合概率密度数为缘数则这标轴线这观缘计函表示一个曲面,而边概率密度函是个曲面在坐上的投影曲种直理解有助于掌握边分布的算方法条件分布条件分布的定义对维时于二随机变量X,Y,在Y=y的条件下X的条件分布描述了在已知Y取特定值y X的概率行为对为于离散型随机变量,条件分布律px|y=PX=x|Y=y=px,y/p_Yy,其中p_Yy0对连续数为于型随机变量,条件概率密度函fx|y=fx,y/f_Yy,其中f_Yy0条件概率密度函数的性质数满质对积条件概率密度函fx|y足以下性1任意x,fx|y≥0;2∫fx|ydx=1,分遍积区为数及X的所有可能取值;3PaXb|Y=y=∫fx|ydx,分间[a,b]条件概率密度函给完全描述了在定Y=y条件下X的概率分布条件分布的应用预测断过条件分布是和推的重要工具在已知某些随机变量取值的情况下,通条件分布可预测为计观测以更准确地其他随机变量的行例如,在统决策中,基于已变量的条件分布可以减小不确定性,提高决策的准确性赖关过们当条件分布是研究随机变量之间相互依系的基本工具通条件分布,我可以分析一个随机变时为这对赖结关量取特定值,另一个随机变量的概率行如何变化于理解随机变量之间的依构至重要缘关这关条件分布与联合分布、边分布之间有密切系fx,y=fx|y·f_Yy=fy|x·f_Xx些系计断应过观测式在概率算和贝叶斯推中有广泛用例如,在信号处理中,通值的条件分布可以提取被习归础噪声污染的原始信号;在机器学中,条件分布是构建分类和回模型的基随机变量的独立性独立性的定义与判断独立随机变量的性质对数则称独对独则缘数独如果任意实x和y,有Fx,y=F_Xx·F_Yy,随机变量X和Y相互立于离散型随机变如果X和Y相互立,1X的条件分布等于其边分布,Y同理;2任意函gX和hY也相互独对对连续独对过积计这量,立等价于所有x,y,有px,y=p_Xx·p_Yy于型随机变量,立等价于几乎所立;3EXY=EX·EY;4VarX+Y=VarX+VarY;5X+Y的分布可通卷公式算些质简独计有x,y,有fx,y=f_Xx·f_Yy性大大化了立随机变量的算独论没计赖关独这关协为独随机变量的立性是概率中的核心概念,它描述了随机变量之间有统依系的情况立性意味着一个变量的取值不会影响另一个变量的概率分布与互不相(方差零)是不同的概念,立性更导关强,必然致不相,但反之不然维独满数缘数积独对计许杂问题独简计应在多随机变量中,多个随机变量的相互立需要足更强的条件联合分布函等于边分布函的乘立性概率算有重要影响,多复在立性假设下可以得到大幅化在统用中,样本独许计的立性是多统方法的基本假设二维正态分布第四章随机变量的数字特征期望与方差趋势这期望描述随机变量的平均水平或集中,方差描述随机变量的离散或波动程度两个特征量是描述标对许问题随机变量分布的最基本指,多概率的分析具有重要意义协方差与相关系数协关数线关协关关数方差和相系用于度量两个随机变量之间的性相程度方差的符号表示相方向,相系则将关标区较对关相性准化到[-1,1]间,便于比不同变量之间的相强度矩与中心矩状阶们详细矩和中心矩是描述随机变量分布形的高特征量它可以提供比期望和方差更的分布信息,如对称偏度(分布的不性)和峰度(分布尾部的厚度)等特征函数数换对应关数特征函是随机变量概率分布的傅里叶变,它与分布之间存在一一系特征函是研究随机变时量和分布的强大工具,尤其在处理随机变量和的分布非常有用数们简数过数随机变量的字特征是概率分布的重要描述工具,它以洁的值形式概括了分布的主要特点通字特们对质认识征,我可以在不完全了解随机变量分布的情况下,随机变量的性有基本计践数关数计对应数计在统实中,据的样本均值、样本方差、样本相系等统量是总体字特征的估掌握随机变数计质对进计断将量字特征的算方法和性,于理解概率分布、建立随机模型和行统推都具有重要意义本章系绍这数计质统介些字特征的定义、算方法和基本性期望离散型随机变量的期望连续型随机变量的期望随机变量函数的期望称数连续为数对数计为离散型随机变量X的期望(或学期望、均值)定型随机变量X的期望定义其概率密度函与自于随机变量X的函Y=gX,其期望算公式为对应积积积积围对对连续义其所有可能取值与概率的乘之和EX=变量乘的分EX=∫x·fxdx,分范是X离散型,EgX=∑gx·px;型,围这当积这∑x·px,其中求和范是X的所有可能取值一的所有可能取值类似地,只有分∫|x|·fxdx EgX=∫gx·fxdx一公式避免了先求Y的级数敛则敛时为计杂过计定义要求∑|x|·px收,否期望不存在收,期望才存在期望可以理解概率分布的分布再算期望的复程,在实际算中非常有重心位置用数为质数轴线质期望是随机变量最基本的字特征,表示随机变量取值的平均水平从物理意义上看,期望可以理解量分布在上的重心位置期望具有性性数别当独时EaX+bY=aEX+bEY,其中a和b是常特地,X和Y相互立,有EXY=EX·EY质为预测现计应计论础领期望的性使其成分析和随机象的重要工具在统用中,样本均值是总体期望的无偏估量在决策理中,期望效用是理性决策的基在金融资产资组计质对计应关域,的期望收益率是投合构建的重要依据掌握期望的算方法和性于概率统的用至重要方差σ²σ方差定义标准差为标术纲观随机变量X的方差定义其取值与期望之差的平方的期望值VarX=E[X-EX²]准差是方差的算平方根,与随机变量具有相同的量,更直反映离散程度EX²DX计算公式符号表示计记方差的另一算公式VarX=EX²-[EX]²,其中EX²是X平方的期望方差有多种表示法,包括VarX、DX或σ²,在不同文献中可能使用不同号对计为对连续计为于离散型随机变量,方差算公式VarX=∑x-EX²·px或VarX=∑x²·px-[EX]²于型随机变量,方差算公式VarX=∫x-EX²·fxdx或VarX=∫x²·fxdx-计计计们[EX]²实际算中,通常采用第二种形式,即先算EX和EX²,再算它的差质当仅当为数数独则这质计计方差具有以下性1VarX≥0,且VarX=0且X常;2Vara+bX=b²·VarX,其中a和b是常;3如果X和Y相互立,VarX+Y=VarX+VarY些性在概率算和统应为现趋势分析中有广泛用方差与期望一起构成了描述随机变量分布的基本特征量,理解随机象的集中和离散程度提供了定量依据协方差与相关系数协方差的定义相关系数的定义协为关数标协为随机变量X和Y的方差定义CovX,Y=E[X-相系是准化的方差,定义ρX,Y=1别EXY-EY]它描述了两个随机变量偏离各自CovX,Y/σ_X·σ_Y,其中σ_X和σ_Y分是X关计简为标关数围2均值的相性算公式可以化CovX,Y=和Y的准差相系的取值范是[-1,1],|ρ|线关EXY-EX·EY越大表示性相性越强几何意义独立与不相关关数释为将标内积独则相系可以解X和Y准化后的,它如果随机变量X和Y相互立,CovX,Y=0,即标归们关关等于两个准化随机变量的余弦值在回分析3它不相但反之不然不相(即CovX,Y=关数线关释独中,相系的平方表示可由性系解的方0)不一定意味着立只有在特殊情况下,如二维态关独差比例正分布,不相与立等价协关数线关协负线关关倾方差和相系是度量两个随机变量之间性相性的重要工具方差的正表示性相的方向正值表示正相(一个变量增大,另一个也向于增大),负负关倾协难较对关值表示相(一个变量增大,另一个向于减小)但方差的大小受变量尺度影响,以直接比不同变量之间的相强度关数协赖将协标区关数关负关关计相系克服了方差的尺度依性,它方差准化到[-1,1]间相系ρ=1表示完全正相,ρ=-1表示完全相,ρ=0表示不相在统分析中,相关数关为归计础应关数对关数计数系是研究变量之间系的基本工具,回分析、因子分析等多元统方法提供了基在实际用中,样本相系是总体相系的估,常用于探索关结据之间的相构矩与中心矩原点矩与中心矩的定义偏度与峰度阶为数为₁标随机变量X的k原点矩定义EX^k,表示X的k次方的期望偏度系定义γ=E[X-EX³]/σ³,其中σ是准差偏阶为对称侧较负k中心矩定义E[X-EX^k],表示X偏离其期望的k次方的期度描述了分布的不性正偏度表示右尾部长,偏度表状侧较对称态望原点矩和中心矩描述了分布的形特征示左尾部长,零偏度表示分布(如正分布)阶阶阶数为₂一原点矩是期望EX,二中心矩是方差VarX三中心矩峰度系定义γ=E[X-EX⁴]/σ⁴-3峰度描述了分布的计阶计这阶态用于算偏度,四中心矩用于算峰度些高矩提供了分尖峭程度或尾部厚度正峰度表示分布比正分布更尖峭(尾部状详细负态布形的更信息更厚),峰度表示分布比正分布更平坦(尾部更薄),零峰对应态度正分布状阶阶则状矩和中心矩是描述概率分布形的重要工具低矩(如期望和方差)描述了分布的位置和离散程度,而高矩提供了分布形的细节别们别对称断态标更多特是偏度和峰度,它分描述了分布的不性和尖峭程度,是判分布是否接近正分布的重要指计对应计过计数断数计在统分析中,样本矩是总体矩的估量通算据的样本矩,可以推总体分布的特征矩法是参估的重要方法之过将论计数数数关为一,通样本矩与理分布的矩方程联立,可以估分布参此外,矩母函和特征函与矩序列有密切系,研究随机变量的分布提供了强大工具特征函数特征函数的应用特征函数与矩的关系数论应特征函数的性质特征函在概率中有广泛用则数特征函数的定义如果E|X|^k∞,特征函在1确定分布概率分布与其特征函数质阶导数对应计特征函具有以下性t=0处k可,且φ_X^{k}0=一一;2算矩;3处理数为这过证随机变量X的特征函定义1φ_X0=1;2|φ_Xt|≤1;i^k·EX^k意味着可以通随机变量和的分布;4明极限定虚数匀连续数数导数获数φ_Xt=Ee^{itX},其中i是3φ_Xt是均函;特征函的在原点处的值得理,如中心极限定理特征函是单数数对轭数阶数位,t是实参离散型随机4φ_X-t=φ_Xt的共复;随机变量的各矩特征函的泰研究随机变量分布的有力工具对独则开数关变量,φ_Xt=∑e^{itx}px;5如果X和Y立,φ_{X+Y}t=勒展式与矩母函有密切系连续型随机变量,φ_Xt=φ_Xt·φ_Yt;6如果Y=aX+数则∫e^{itx}fxdx特征函可以看b,φ_Yt=换作概率分布的傅里叶变e^{itb}·φ_Xat数论对应关数势问题独数特征函是概率中的重要工具,它与概率分布之间存在唯一的系特征函的优在于处理随机变量和的立随机变量和的特征函等于数积这质数为独各自特征函的乘一性使得特征函成研究立随机变量和的分布的有效方法数态数为数为常见分布的特征函有明确的表达式例如,正分布Nμ,σ²的特征函φt=expiμt-σ²t²/2;泊松分布Pλ的特征函φt=expλe^{it}-项数为过数导质关为论1;二分布Bn,p的特征函φt=pe^{it}+1-p^n通特征函,可以推出各种分布的性和系,概率理提供了统一的分析框架第五章大数定律与中心极限定理大数定律切比雪夫不等式数当时给大定律描述了样本量足够大,样本均切比雪夫不等式出了随机变量偏离其期望趋现值近于总体期望的象它有多种形式,的概率上界P|X-EX|≥ε≤数数数为这赖包括弱大定律和强大定律大定律VarX/ε²一不等式不依于分布的具体计断论础释为对统推提供了理基,解了什么样形式,任何具有有限方差的随机变量都成计来计数证数本统量可以用估总体参立它是明大定律的重要工具中心极限定理独当标态中心极限定理表明,大量立同分布随机变量的和(经适准化后)的分布近似服从正分释为态现为许计论布它解了什么正分布在自然和社会象中如此普遍,并多统方法提供了理基础数论们组计规大定律和中心极限定理是概率中的基本极限定理,它揭示了大量随机变量合的统律性这仅论现为计断坚数础些定理不在理上统一了大量随机象,也统推提供了实的学基将详细绍这内应过这们释为本章介些基本极限定理的容、条件和用通理解些定理,我可以解什么样计来计数为许计区本统量(如样本均值、样本比例)可以用估总体参,以及什么多统方法(如间估计检验态这连论数计对、假设)可以基于正分布建立些定理是接概率与理统的桥梁,于深入理解统计断论础关推方法的理基至重要切比雪夫不等式切比雪夫不等式的推导切比雪夫不等式的应用导对负转为切比雪夫不等式的推基于马尔科夫不等式于任意非随机变量Y切比雪夫不等式可以化P|X-EX|ε1-VarX/ε²,表明随数将别对和正a,有PY≥a≤EY/a随机变量X的偏差平方X-EX²代机变量在其期望附近的集中程度特地,于k0,有P|X-EX|标围内入马尔科夫不等式,并设a=ε²,即可得到切比雪夫不等式P|X-EX|kσ1-1/k²,其中σ是准差例如,随机变量落在期望±2σ范对为围内为≥ε≤VarX/ε²,任意ε0成立的概率至少1-1/4=
0.75,落在期望±3σ范的概率至少1-给这1/9≈
0.89切比雪夫不等式出了随机变量偏离其期望的概率上界,一上界只依赖关计应证计于随机变量的方差和偏离量ε,而与随机变量的具体分布形式无切比雪夫不等式在统学中有广泛用,如确定样本量以保估精证数尽度、明大定律、分析算法的概率性能界等管切比雪夫界通常不紧为如基于具体分布的界,但其普适性使其成概率分析的重要工具证础对负数这马尔科夫不等式是明切比雪夫不等式的基马尔科夫不等式指出,于非随机变量Y和正a,有PY≥a≤EY/a一不等式提供了随机过阈证积简单积变量超某值的概率上界,其明利用了期望的分定义和的分不等式尽态紧管切比雪夫不等式提供的概率界通常不如基于具体分布(如正分布)的界致,但它的价值在于其普适性它适用于任何具有有限方差的随机这为论为变量,不要求知道具体的分布形式使得切比雪夫不等式成概率中最基本的不等式之一,研究随机变量的集中性提供了一般性工具大数定律弱大数定律对独₁₂₁则于立同分布的随机变量序列{X,X,...},如果E|X|∞,样本均值₁₂敛₁对ₙₙₙX̄=X+X+...+X/n依概率收于期望μ=EX即任意ε0,P|X̄-μ|ε→1n→∞强大数定律对独₁₂₁则敛ₙ于立同分布的随机变量序列{X,X,...},如果E|X|∞,样本均值X̄几乎必然收于期₁数数敛ₙₙ望μ=EX即Plim→∞X̄=μ=1强大定律比弱大定律要求更强的收性伯努利大数定律数数试验独试验伯努利大定律是大定律的特例,适用于伯努利序列如果在n次立重复中事件A发生数为ₐ单试验为则频ₐ敛ₙₙ的次n,事件A在次中发生的概率p,率f=n/n依概率收于p,即P|f-p|ε→1n→∞应用数应罗计计计计数大定律用广泛,如蒙特卡方法中用样本均值估期望,统学中样本统量估总体参,保频将释为对频论础险业中风险分散原理,以及率学派概率解长期相率的理基数现计规当时趋这大定律揭示了大量随机象中的统律性,它表明样本量足够大,样本均值会近于总体期望一定律释为现观现计稳为计断论础解了什么随机象在大量重复察下会表出统定性,统推方法提供了理基数数区别敛数敛对误围弱大定律和强大定律的在于收方式不同弱大定律中的依概率收表示于任意小的差范,样这围内当趋穷时数敛本均值落在一范的概率n于无接近1;而强大定律中的几乎必然收表示样本均值序列以概率1敛敛为虽数结论数应数收到期望,即收的概率1然强大定律的更强,但在大多用中,弱大定律已经足够使用中心极限定理独立同分布的中心极限定理₁₂独ᵢᵢ则标数敛标态数对数设{X,X,...,Xₙ}是立同分布的随机变量序列,EX=μ,VarX=σ²0,随机变量和的准化形式Sₙ-nμ/σ√n的分布函收到准正分布函,即任意实x,PSₙ-₁₂标态数nμ/σ√n≤x→Φxn→∞,其中Sₙ=X+X+...+Xₙ,Φx是准正分布函棣莫弗拉普拉斯定理-项独试验数则当时标态这为态棣莫弗-拉普拉斯定理是中心极限定理的特例,适用于二分布如果随机变量X~Bn,p表示n次立重复中成功的次,n足够大,X-np/√np1-p近似服从准正分布一定理使用正分项论础布近似二分布提供了理基应用场景计应应计断为区计检验论释为为资组中心极限定理在统学和用科学中有广泛用在统推中,它间估和假设方法提供了理依据;在通信中,它解了什么噪声常被建模高斯噪声;在金融中,它用于风险度量和投合分验释为测误态析;在科学实中,它解了什么量差常呈正分布论独趋态规这释为态现许现这应导态中心极限定理是概率中最重要的定理之一,它揭示了大量立随机变量和的分布近于正分布的普遍律一定理解了什么正分布在自然和社会象中如此普遍多随机象可以看作多种因素的叠加,根据中心极限定理,种叠加效致正分布的广泛出现诺组称为诺这宽独对贡对较仅论现为计李雅普夫提出了中心极限定理成立的一条件,李雅普夫条件些条件放了立同分布的要求,表明即使随机变量不完全相同,只要每个变量总和的献相小,中心极限定理仍然适用中心极限定理不在理上统一了大量随机象,也众多统方法应础的用提供了基第六章样本及抽样分布总体与样本计断统推的基本概念抽样分布计样本统量的概率分布常用统计量数样本均值、方差与分位正态总体的抽样分布χ²分布、t分布与F分布数计础对断计样本与抽样分布是理统的基概念总体是研究象的全体,包含感兴趣的随机变量及其分布;样本是从总体中抽取的部分个体,用于推总体特征样本统数计数则计计断论础量是样本的函,用于估总体参;抽样分布描述了样本统量的概率分布,是统推的理基将绍简单计质别计绍态本章介随机抽样的基本概念,分析常用统量的性和分布,特是均值、方差等统量的抽样分布重点介正总体下的重要抽样分布χ²分布、t分这续数计检验应论对计断关布和F分布,些分布在后的参估和假设中有广泛用掌握抽样分布理于理解统推方法的原理和适用条件至重要样本与统计量简单随机样本的定义常用统计量简单独计数数计随机样本是指从总体中随机抽取的n个相互立且与总体同分布的随机变量统量是样本的函,不含任何未知参常用的统量包括₁₂简单观测独ₙX,X,...,X随机抽样要求样本中的每个值都是相互立的,且服₁₂计这证计质ₙ
1.样本均值X̄=X+X+...+X/n,用于估总体均值μ从相同的总体分布种抽样方式保了样本的代表性和统量的良好性ᵢ计
2.样本方差S²=∑X-X̄²/n-1,用于估总体方差σ²简单标计标在实际操作中,随机抽样要求总体中的每个个体有相等的被抽取概率,且
3.样本准差S=√S²,用于估总体准差σ独这过数计数现每次抽样相互立通常通随机表或算机随机生成器实阶ᵢᵏ计阶ᵏₖ
4.样本k原点矩m=∑X/n,用于估总体k原点矩EX阶ᵢᵏ计阶ᵏₖ
5.样本k中心矩m=∑X-X̄/n,用于估总体k中心矩E[X-μ]数数顺计计应数
6.样本中位、四分位等序统量,用于估总体的相分位关数当时敛应敛样本矩与总体矩之间存在密切系根据大定律,样本量n足够大,样本矩依概率收于相的总体矩例如,样本均值X̄依概率收于总体均值μ,样本方差敛这为计计数论础S²依概率收于总体方差σ²用样本统量估总体参提供了理基验关计态验数为过观ₙ样本分布与经分布是两个相但不同的概念样本分布指的是样本统量的概率分布,如样本均值的正分布;经分布函定义F x=样本中不超x的测数数计维当时验数敛数这为数计值个/n,它是总体分布函的一个估根据格利文科-康托洛奇定理,n→∞,经分布函几乎必然收于总体分布函,非参统方法提供础了基分布χ²分布的定义分布的性质和应用χ²χ²独₁₂标态则们质如果n个相互立的随机变量Z,Z,...,Zₙ都服从准正分布N0,1,它的平方和χ²分布具有以下重要性₁₂为记为连续Y=Z²+Z²+...+Zₙ²服从自由度n的χ²分布,Y~χ²nχ²分布是一种重要的型概率分布,其概数为
1.期望EY=n,方差VarY=2n率密度函数₁₁₂₂独则₁₂₁₂fy=1/2^n/2Γn/2·y^n/2-1·e^-y/2,其中y0,Γn/2是伽马函
2.可加性如果Y~χ²n和Y~χ²n相互立,Y+Y~χ²n+n当时态
3.n很大,χ²分布近似于正分布Nn,2n计应区计检验独检验态检验χ²分布在统学中有广泛用,如方差的间估、χ²拟合优度、立性、正性等态计逊态计态₁₂则计为χ²分布是最早研究的非正分布之一,由英国统学家皮尔引入在正总体的抽样中,多种统量的分布涉及χ²分布例如,若从正总体Nμ,σ²中抽取样本X,X,...,Xₙ,统量n-1S²/σ²服从自由度n-1的χ²分布,其中S²是样本方差给数对记ₐ为侧为数ₐ这数区计检验态χ²分布表出了不同自由度和概率水平下的χ²分位于自由度n的χ²分布,χ²n右尾部概率α的分位,即PY≥χ²n=α些分位在间估和假设中经常使用例如,在构造正总体方差的置信区时数应过计软获这数间,需要用到χ²分布的分位在实际用中,可以通查表或使用统件取些分位分布tn自由度状标态t分布的形由自由度n决定,n越大,t分布越接近准正分布0对称性关轴对称为当时t分布是于y的,期望0(n1)n/n-2方差为当时标态t分布的方差n/n-2(n2),大于准正分布的方差1t_{α/2}n双侧分位数区侧数满常用于构造置信间的双分位,足P|T|≥t_{α/2}n=α称标态t分布(或学生t分布)是由威廉·戈塞特(笔名学生)于1908年引入的概率分布其定义如下若随机变量Z服从准正分布N0,1,随机变量V服为独则为记为从自由度n的χ²分布,且Z与V相互立,随机变量T=Z/√V/n服从自由度n的t分布,T~tn数为数数标态t分布的概率密度函ft=Γn+1/2/√nπ·Γn/2·1+t²/n^-n+1/2,其中t是实,Γ是伽马函与准正分布相比,t分布有更厚的这计标带来额当趋穷时趋标态态尾部,反映了由于使用样本估总体准差而的外不确定性自由度n于无,t分布近于准正分布t分布在小样本下的正总体均值断归数检验应推、回系等方面有重要用分布F正态总体的抽样分布样本均值的分布样本方差的分布两个正态总体的抽样分布₁₂来态简单则对来态简单₁₁别来态₁₁ₙₙ₁ₙ₂设X,X,...,X是自正总体Nμ,σ²的随机样本,于自正总体Nμ,σ²的随机样本设X,...,X和Y,...,Y分是自正总体Nμ,σ²₂₂独简单则态计为和Nμ,σ²的立随机样本,
1.样本均值X̄服从正分布Nμ,σ²/n
1.统量n-1S²/σ²服从自由度n-1的χ²分布当₁₂时计Ȳ₁标计标态独这态质
1.σ²=σ²=σ²,统量X̄--μ-
2.准化统量X̄-μ/σ/√n服从准正分布N0,
12.样本均值X̄与样本方差S²相互立,是正总体特有的性₂₁₂为₁₂μ/S_p√1/n+1/n服从自由度n+n-2的t分布,当时标计标
3.σ未知,用样本准差S代替σ,得到统量X̄-μ/S/√n其中S计_p是₁合并样₂本准₂差₁为₁₂为计
2.统量S²/S²·σ²/σ²服从自由度n-1,n-1的F分布服从自由度n-1的t分布
3.样本方差S²的期望ES²=σ²,表明S²是σ²的无偏估量态论计断础过这们数区进检验断断正总体的抽样分布理是统推的基通了解些抽样分布,我可以构造总体参的置信间和行假设例如,基于样本均值分布可以推总体均值;基于样本方差分布可以推总体计较方差;基于两样本统量可以比两个总体的均值或方差态质这态计独态质这简计断证正总体的抽样分布有很多优良性,使得正分布在统学中占有特殊地位例如,样本均值和样本方差的立性是正分布特有的性,大大化了统推此外,中心极限定理保了在大态态这态论计样本条件下,即使总体分布不是正的,样本均值的分布也近似服从正分布,使得基于正理的统方法具有广泛的适用性第七章参数估计点估计区间估计计计观测来计数数计区计数区给这区数证点估是用样本统量的值估总体未知参的具体值常用的点估方法包括间估是构造一个包含总体参的随机间,并出一间包含真参的概率保计计计计数测区区计区约矩估法、最大似然估法和最小二乘估法点估提供了参的最佳猜值,但不置信间是间估的主要形式,例如均值的95%置信间表示,若重复抽样多次,关计区包含于估精度的信息95%的间会包含真实总体均值计论数计将数为验对数识过结数验进进贝叶斯估是一种基于贝叶斯理的参估方法,它参视随机变量,并使用先分布表达参的已有知通贝叶斯定理合样本信息,得到参的后分布,而行点计区计杂势估或间估贝叶斯方法在小样本和复模型下有特殊优评计标计数计当趋穷时计敛数计价估量的准包括无偏性(估量的期望等于被估参)、有效性(在无偏估量中方差最小)、相合性(样本量于无,估量依概率收于被估参)和充分性(估量关数计这标现问题选择计包含样本中于参的全部信息)不同估方法可能在些准上有不同表,需要根据具体合适的估方法点估计的方法矩估计法计计数关数骤计矩估法的基本思想是用样本矩估总体矩,然后根据总体矩与参之间的系求解参具体步包括算总体矩与参数关计将关数计计计简单计的系式;算样本矩;样本矩代入系式,求解参估值矩估法算,但效率通常低于最大似然估最大似然估计法计数选择现数为计骤数对数最大似然估法基于似然函,使样本出概率最大的参值作估值步包括构造似然函Lθ;取得到对数数导数为数计计渐渐渐态似然函ln Lθ;求并令其零,解方程得到参估值最大似然估具有近无偏性、近有效性和近正质性等良好性最小二乘估计法计选择观测预测数归应别线归当误项最小二乘估使值与值偏差平方和最小的参值它在回分析中广泛用,特是性回差服从态时计计计简释对正分布,最小二乘估等价于最大似然估最小二乘法算便,有明确的几何解,但异常值敏感4估计量的性质评计标̂计当时̂渐价估量的主要准包括无偏性(Eθ=θ);有效性(在无偏估量中方差最小);一致性(n→∞,θ→θ);态计态计应当尽满这标问题权近正性(大样本下估量近似服从正分布)好的估量可能足些准,但在实际中往往需要衡计计断础过为数数计计点估是统推的基,它通样本信息总体未知参提供具体的值估不同的点估方法基于不同的原理,适用于不同的问题场计简单计较计渐质杂数计景矩估法概念,算方便,但效率低;最大似然估法具有良好的近性,但可能涉及复的值算;最小二计归应对乘估法在回分析中用广泛,但异常值敏感应计选择虑论质计杂对在实际用中,估量的需要考多方面因素,包括理性、算复度、样本量大小、模型假设的敏感性等例如,小样虑关渐计产计结这本情况下可能优先考无偏性,而大样本情况下可能更注近效率不同估方法可能生不同的估果,理解些差异的原因对释计结关正确解统分析果至重要区间估计置信区间的概念区数区为数置信间是包含总体参真值的随机间,形式[LX,UX],其中L和U是样本的函1-α置信水平的含义区约区数区仅计还是若重复抽样构造间多次,有1-α×100%的间会包含参真值置信间不提供点估值,表计示估的精确程度正态总体均值的置信区间对态当时区为当时于正总体Nμ,σ²的均值μσ已知,μ的1-α置信间X̄±z_{α/2}·σ/√n;σ未知,μ的1-α置信区为区计间X̄±t_{α/2}n-1·S/√n间长度与样本量n成反比,表明增大样本量可提高估精度正态总体方差的置信区间对态区为于正总体Nμ,σ²的方差σ²,其1-α置信间[n-1S²/χ²_{α/2}n-1,n-1S²/χ²_{1-α/2}n-1]方差的区对称计对称质数标区对应关置信间是非的,反映了方差估的非性需要注意χ²分位的下与间边界的系两个正态总体参数的置信区间态₁₂区当时态当时两个正总体均值差μ-μ的置信间方差已知使用正分布;方差未知但相等使用t分布和合并计态₁₂区₁₂₁₂方差估两个正总体方差比σ²/σ²的置信间基于F分布S²/S²/F_{α/2}n-1,n-1₁₂₁₂₁₂σ²/σ²S²/S²/F_{1-α/2}n-1,n-1区计计仅给数计还计区宽计间估比点估提供了更多信息,它不出参的估值,表明了估的精确程度置信间的度反映了估的精确区计区宽区宽区性间越窄,估越精确影响置信间度的因素包括置信水平(1-α越大,间越);样本量(n越大,间越标区宽标区宽窄);总体准差(σ越大,间越);样本变异性(样本准差S越大,间越)区释误数区内这需要注意的是,置信间的概率解容易被解1-α置信水平不表示参真值落在特定间的概率是1-α,而是表示用种区约数应选择方法构造的间中,大有1-α×100%会包含参真值在实际用中,常用的置信水平有90%、95%和99%,哪一个问题区计计断组应计试验领取决于背景和精确度要求间估是统推的重要成部分,广泛用于科学研究、工程设、医学等各个域第八章假设检验假设检验的基本思想过数评关通样本据价于总体的假设参数假设检验2检验数总体参(如均值、方差)的假设非参数假设检验3赖检验不依总体分布形式的方法拟合优度检验4检验来样本是否自特定分布检验计断对断断关₀过假设是统推的重要方法,用于根据样本信息总体的特征做出推性判它的基本思想是先提出一个于总体的假设(原假设H),然后通样本信息计检验计检验计绝检验结绝对错误算统量,依据统量的取值决定是否拒原假设假设的果不是的,而是包含一定的概率检验错误错误错误绝₀错误错误₀检验显错误检验假设有两类第一类(拒真的H)和第二类(接受假的H)的著性水平α控制第一类的概率,而的功效1-β衡量正绝₀错误时应问题当将绍数检验数检验这确拒假的H的能力两类通常无法同减小,在实际用中需要根据背景适平衡本章系统介参假设和非参假设的基本方法,些应应方法在科学研究、工程用和商业决策中有广泛用假设检验的基本步骤假设的提出检验₀择₁观假设首先需要提出两个互补的假设原假设(H)和备假设(H)原假设通常表示无差异或无效果的择证观须数择单侧₁₀点,而备假设表示研究者希望明的点原假设必明确指定参值,而备假设可以是的(如H:θθ或₁₀侧₁₀H:θθ)或双的(如H:θ≠θ)检验统计量的选择检验计数计数检验计选择统量是基于样本据算的随机变量,用于衡量样本据与原假设的符合程度统量的取决于假设内检验计计态计态的容、总体分布的假设和样本量常用的统量包括Z统量(正分布,σ已知)、t统量(正分布,σ未计检验计检验知)、χ²统量(方差)、F统量(方差比)等临界区域的确定临区检验计当检验计区时绝临区显界域是统量取值的集合,统量落入此域拒原假设界域的确定基于指定的著性水为检验计对单侧检验临区侧对侧检平α(通常
0.05或
0.01)和统量在原假设下的分布于,界域在分布的一;于双验临区侧临临区过计软,界域分布在两界值是界域的边界点,可通分布表或统件查得结论的做出数计检验计将临区较计检验计临区则根据样本据算统量的值,其与界域比,做出统决策若统量落入界域,拒绝择则绝过计观检验计原假设,接受备假设;否,不拒原假设也可以通算p值(察到的或更极端的统量值出现显则绝结问题释计结论的概率)做出决策若p值小于著性水平α,拒原假设决策后需合具体背景解统的实际意义检验骤断结论计论假设的基本步构成了一个系统的推框架,从提出假设到做出的每一步都有明确的统理依据值得注意的是,绝证绝证为这不拒原假设不等同于接受原假设,它只是表示样本据不足以拒原假设,而不是明原假设真反映了科学推理证伪则中的原应检验选择虑数数在实际用中,假设方法的需要考多种因素,包括据的分布特征、样本量大小、参类型以及研究目的等理解检验围释检验结对关计术许不同方法的假设条件和适用范,正确解果,于科学研究和决策制定都至重要随着算机技的发展,杂检验过计软轻现检验应释结关键多复的可以通统件松实,但理解的基本原理仍然是正确用和解果的正态总体的假设检验非参数假设检验符号检验秩和检验拟合优度检验χ²检验简单数检验数检验检验对检验检验来论将符号是一种的非参方法,用于总体中位或配秩和包括Wilcoxon符号秩(用于配样本)和χ²拟合优度用于样本是否自特定的理分布它对负计数虑数关检验检验独观测频数论预频数进较计ᵢ样本差异它基于正号的,不考值大小,只注Wilcoxon秩和/Mann-Whitney U(用于立样与理分布期行比,统量χ²=∑O-E对数检验₀₀计为这数检验ᵢᵢᵢ观测频数ᵢ预频数观测方向于中位μ的,原假设H:μ=μ,统量样本)些方法基于据的秩(排序位置),比符号效率²/E,其中O是,E是期大的χ²值表示₀数₀数当检验虑顺预显导绝该检验数本中大于μ的值的个(或小于μ的值的个)样本量更高Wilcoxon符号秩考了差值的大小序;Mann-与期差异著,致拒原假设适用于分类据和较时该计态检验简单检验较独检验们连续数过组组预频数大,统量近似服从正分布符号易用,但Whitney U比两个立总体,它的分布是否相据(通分),且要求每期不宜太小(通常较数当较时这检验计态议效率低,只利用了据的方向信息同样本量大,些统量近似服从正分布建大于5)独检验检验应检验独观测频数预频数较计ᵢⱼᵢⱼᵢⱼ该检验应立性是χ²的一种用,用于两个分类变量之间是否相互立它基于列联表中的与期的比,统量χ²=∑∑O-E²/E广泛用于社会科学、医费为关检验疗关学和商业研究中,例如分析不同人口学特征与消行之间的系,治方法与恢复效果之间的联等数检验赖围们别显态数为级数难验证非参方法不依于总体分布形式的特定假设,因此适用范更广它特适用于总体分布未知或明偏离正分布;据等或分类据;样本量小且以分布假设;存在极数数数计简单结论稳态时较选择检验虑数计端值或异常值影响参方法非参方法通常比参方法算,更健,但在总体确实近似正效率低合适的方法需要考据特征、研究目的和统效率等多方面因素课程总结概率论基础随机变量与分布独随机事件、概率定义、条件概率与立性等基本概将现结数论础为现数随机变量随机象的果用值表示,概率分布1念构成了概率的基,研究随机象提供了这仅严数还描述了随机变量可能取值及其概率常见分布如二学工具些概念不有格的学定义,有直项态应观应计分布、泊松分布、正分布等在实际中有广泛的实际意义,是理解和用概率统方法的前们用,掌握它的特性有助于建立合适的随机模型提实际应用与扩展统计推断方法计术计断数断概率统方法在科学研究、工程技、经济金融、4统推是从样本据推总体特征的方法,包括领应数数计检验这将观测数医学生物等域有广泛用随着据科学和人工参估和假设两大类些方法据计习维数结智能的发展,统学、贝叶斯方法、高据分与概率模型合,提供了从局部到整体、从样本到为计传数析等成概率统的新兴研究方向,拓展了统理总体的科学推理框架,是据分析和决策制定的重论应围的用范要工具论数计课绍现数计断应识过课习应当《概率与理统》程系统介了随机象的学描述和统推方法,从基本概念到具体用,构建了完整的知体系通本程的学,你理解了概率的基质应场计断本定义和性,掌握了常见概率分布的特点和用景,熟悉了统推的基本方法和原理计维现组数时计显过课概率统思是代科学方法的重要成部分,它提供了处理不确定性和变异性的系统方法在大据和人工智能代,概率统方法的重要性更加凸希望通本程习仅论还养计维问题应这识断来习进的学,你不掌握了基本的理和方法,培了概率统思,能够在实际中合理用些知,做出科学的推和决策未的学中,可以一步探索贝叶斯计时计级题计应围统、间序列分析、多元统分析等高主,拓展统方法的用范。
个人认证
优秀文档
获得点赞 0