还剩11页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
第章多元正态分布的基本概念1
一、多元分布的基本概念随机向量概念
1.P2设为个随机变量,由它们组成的向量整体,称为随机X1,X2,…,Xp p X=X1X2,…,Xp’变量分布函数与密度函数概念
2.P3分布函数定义设,是一随机向量,它的多元分布函数是,X=X1X2,…,Xp Fx=FXiX2「・・Xp=PX1wX1,X2W X2,…,Xp4Xp式中,x=x,x,•••,XpeRp,并记成X〜F12密度函数定义设X〜Fx=FMM,…,Xp,若存在一个非负的函数f・,使得Fx=里叫,对于成立,14,…,tpWtig-x=Xi/,…,XpeRP则称或有分布函数并称为连续型随机向量的分布密度,当且仅当X Fxf Xi/%0,X/XGRPx dxiiS f=1RP.随机向量的数字特征公式3P4一随机向量的均值X P4设,有个分量若存在,定义随X=X=X2,…,Xp pEXi=mi=12…,P机向量的均值为:XEX=四是一个维向量,称为均值向量p当为常数矩阵时,由定义可立即推出如下性质:A,B1EAX=AEX.主成分分析与因子分析的区别与关联、异同点(必考)5P143联系两者都常用于数据降维和信息浓缩,都是从一个协方差阵出发生成的新变量均包括了原始变量的大部分信息(一般大于可根据具体情况定)且新变量之间互80%,相独立,都可以用于后续的回归分析、判别分析、聚类分析等主成分分析是因子分析的一个特例区别原理不同()1主成分分析()基本原理利用降维(线性变换)的Principal componentsanalysis,PCA思想,在损失很少信息的前提下把多个指标转化为几个不相关的综合指标(主成分),即每个主成分都是原始变量的线性组合,且各个主成分之间互不相关,使得主成分比原始变量具有某些更优越的性能(主成分必须保留原始变量以上的信息),从而90%达到简化系统结构,抓住问题实质的目的因子分析()基本原理利用降维的思想,由研究原始变量相关矩Factor Analysis,FA阵内部的依赖关系出发,把一些具有错综复杂关系的变量表示成少数的公共因子和仅对某一个变量有作用的特殊因子线性组合而成就是要从数据中提取对变量起解释作用的少数公共因子(因子分析是主成分的推广,相对于主成分分析,更倾向于描述原始变量之间的相关关系)(线性表示方向不同)2因子分析是把变量表示成各公因子的线性组合;主成分分析中则是把主成分表示成各变量的线性组合()假设条件不同3主成分分析不需要有假设;因子分析需要一些假设因子分析的假设包括各个共同因子之间不相关,特殊因子之间也不相关,共同因子和特殊因子之间也不相关()求解方法不同4求解主成分的方法从协方差阵出发(协方差阵已知),因子从相关阵出发(相关阵已知)R(实际研究中,总体协方差阵与相关阵是未知的,必须通过样本数据来估计)注意事项由协方差阵出发与由相关阵出发求解主成分所得结果不一致时,要恰当的选取某一种方法;一般当变量单位相同或者变量在同一数量等级的情况下,可以直接采用协方差阵进行计算;对于度量单位不同的指标或是取值范围彼此差异非常大的指标,应考虑将数据标准化,再由协方差阵求主成分;实际应用中应该尽可能的避免标准化,因为在标准化的过程中会抹杀一部分原本刻画变量之间离散程度差异的信息此外,最理想的情况是主成分分析前的变量之间相关性高,且变量之间不存在多重共线性问题(会出现最小特征根接近的情况)0求解因子载荷的方法主成分法,主轴因子法,极大似然法,最小二乘法,因子提a取法()主成分和因子的变化不同5主成分分析当给定的协方差矩阵或者相关矩阵的特征值唯一时,主成分一般是固定的独特的;因子分析因子不是固定的,可以旋转得到不同的因子()因子数量与主成分的数量不同主成分分析得到的主成分数等于原始变量数目;6因子分析得到的因子数量一般由人为事先确定()解释重点不同7主成分分析重点在于解释个变量的总方差;因子分析则把重点放在解释各变量之间的协方差()算法上的不同8主成分分析协方差矩阵的对角元素是变量的方差;因子分析所采用的协方差矩阵的对角元素不在是变量的方差,而是和变量对应的共同度(变量方差中被各因子所解释的部分)()优点不同9因子分析对于因子分析,可以使用旋转技术,使得因子更好的得到解释,因此在解释主成分方面因子分析更占优势;其次因子分析不是对原有变量的取舍,而是根据原始变量的信息进行重新组合,找出影响变量的共同因子,化简数据主成分分析第一如果仅仅想把现有的变量变成少数几个新的变量(新的变量几乎带有原来所有变量的信息)来进入后续的分析,则可以使用主成分分析,不过一般情况下也可以使用因子分析;第二通过计算综合主成分函数得分,对客观经济现象进行科学评价;第三它在应用上侧重于信息贡献影响力综合评价;第四应用范围广,主成分分析不要求数据来自正态分布总体,其技术来源是矩阵运算的技术以及矩阵对角化和矩阵的谱分解技术,因而凡是涉及多维度问题,都可以应用主成分降维应用范围不同()10在实际的应用过程中,主成分分析常被用作达到目的的中间手段,而非完全的一种分析方法,提取出来的主成分无法清晰的解释其代表的含义而因子分析就是一种完全的分析方法,可确切的得出公共因子……主成分本质是一种线性变换,因子分析是描述原变量的相关阵结构的一种模型……主成分的解是唯一的,而因子分析的解是不唯一的……应用目的不同第章典型相关分析(个问题,基本理论及方法)81典型相关分析的基本理论及方法(必考)(核心表达式要写,谁和谁相等)
1.P188-P193基本思想在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止步骤()确1定典型相关分析的目标()设计典型相关分析()检验典型相关分析的基本假设()234估计典型模型,评价模型拟合程度()解释典型变量()验证模型典型相关分析的56用途很广(核心表达式要写,谁和谁相等!!!课本!!!)第章,聚类分析与判别分析的相关和区别(必考)3系统聚类,均值聚类K-第章,判别分析的思想和步骤(必考)4P82第章,主成分分析与因子分析的区别与关联、异同点(必考)56P143第章,典型相关分析的基本理论及方法(必考)8P188-P1932EAXB=AEXB二随机向量的协方差阵X P4叫舛£=covX,X=EX-EXX-EX}=DX=称它为维随机向量的协方差阵,简称的协方差阵称为的广义方差,pXX|covX,X|X它是协方差阵的行列式之值二随机向量和丫的协方差阵X P4设,和丫=丫,丫分别为维和维随机向量,它们X=X1X2,…,XpY12,…,Yp pq之间的协方差阵定义为一个矩阵,其元素是即pxq covXj,Yj,,,,covX,Y=covXi Yj,i=1,2,…p;j=1,2,…q四随机向量的相关阵X P5
二、统计距离马氏距离的定义
1.马氏距离表示数据的协方差距离,是一种有效的计算两个未知样本集的相似度的方法马氏距离也可以定义为两个服从同一分布并且其协方差矩阵为£的随机变量之间的差异程度是用坐标差平方除以方差或说乘以方差的倒数,从而转化为无量纲数的,推广到多维就要乘以协方差阵的逆矩阵£一E1欧氏距离是一个通常采用的距离定义,指在维空间中两个点之间的真实距离,或m者向量的自然长度即该点到原点的距离在二维和三维空间中的欧氏距离就是两点之间的实际距离.欧氏距离与马氏距离的差别2欧氏距离是马氏距离的特例,马氏距离考虑了数据的协方差,马氏距离中协方差矩阵是单位矩阵时就是欧氏距离马氏距离的计算是建立在总体样本的基础上的,这一点可以从协方差矩阵的解1释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同;)在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样2本协方差矩阵逆矩阵不存在,这种情况下,用欧氏距离计算即可)还有一种情况,满足了条件总体样本数大于样本的维数,但是协方差矩阵的逆3矩阵仍然不存在,比如三个样本点()()和()这种情况是因为这三个3,4,5,67,8,样本在其所处的二维空间平面内共线这种情况下,也采用欧氏距离计算)在实际应用中总体样本数大于样本的维数〃这个条件是很容易满足的,而所4有样本点出现)中所描述的情况是很少出现的,所以在绝大多数情况下,马氏距离3是可以顺利计算的,但是马氏距离的计算是不稳定的,不稳定的来源是协方差矩阵,这也是马氏距离与欧氏距离的最大差异之处
三、多元正态分布.多元正态分布的性质1P10
四、均值向量和协方差阵的估计.离差阵的定义1P14
五、常用分布及抽样分布.分布之间的关系(不需要性质)1P15-P18第章均值向量和协方差阵的检验2
一、均值向量的检验多元统计的检验(检验统计量)
2.P22-P23多总体均值的检验(检验程序及分布)
3.P25-P27
二、协方差阵的检验(这个看一下就好,均值检验公式才是重点)协方差阵的检验P27-P28第章聚类分析(填空、问答)3注聚类、判别、因子、主成分考很多问答题聚类分析与判别分析的相关和区别(必考)L聚类分析根据研究对象特征对研究对象进行分类的一种多元分析技术,把性质相
1.近的个体归为一类,使得同一类中的个体都具有高度的同质性,不同类之间的个体具有高度的异质性根据分类对象的不同分为样品聚类(聚类)和变量聚类(聚类)Q R判别分析根据一定量案例的一个分组变量和相应的其他多元变量的已知信息,确
2.定分组与其他多元变量之间的数量关系,建立判别函数,然后便可以利用这一数量关系对其他未知分组类型所属的案例进行判别分组判别分析中的因变量或判别准则是定类变量,而自变量或预测变量基本上是定距变量依据判别类型的多少与方法不同,分为多类判别和逐级判别判别分析的过程是通过建立自变量的线性组合(或其他非线性函数),使之能最佳地区分因变量的各个类别区别与联系
3.都是研究分类的(区别聚类分析事先不知道研究对象的类别)基本思想不同()1聚类分析的基本思想根据相似性(亲疏关系),具体找出一些能够度量样品或指标之间相似程度的统计量,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些相似程度较大的样品(或指标)又聚合为另一类;关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕判别分析的基本思想对已知分类的数据建立由数值指标构成的分类规则即判别函数,然后把这样的规则应用到未知分类的样本去分类)研究目的不同(2虽然都是研究分类的,但在进行聚类分析前,对总体到底有几种类型不知道(研究分几类较为合适需从计算中加以调整)判别分析则是在总体类型划分已知,对当前新样本判断它们属于哪个总体聚类分析分两种型聚类(对样本的聚类),型聚类(对变量的聚类)聚类()3Q R分析需要注意的是,一般小样本数据可以用系统聚类法,大样本数据一般用快速聚类法(均值聚类法),当研究因素既有分类变量又有计量变量,可以用两步聚类K()判别分析4有判别,判别和逐步判别一般用判别即可,要考虑概率及误判Fisher BayesFisher损失最小的用判别,但变量较多时一,一般先进行逐步判别筛选出有统计意义Bayes的变量,再结合实际情况选择用哪种判别方法聚类分析的基本思想(课本)我们认为,所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)聚合为另一类……关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)都聚合完毕,把不同的类型一一划分出来,形成一个由小到大的分类系统最后再把整个分类系统画成一张分群图(又称谱系图),用它把所有的样品(或指标)间的亲疏关系表示出来聚类分析不仅可以用来对样品进行分类,也可以用来对变量进行分类对样品分类常称为型聚类分析,对变量的分类常称为Q R型聚类分析.系统聚类分析的基本思想2先将聚类的样本或变量各自看成一群,然后确定类与类间的相似统计量,并选择最接近的两类或若干个类合并成一个新类,计算新类与其他各类间的相似性统计量,再选择最接近的两群或若干群合并成一个新类,直到所有的样本或变量都合并成一类为止(首先,将个样品看成类(一类包含一个样品),然后将性质最接近的两类合并n n成一个新类,得到类,再从中找出最接近的两类加以合并,变成类,如此下去,n-l n-2最后所有的样品均在一类,将上述并类过程画成一张图(称为聚类图)便可决定分多少类,每类各有哪些样品)聚类分析的基本思想和功能是什么?聚类分析的核心思想是根据具体的指标(变量〉对所研究的个体或者对象进行分类,使得同一类中的对象之间的相似性比其他类的对象的相似性更强聚类分析不仅可以用来对样品进行分类,也可以用来对变量进行分类对样品的分类常称为型聚类分Q析,对变量的分类常称为型的聚类分析R聚类分析的目的或功能就是把相似的研究对象归成类,即使类间对象的同质性最大化和类与类间对象的异质性最大化.系统聚类分析的步骤3P47看课本系统聚类分析法的基本步骤为(数据的正规化和标准化;正规化和标准化数据)、(数据分类尺度计算;计算数据分类尺度)、(分类树形图的绘制;绘制分类树形图)和(类别的划分;划分类别).相似性度量(几个距离公式了解一下)4P40-
41.类和类的特征(方法)5P44-P46均值聚类的过程,操作步骤(程序、过程、操作步骤)
6.K-P56-P57均值聚类算法是一种迭代求解的聚类分析算法,其步骤是,预将数据分为组,k K则随机选取个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之K间的距离,把每个对象分配给距离它最近的聚类中心聚类中心以及分配给它们的对象就代表一个聚类每分配一个样本,聚类的聚类中心会根据聚类中现有的对象被重新计算这个过程将不断重复直到满足某个终止条件终止条件可以是没有(或最小数目)对象被重新分配给不同的聚类,没有(或最小数目)聚类中心再发生变化,误差平方和局部最小.系统聚类法的原理和步骤7P62()系统聚类的基本思想是:距离相近的样品(或变量〉先聚成类,距离相远的1后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中()系统聚类的具体步骤:假设总共有个样品(或变量)2N第一步:将每个样品(或变量)独自聚成一类,共有类;N第二步:根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其他的样品(或变量)仍各自聚为一类,共聚成类;第三步:将“距N-1离”最近的两个类进一步聚成一类,共聚成类;,以上步骤一直进行下去,N-2最后将所有的样品(或变量)全聚成一类第章判别分析(最核心的几个方法类,流程、思想)4判别分析的思想和步骤(必考)
1.P82其基本原理是按照一定的判别准则,建立一个或多个判别函数,用研究对象的
1.大量资料确定判别函数中的待定系数,并计算判别指标据此即可确定某一样本属于何类基本思想根据判别中的组数,可以分为两组判别分析和多组判别分析;根据判别函数的形式,可以分为线性判别和非线性判别;根据判别式处理变量的方法不同,可以分为逐步判别、序贯判别等;根据判别标准不同,可以分为距离判别、判Fisher别、判别法等Bayes步骤已知某种事物有几种类型,现在从各种类型中各取一个样本,由这些样
2.本设计出一套标准,使得从这种事物中任取一个样本,可以按这套标准判别它的类型判别分析的个步骤过程6⑴判别分析的对象这一步骤主要根据判别分析的研究目的定义观测变量⑵判别分析的研窕设计主要包括解释变量和被解释变量的选择、估计判别函数所需的样本量和为了验证目的对样本的分割⑶假定推导判别函数的关键假定是解释变量的多元正态性和被解释变量定义的各组的未知但相等的协方差结构⑷估计判别模型和评估整体拟合研究者必须确定估计的方法,然后确定保留的函数个数;根据估计的函数可用多种方法来评估模型拟合⑸结果的解释这个过程主要介绍在判别分析中每个解释变量的相对重要性,主要有标准化判别权重、判别载荷(结构相关系数)、偏值三种方法确定重要性F()结果的验证通常采用分割样本或者交叉验证法6判别分析的流程研究问题〉设计要点〉假定〉估计判别函数〉使用分类矩阵估计预测的精度>判别函数的解释>判别结果的验证.距离判别2P84-P
85.判别分析的上机步骤(例)34-1P90-P103第章主成分分析5(考个分析题,看下例题,解释重点表,内容含义,涉及计算,如何保留主成分)1主成分分析的原理、基本思想、步骤
1.对于原先提出的所有变量,将重复的变量(关系紧密的变量)删去多余,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息设法将原来变量重新组合成一组新的互相无关的几个综合变量,同时根据实际需要从中可以取出几个较少的综合变量尽可能多地反映原来变量的信息的统计方法叫做主成分分析或称主分量分析,也是数学上用来降维的一种方法基本思想保持原始变量尽可能多的信息的前提下达到降维的目的.2主成分分析是设法将原来众多具有一定相关性(比如个指标),重新组合成一组新P的互相无关的综合指标来代替原来的指标通常数学上的处理就是将原来个指标作P线性组合,作为新的综合指标最经典的做法就是用(选取的第一个线性组合,即F1第一个综合指标)的方差来表达,即()越大,表示包含的信息越多因此Var FlF1在所有的线性组合中选取的应该是方差最大的,故称为第一主成分如果第一F1F1主成分不足以代表原来个指标的信息,再考虑选取即选第二个线性组合,为了有P F2效地反映原来信息,已有的信息就不需要再出现在中,用数学语言表达就是要求F1F2()则称为第二主成分,依此类推可以构造出第
三、第四,……,第Cov Fl,F2=0,F2P个主成分步骤
3.指标数据标准化(软件自动执行);
1.SPSS指标之间的相关性判定;
2.确定主成分个数;
3.m主成分表达式;
4.Fi主成分命名
5.Fi.总体主成分及其性质4P110-P
115.主成分分析的上机实现(计算)5P120-P132第章因子分析6因子分析的基本思想及步骤(原理、思想、步骤)
1.基本原理是为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量和(分别为两个变量组中各变量的线性组合),利用这Ui W两个综合变量之间的相关关系来反映两组指标之间的整体相关性.基本思想2P
135.步骤:3P143⑴确认待分析的原始变量是否适合作因子分析;⑵构造因子变量;⑶利用旋转方法使因子变量具有可解释性;⑷计算每个样本的因子变量得分.因子载荷的求解主成分法、主轴因子法、因子旋转法)(4P139-142。
个人认证
优秀文档
获得点赞 0