还剩14页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据分析的策略在研究设计思路指导下进行医学科学研究,研究结果常常以数据形式呈现,这些数据提供了丰富的信息然而,如何从大量的看似杂乱无章的数据中萃取和提炼有用的信息,以揭示其中隐含的内在规律,帮助研究者进行判断或推理,还需要对这些纷繁复杂的数据进行分析数据分析是分析和处理变量间关系的理论与方法,所涉及变量常被分为解释变量和反应变量,解释变量又称分组变量、协变量等,反应变量是表示试验效应的变量或指标变量的观测值构成数据或资料,常有计量资料、计数资料和等级资料之分数据分析指的是对数据进行统计分析,就是根据抽样研究的方法,利用概率论与数理统计的原理,对样本信息进行分析和研究,从而对所研究的事物的统计规律性作出概率性的估计和推断具体内容包括数据的变量变换、统计量的选择策略、参数估计与假设检验方法应用策略第一部分数据的变量变换策略许多统计分析方法对数据有一定要求,如检验、检验,要求样本独立地来自正态总体,方差齐同;又如直线回归分析要求自变量与应变量呈线性关系,每个对应的总体为正态分布,各个正态分布的总体方差相等,各次观测彼此独立然而,仍有大量的医学资料往往不满足上述要求,在分析过程中对资料进行变量变换验若满足正态性或/和方差齐性,采用非参数检验,如秩和检验,其目的是推断多个总体分布位置是否不Kruskal-Wallis同计数资料
2.
(1)单样本分析目的推断某个总体率与已知总体率(一般为标准值、理论值或经过大量观察所得稳定值等)是否不等应用条件及方法选择样本含量较大且与均不太小,如且时,可采用单样本检验、单样本检验或二项分布直接计算概率法检验;样本含量较小时,可采用二项分布直接计算概率法检验;样本含量较大,如,或很小,如或时,可采用分布直接计算概Poisson率法检验
(2)两样本或多样本分析目的推断两个或多个总体率(或构成比)是否不等应用条件及方法选择对于两样本率比较的四格表资料,样本总例数且时,可采用两样本率比较的检验、检验或确切概率Fisher检验;样本总例数且时,可采用两样本率比较的校正检验、校正检验或确切概率检验;样本总例数、或四格表其他假设检验方法所Fisher得概率十分接近检验水准时,可采用确切概率检验对于多样本Fisher率或两组(或多组)样本构成比比较的表资料,的格子数不超过时,1/5可采用检验或确切概率检验;以上格子的,或有一个格子的Fisher1/5时,可采用确切概率检验Fisher等级资料
3.对于等级资料,主要采用秩转换的非参数检验分析目的推断两个(或多个)总体分布(或分布位置)是否不同应用条件及方法选择两样本比较时,可采用秩和检验Wilcoxon或秩和检验;多样本比较时,可采用秩Kruskal-Wallis Kruskal-Wallis和检验
(二)单个反应变量的配对(配伍)设计研究计量资料
4.()两样本(配对设计)1分析目的推断两个总体均数是否不等(或差值的总体均数与是否0不等)应用条件及方法选择对子数较大()时,可采用配对差值的单样本检验;配对差值满足正态性要求或通过数据变换满足要求时,可采用配对检验或配伍组设计(随机区组设计)资料的方差分析;对子数不太大且差值不满足正态性要求时,可采用非参数检验,如配对Wilcoxon符号秩检验、配伍组设计(随机区组设计)资料的秩和检验,Friedman其目的是推断两个总体分布位置是否不同()多样本(配伍组设计,随机区组设计)分析目的推断多个2总体均数是否不等应用条件及方法选择资料满足正态性与方差齐性要求或通过数据变换满足要求时,可采用配伍组设计(随机区组设计)资料的方差分析;资料不满足正态性与方差齐性要求时,可采用非参数检验,如Friedman秩和检验,其目的是推断多个总体分布位置是否不同计数资料
5.分析目的推断两个总体率是否不等应用条件及方法选择配对四格表资料中,不相同结果频数为,可采用校正的配对四格表资料检验或确切概率检验Fisher与,如,可采用配对四格表资料检验或确切概率检验;Fisher等级资料
6.对于等级资料,主要采用秩转换的非参数检验分析目的推断两个或多个总体分布位置是否不同应用条件及方法选择配对设计,两样本比较时,可采用Wilcoxon符号秩和检验;配伍组设计(随机区组设计),多样本比较时,可采用秩和检验Friedman
(三)单个反应变量的其他设计研究其他常见设计方案有交叉设计、拉丁方设计、正交试验设计、嵌套设计、析因试验设计、重复测量设计等,若获取资料为计量资料,当满足相应条件时,可分别采用该设计方案对应的单变量方差分析
(四)双变量关联性对于具有一个解释变量,一个反应变量的双变量资料,可从相关与回归两方面进行分析,因此有相关系数的假设检验、整个回归模型的假设检验以及回归系数的假设检验O相关分析
1.分析目的推断两变量的线性相关关系是否存在(总体相关系数是否不为)0应用条件及方法选择双变量计量资料,满足线性、独立、二元正态与等方差条件时,对相关系数进行检验,可采用Pearson相关系数的检验或直接查表法检验;不满足二元正态分布Pearson时,对秩相关系数进行检验,可采用秩相关系数Spearman Spearman的检验或直接查表法检验;双变量计数资料(表),可采用列联系数的检验;反应变量为计量资料,解释变量为二分类变Pearson量时,可采用点双序列相关系数的检验回归分析
2.分析目的推断解释变量与反应变量的直线数量比例关系是否存在(总体回归系数是否不为)B0o应用条件及方法选择:满足线性、独立、正态与等方差条件时,可采用回归系数的检验、回归方程的检验
(五)多变量关联性相关分析
3.度量多个变量间相关关系的统计量有复相关系数、偏相关系数,度量一组变量与另一组变量相关关系的统计量有典型相关系数,对此可进行相应的假设检验回归分析多个解释变量与一个反应变量间数量依存关系的分析有
4.多元线性回归、回归、回归等,相应的假设检验有对偏logistic Cox回归系数的检验与整个回归方程的检验此外,还有
①对个或多个组别间的多个反应变量组成的向量组进行2的假设检验,如检验、多元方差分析等;
②等方差的假设检验,如检验、检验、检验等;
③对某样本来自的总体分布进行推断的Bartlett Levene分布拟合优度检验;
④两变量间的其他非线性关系以及其他多元统计方法,如聚类分析、判别分析、主成分分析、因子分析等涉及到的有关统计量及其对应的假设检验,具体内容请参考有关文献,在此不作阐述(钟晓妮)一摘自《医学科学研究与设计》主编孙振球人民卫生出版社
2008.9是解决问题的途径之一恰当的数据transformation ofvariable变换可以一定程度上使资料满足统计分析方法的要求,如使资料符合正态化、方差齐同化、曲线直线化等要求常用的变量变换方法有对数变换、平方根变换transformation oflogarithm平方根反正弦变换transformation ofsquare root倒数变换transformation ofinverse sinetransformation of概率单位变换reciprocaltransformation ofprobability unitlogit变换、反双曲正切变换transformation oflogit transformationof得分变换inverse hyperbolictangent transformationof scorebox-cox变换transformation ofbox・cox等第二节统计量的选择策略统计量是由样本观测值计算出来的,反映样本分布特征statistic的指标对反应变量特征的描述中,计量资料有集中趋势指标与离散程度指标,计数资料与等级资料有相对数指标;对于解释变量和反应变量间关系的描述,有互依关系指标、依存关系指标等如何从众多统计量中选择适宜的统计量描述样本分布特征是至关重要的o
二、选择统计量的策略数据分析涉及众多统计量,基于分析目的,通常依据资料类型、资料特征、解释变量和反应变量个数等来选择适宜的统计量表9・1计量资料常用统计量的选择策略不同分析目的下的常用统计量反应变量数资料特征-------------------------------------------------------------------------——-平均水平变异程度单峰对称分布,尤其正态单个反应变量分布资料算术均数9方差、标准差S、变异系数CV*S27种豆布类型鹿料,但主要是偏态分布资料,分布单个反应变量一端或两端无确切数值的中位数M四分位间距QR、全距R资料等比级数资料,经对数变换呈对称分布资料,尤其对单个反应变量几何均数G数正态分布资料多个反应变量多元正态分布均数向量协方差矩阵*CV主要用于度量衡单位不同或均数相差悬殊的多个变异程度的比较表计数资料与等级资料常用统计量的选择策略9-2资料特征主要分析目的常用统计二一二分类计数资料某现象发生的频率或强度S二分类或多分类计数资料、等级资料某事物内部各组成部分所占比重构成比此外,相对比也是常用的派生统计量指标,是两个有关指标之比,旨在描述两个指标间比例关系这两个有关的指标可以是基于计量资料、计数资料而计算出的统计量,也可以是某绝对数表解释变量与反应变量间关联性常用统计量的选择策略
9.3解释变反应变量量(X)个(丫)个资料类型资料特征主要分析目的分析方法常用统计量数数11计量资料线性、独立、正态、x与丫的线性依存直线回归分析回归系数〃等方差关系21计量资料线性、独立、正态、多元线性回归分偏回归系数2等方差X、…X,“与析y的线性依存关系21非线性y为计数资料、各因素危险度大小logistic回归分析回归系数2优势比0等级资料21非线性各因素危险度大小Cox回归分析回归系数々风险比RR,截尾变量为计数资料;时间变量为计量资料11计量资料线性、独立、二相关的程度与方直线相关分析Pearson相关系数r元正态、等方差向11计量资料或等相关的程度与方向等级相关分析Spearman等级相关系数r.、s级资料不服从双变量正Kendall等级相关系数〃态分布、总体分布类型未知、有不确定值、双向有序且x、y属性不同的RxC列联表11计数资料RxC列联表关联程度关联性分析Pearson列联系数C11配对四格表关联程度关联性分析点相关系数广二分类计数资料11为计量资y服从正态分布关联程度关联性分析点双序列相关系数r bn料,为二分类变量21计量资料多元正态分布多元线性相关分复相关系数R多个变量同时与某析一变量相关的程度21计量资料多元正态分布多元线性相关分偏相关系数其他变量固定时,析()()()()…,〃71…i i+i…/-1/+1某两个变量间相关程度与方向22计量资料两组变量之间的典型相关分析典型相关系数m—相关程度第三节参数估计方法应用策略、概念描述某总体特征的指标称为参数(parameter),但在抽样研究中,参数往往是未知的,抽样研究的目的正是通过样本推断参数参数估计是统计推断重要内容之一,estimation ofpopulation parameters分为点估计()与区间估计()两point estimationinterval estimation种形式点估计就是用相应样本统计量直接作为其总体参数的估计值,区间估计是按预先给定的概率()所确定的包含未知总体参数的一个范围
二、常用参数估计方法应用策略数据分析中常用统计量均是其总体参数的点估计量,如样本均数是总体均数的点估计量,样本率是总体率的点估计量良好的参数点估计量必须满足
①无偏性统计量的数学期望等于被估计参数;
②一致性即当样本含量无穷大时,统计量等于参数;
③有效性方差最小估计量为有效的估计量对于参数的区间估计,可综合考虑分析目的、准确度与精度、资料分布特征、样本含量及其他有关条件等来选择具体的估计方法主要参数的区间估计方法(双侧)如下
(一)正态总体均数〃的可信区间.总体标准差已知或样本含量足够大时,总体均数的可信区1间为x-5千,x+%券](9/3)\/〃7几JA或(),x+u-^9-14a/2其中,是标准正态分布水准双侧分位数一般求其可信区间,95%=
1.
96..总体标准差未知时,总体均数的可信区间为2,()X—”;x+t/2,v~i=\9-15a其中是自由度的分布水准双侧分位数一般求其95%可信区间,查界值表得t
(二)总体几何均数的二可信区间1-lg(lg G-t—,1g T(1g G+t a〃v3土)](9-18)al2v其中,
(三)总体率〃的可信区间若〃较小(〃,采用查表法,获得的(或)可信区间;L50)1-a95%99%.若充分大且,采用正态近似法获得的可信区间,万的可信区间为21-aW打I pQ_P)1(
9.26)I〃几)P1〃,P+〃y1,〃a/2a/2
(四)分布资料总体均数丸的可信区间Poisson.若样本计数采用查表法,获得的(或)可信区间1X50,21-a95%99%.若样本计数,采用正态近似法获得的可信区间,的可信区间为2()()x-u y[x,x+u4x9-29a/2a/2
(五)总体回归系数夕的可信区间La3sb,b+tj)(9-30)其中,为回归系数的标准误,
(六)总体均数从\的可信区间1—2利用直线回归方程,在处的总体均数的可信区间为「又-百八,L Xy1X5匕9-31—a/2*Sy.x又几ZX—又〃ZX-2,2°3”其中,为剩余标准差,o
(七)总体相关系数夕的可信区间If第一步,对样本相关系数作反双曲正切函数变换:()Z=arctanhr9-32或()Z Jn*9-3321-r第二步,求的可信区间(,)9-34Z+%2第三步,对(,)作反变换,求的可信区间:)(%35)第四节假设检验方法应用策略
一、概念假设检验()是对总体的参数或分布作出某种假设,然hypothesis test后采用适当的方法,根据样本提供的信息,根据小概率原理,推断此假设是否成立,而作出应当拒绝或不拒绝该假设的一种统计推断方法,分为参数法与非参数法两种,是数据分析的重要手段根据分析目的,有对反应变量所服从的分布进行推断的假设检验;亦有对解释变量不同组别间某个(或多个)反应变量进行比较的假设检验,如对均数、方差或均数向量、率、构成比等的假设检验;还有对解释变量与反应变量间关系进行推断的假设检验,如对回归模型、回归系数、相关系数的假设检验等
二、常用假设检验方法应用策略假设检验分为参数法与非参数法,在一般情况下,若资料满足参数法应用条件,首先考虑参数法,不满足时才考虑非参数法具体假设检验方法的确定离不开对以下几个问题的思考还是对解释变量与反应变量是对两组或多组反应变量进行比较分析目的明确假设检验的目的,是推断某样本来自何种分布间关系作出推断设计方案辨析设计方案,把握众多设计方案的区别与联系资料类型判断资料类型,面对的资料是计量的,还是计数或是等级的解释变量(分组变量)与反应变量的个数确认解释变量(分组变量)与反应变量的个数,是单个解释变量对单个反应变量,还是“多”对“单”,“多”对“多”……同时,须注意解释变量的水平数样本含量考虑样本含量的大小,是小样本还是大样本应用条件不能忽略具体的应用条件,根据应用条件,选择正确的假设检验方法是获得正确、可靠结论的基本保证常用假设检验方法应用策略如下
(一)单个反应变量的完全随机设计研究计量资料
1.()单样本1分析目的推断某个总体均数与已知总体均数(一般为标准值、理论值或经过大量观察所得稳定值等)是否不等应用条件及方法选择样本含量足够大()时,可采用单样本检验或单样本检验样本含量不太大,资料满足正态性要求或通过数据变换满足要求时,可采用单样本检验;样本含量不太大且资料不满足正态性要求时,可采用非参数检验,如单样本符号秩检验,其目的是推断某个总体分布位置如中位Wilcoxon数与已知总体分布位置是否不同()两样本2分析目的推断两个总体均数是否不等应用条件及方法选择两组的样本含量均较大(和)时,可采用两大样本比较的检验或两样本检验;样本含量不太大,资料满足正态性与方差齐性要求或通过数据变换满足要求时,可采用两样本检验或完全随机设计资料的方差分析样本含量不太大满足正态性不满足方差齐性,可采用近似()检验若不满足正态性或/和方差齐性,采用非参数检验,如两样本秩和检验、秩和检验,其目的是推断两个总wilcoxon Kruskal-Wallis体分布位置是否不同()多样本3分析目的推断多个总体均数是否不等应用条件及方法选择资料满足正态性与方差齐性要求或通过数据变换满足要求时,可采用完全随机设计资料的方差分析即检验资料不满足正态性但不满足方差齐性,可采用近似()检。
个人认证
优秀文档
获得点赞 0