还剩17页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
非参数检验非参数统计分析方法Non-parametric statistics是相对参数统计分析方法而言的,又称为不拘分布distribution-free statistics的统计分析方法或无分布形式假定assumptionfree statistics的统计分析方法其中包括Wilcoxon秩和检验、Kruskal-Wallis秩和检验、friedman秩和检验等,它们分别对应不同设计类型的资料SAS中对于非参数分析方法功能的实现主要由nparlway过程来完成,从过程名字就可以看出,在此过程的处理进程中,只能一次指定一个因素进行分析下面我们先来了解一下nparlway过程的语句格式以及各语句和选项的基本功能
一、过程语句格式简介nparlwaynparlway过程属于SAS的STAT模块,对于统计学教科书上所涉及的非参数统计方法几乎都可以通过此过程来完成Nparlway过程的基本语句格式如下PROC NPAR1WAY选项〉;BY变量名;CLASS变量名;EXACT统计量选项/运算选项〉;FREQ变量名;OUTPUTOUT=数据集名选项;VAR变量名;RUN;QUIT;近控1311【程序】对于此例,将疗效看成待分析的变量x,从“控制”到“近控”分别对其赋值
1、
2、
3、4,病情则作为分组因素,同时需引入一个频度因素f,以代表不同取值状态下x的频数编制程序如下data sasuser.datal0_03;do x=l to4;do g=l to2;input f;output;end;end;datalin s;㊀654218630231311;proc nparlwaywilcoxon;class g;var x;freq f;run;【结果】程序和前例的基本相同,只根据资料特点增加了freq语句提交程序,运行结果如下
2.配对设计资料的秩检验配对设计资料一般采用配对方检验方法进行分析,但若配对数据差数的分布非正态分布,但其总体分布基本对称,则可采用Wilcoxon符号秩检验signed ranktest作为配对力检验的替代方法Wilcoxon符号秩检验功效很高,在数据满足配对方检验的要求时,符号秩检验的功效可达配对Z检验功效的95%SAS中符号检验sign test和符号秩检验的功能不是在nparlway过程中实量分析的缘故【例4]采用配对设计,用某种放射线的A,B两种方式分别局部照射家兔的两个部位,观察放射性急性皮肤损伤程度,结果见下表试用符号秩检验比较A,B的损伤程度是否不同家兔皮肤损伤程度编号方式A方式B139552425435155443475555364563722528484494048104555114032124957【程序】data sasuser.datal0_4;input xlx2;d=xl-x2;datalin s;㊀395542545155434755534563225248444048455540324957;loccount;var d;run;此例中,我们须对两次测得数据的差值进行单变量分析,所以数据步中用到赋值语句“d=xl-x2;Univariate过程在默认状态下即给出关于待分析变量的符号检验以及符号秩检验结果,“proc univariate”语句后的“loccount”选项指定SAS给出样本数据在系统指定位置参数(默认值为0)两侧的分布情况,即相当于对符号检验结果的进一步描述提交执行以上程序,结果如下徵根此结果大家应当比较熟悉(删去了其余关于参数检验的部分),注意标有“Tests forLocation:MuO=0”的部分,即为我们所要的结果,其中第一行为参数检验的t检验结果,后两行则分别为符号检验以及符号秩检验的分析结果标有“Location Counts:MuO=
0.00”的部分是关于样本分布情况的描述,本例为3个受试对象的差值大于零,9个小于零大家需要注意,这里的符号秩检验计算所得的秩和与我们在教科书上看到的结果不同(教科书上计算的统计量即秩和T=10),应是所依据的算法不同所致,但所得的〃值是相同的,不会影响分析的结果【例5】有两家公司设计了他们自己的智商测验方法,一位心理学家随机地选取13个人同时接受这两种测验方法,结果如下表所示试在
0.05的显着水平下,检验是否可宣称这两种方法无显着差异序号12345678910111213方法一989411110210810592881009912511792方法二10510311398112109979510710310410693【数据摆放】【程序】【结果】检验方法简介
1.符号检验(Sign),该方法利用正、负符号的个数多少来进行检验首先,将第二组样本的各个观察值减去第一组样本对应的观察值,如果得到差值是一个正数,则记为正号;差值为负数,则记为负号;然后计算正号的个数和负号的个数,通过比较正号的个数和负号的个数来判断两组样本的分布如果正号的个数和负号的个数大致相当,则可以认为两相关样本数据分布差距较小;正号的个数和负号的个数相差较多,可以分为两相关样本数据分布差距较大符号检验得名于其资料是用加减号而不是用定量度量它对于那些不能或不适宜用定量测量而能将每一对的两个成员分出等级的问题研究特别有用
2.符号平均秩检验(Wilcoxon),该检验首先按照符号检验的方法,将第二组样本的各个观察值减去第一组样本对应的观察值,如果得到差值是一个正数,则记为正号;差值为负数,则记为负号,同时保存差值的绝对值数据;然后将绝对差值数据按升序排序,并求出相应秩;最后分别计算正号秩总和、负号秩总和以及正号平均秩和负号平均秩如果正号平均秩和负号平均秩大致相当,则可以认为两相关样本数据正负变化程度基本相当,分布差距较小Wilcoxon检验在行为科学的研究中应用极为广泛
3.完全随机设计多组数据分布位置差别的秩和检验这一部分的内容相当于参数检验中的方差分析,依据的方法是Kruskal-Wallis秩和检验,此方法的基本思想与Wilcoxon秩和检验基本相同,都是基于各组混合编秩后,各组秩和应相等的假设两者的不同点就在于Kruskal-Wallis秩和检验是针对多组(大于2)数据的分析,而Wilcoxon秩和检验则只用于对两组数据的比较【例6】为研究精氨酸对小鼠截肢后淋巴细胞转化功能的影响,将21只小鼠分等分成3组A组为对照,B组为截肢组,C组为截肢加精氨酸治疗组观测脾淋巴细胞对HPA刺激的增值反应,测量指标是为吸收量(cpm),数据如下表所示,试分析各组测量值是否不同脾淋巴细胞对HPA刺激的增值反应(测量指标为吸收量cpm)A组B组c组3012253281389458468220738419202518679580226888513590277564901278728849003660017170医学统计学教科书上对于此类资料分析方法的介绍虽与两组数据比较的方法有所区别,统计量的计算方法和结果也各不相同,但在SAS中,对这两类资料进行分析的操作过程却是基本相同的,大家可以从相应的SAS程序中看到这一点[SAS程序]data sasuser.datal0_06;do n=l to7;do g=l to3;input x@@;output;end;nd;㊀datalines;3012253281389458468220738419202518679580226888513590277564901278728849003660017170;proc nparlwaywilcoxon;class g;var x;run;【结果】第一部分是第—^部分是^Kmskal-Wal1is^Wilcoxon ScoresRank Sumsfor VariableTest”秩和检验分析结果,而P值的计算这里所依据的是卡方分布[例7]假设有个地区的领导想要比较该地区四个村的各户的人均年收入水平,于是在这四个村中随机抽取样本,计算各户的人均收入,得到下表中的24个数据分析这四个村的年收入是否存在显着差异=
0.05四个村六户人家的年收入水平村17689528709401003500村29968967858759361200村3789759752658635800村4892698651678895925【程序】proc nparlwaydata=sasuser.data1007wilcoxon;class g;var income;run;【结果】
三、几条重要提示
1.Nparlway过程对于缺失值(missing value)的处理如果缺失值出现在反应变量(var语句指定的变量),nparlway过程会将该条记录排除在分析之外默认情况下,nparlway过程也会将分类变量中出现缺失值的记录排除出分析过程如果指定选项“missing,nparlway过程则将分类变量中出现的缺失值当作一个单独的水平进行处理对于by语句中指定的变量,缺失值将被默认地当作一个独立水平进行处理对于freq语句中指定的变量,出现缺失值的记录一定会被排除出分析过程
2.nparlway过程对于同秩(ties)问题的处理方式Nparlway过程处理同秩问题的方式在任何一种非参数检验方法中均相同,即无论相同秩次的记录出现在同一组或不同的组中,均给它们分配相应的平均秩次,再根据这些平均秩次进行各种计算,跟教科书上介绍的方法一样nparlway过程对于此问题的处理到此为止,不像教科书上介绍的那样对计算所得的统计量再进行某种校正对于相同秩次出现较少的数据,这一点对分析的结果影响不大,但对于同秩现象较多的数据,分析结果的偏差就不容忽视,尤其是对于那些近似检验来说更是如此处理这一问题的理想办法就是计算精确概率,nparlway过程提供了实现这一功能的途径,即exact语句均值比较的方法与程序检验法独立组配对组独立样本t检验配对差值t检验对应程序对应程序Proc ttest(data=数据集);Dif=m-f参数检验Class分组变量名;Proc univariate(data=数Var因变量名;据集);Run;Var因变量名(Dif);Run;Wilxonxon秩和检验Wilxonxon秩和检验对应程序对应程序Proc nparlway(data=数据集)Dif=m-f非参数检验Wilcoxon;Proc univariate(data二数Class分组变量名;据集);Var因变量名;Var因变量名(Dif);Run;Run;某瓶装纯净水厂商生产的产品标称净含量为600mL现质量监督管理部门对该产品是否合格进行抽检,得到表5-1所示的抽检数据(详见Water.sas7bdat)试根据抽检结果对该产品质量进行评价proc univariatedata=sasuser.water mu0=600;var Net;run;某调查公司在某项调查中收集到76个观测值的样本数据详见KS.sas7bdat0试分析该数据的总体分布是何种分布proc univariatedata=sasuser.KS noprint;var Observed;histogram/noplotnornalmu=est sigma=estlognormalzeta=est sigma=est theta=estexponentialsigma=est theta=est weibullsigma=est c=est theta=est;run;【练习1】某个厂家在生产过程中需要使用某种原材料,有两个供货商所报价格有差异,但都称其提供的原材料能够达到生产厂家的技术指标随机抽取这两个供货商的产品,实验得到其技术参数,数据如下表所示问这两个供货商提供的产品是否有显着差异(a=
0.05)两个供应商提供原料的技术指标供应商596975636758717054651供应商769646573656878566725(两独立样本的非参数检验)【程序】proc nparlwaydata=sasuser.datal0_08wilcoxon;class g;var x;run;【结果】【练习2]某省的跳高队采用一种新的训练方法训练运动员,训练前后的成绩如下表,问这种新的训练方法能否显着提高运动员的跳高水平(=
0.05)运动员训练前后的成绩训练前
1.
781.
921.
891.
961.
851.
791.
851.
891.90训练后
1.
801.
921.
951.
991.
891.
971.
951.
902.00(两配对样本的非参数检验)【程序】Proc nparlway语句标志nparlway过程的开始,默认情况下(不列举任何选项)nparlway过程对最新创建的数据集进行分析,将缺失数据排除在分析过程之外;执行方差分析过程(等同于ANOVA选项),对样本分布位置的差异进行检验(与选项WILCOXON,MEDIAN,SAVAGE以及VW等效),并进行经验分布函数检验(等同于EDF选项)此语句后可用的选项见下表Proc nparlway语句选项及其含义选项名称选项功能或含义AB运用Ansari-Bradley评分进行分析DATA二数据集指定要进行分析的数据集名MEDIAN运用中位数评分进行分析,即进行中位数检验NOPRINT禁止所有的输出,用在仅需要创建输出数据集时ST运用Siegel-Tukey评分进行分析ANOVA对原始数据进行方差分析EDF要求计算基于经验分布的统计量MISSING指定分组变量的缺失值为一有效的分组水平SAVAGE运用Savage评分进行分析VW运用Van derWaerden评分进行分析计算CORRECT=NO在两样本时,禁止Wilcoxon和Siegel-Tukey检验的连续性校正过程KLOTZ运用Klotz评分进行分析proc univariatedata=sasuser.datal0_09loccount;var d;run;【结果】【练习3】问三个不同厂家生产的灯泡使用寿命是否存在显着差异(a二
0.05)随机抽取三个厂家生产的灯泡若干,实验得到使用寿命,数据如下表所示灯泡寿命厂家灯泡寿命厂家灯泡寿命厂家675164926893682168026823691163026343670165026553650164626663693165126673650162026563(多个独立样本的非参数检验)【程序】proc nparlwaydata=sasuser.datal0_10wilcoxon;class g;var x;run;MOODSCORES=DATA以原始数据为评分值进行分析WILCOXON对两样本进行Wilcoxon秩和检验,对多样本进行Kruskal-Wallis检验运用Mood评分进行分析【结果】
1.exact语句exact语句要求SAS对指定的统计量(选项)进行精确概率的计算其后的统计量选项可为以下项目,分别对应相应的统计计算方式(可参见上表)AB,KLOTZ,KS,MEDIAN,MOOD,SAVAGE,SCORES=DATA,ST,WILCOXON,VW等运算选项为精确概率的计算过程指定一些控制项目,如选项“me”要求以Monte Carl方法计算精确概率
2.output语句output语句与其它过程中相应的语句大同小异,不同之处在于语句最后的选项此处的选项绝大多数包括在上表中,指定在输出数据集中包含所指定项目所对应的统计量
3.var语句var语句用以指定要进行分析的变量,变量必须为数值型若省略此语句,SAS将对除by语句、class语句以及freq语句中指定的变量之外的所有数值型变量进行分析
二、不同类型资料的非参数检验方法
1.两独立样本差别的秩和检验两独立样本的非参数检验是在对总体分布不了解的情况下,通过分析样本数据,推断样本来自的两个独立总体的分布是否存在显着差异,一般来说是推断两个独立总体的均值或中位数是否存在显着差异关于样本是否为独立的,主要看在一个总体中抽取样本对在另一个总体中抽取样本有无影响如果没有影响,则可以认为这两个总体是独立的零假设H样本来自的两独立总体的分布没有显着差异检验方法有多种1两独立样本的威克逊等级和检验Wilcoxon秩和检验,也被称为Mann-Whitney U检验曼-惠特尼U检验Mann-Whitney U,该检验主要是通过对平均秩的研究来实现推断的其基本思路是首先,将两组样本数据3,X2,……X和K,Y,……Y混合并按升序排序m和nm2n分别为两组样本的样本容量,求出每个数据各自的秩K;然后,分别对乂,乂2,……XQ和x,B,……匕的秩求平均,得到两个平均秩w/加和%,/〃,如果这两个平均秩相差甚远,则倾向于拒绝零假设2两独立样本的K-S检验Kolmogorov—Smirnov Z,该检验首先将两组样本混合并按升序排序;然后,分别计算两组样本秩的累计频数和每个点上的累计频率;最后,将两个累计频率相减,得到差值序列数据3沃尔德-沃尔福威茨游程检验Wlad-Wolfwitz runs,该检验将两组样本混合并按升序排序,在数据排序的同时,两组样本的每个观察值对应的样本组标志值序列也随之重新排列;然后,对这个标志值序列求游程如果样本所属的两总体的分布形态存在较大差距,那么计算出的游程数会相对比较小如果游程数比较大,则应该是由于两样本数据充分混合的结果,那么它们的分布应该不存在显着差异【例1】下表为来自两个样本A、B的测量数据,经检验知两样本方差不齐,试做非参数检验比较两组数据的差别两独立样本A、B测量数据组A714223640486398B组3561017182039【程序】对该资料,应选用Wilcoxon秩和检验rank sumtest方法,编制SAS程序如下data sasusr.datal0_01;㊀do g=l to2;input x@@;output;end;datalines;7314522636104017481863209839;proc nparlwaywilcoxon;class g;var x;run;程序中因素“g”分组因素,“1”代表A组,“2”代表B组,“x”为待分析的变量Procnparlway语句后的选项“Wilcoxon”指定SAS进行Wilcoxon秩和检验【结果】SAS给出两组数据的基本信息样本量、秩和等;给出在零假设下各组统计量Sum ofscores项的期望值Expected Under H0项及标准差Std DevUnderH0项,最后还给出以近似z检验以及近似t检验所得的统计量和所对应的单、双侧概率值另外,默认状态下,SAS同时给出Kruskal-Wallis检验的结果所不同的是,在两样本量相同时,SAS以秩和较大者作为对象统计量进行概率值的计算,而非医学统计学教材上所说的以较小秩和为对象统计量在两样本量不同时,SAS以样本量较小组的秩和为对象统计量,这一点则与教材上的相同如果去掉“wilcoxon”data sasuser.datal0_01;do g=l to2;input x@@;output;end;datalines;7314522636104017481863209839*proc nparlway;class g;var x;run;则SAS给出所以方法的执行结果:国结果索系统晚年脉日星明日下午涧盼破2IL3日而Nparlway:SAS系统The NPAR1VAY Procedurem|Class MeansLiANOVAMedianScoresNumberofPointsAboveMedianforVariablexClassifiedbyVariablemlWilcoxon Scoresg.Wilcoxon Two-Sample TestSumofScores ExpectedUnder StdDev UnderHOMean ScoreKruskaHallisTestg NHO韵Median Scores
188.
04.
01.
0327960.750金Median Two-Sample Test
282.
04.
01.
0327980.250韵Median One-Way Analysis.Van derIFaerden ScoresMedianTwo-Samp IeTest韵Van derVaerden Two-Sample Test韵Van derVaerden One-Way AnalysisStatistic
6.
0000.Savage ScoresZ
1.9365One-Sided PrZ
0.0264韵Savage Two-Sample Testho-Sided Pr|Z|0,
0528.Savage One-Way Analysis韵Kohogorov-Snirnov TestMedianOne-Way AnalysisKolmogorov^Smirnov Two-Sample Statistics金Cramer-von MisesTestChi-Square
3.7500韵Craner-von MisesStatistics DFI
0.0528Pr Chi-Square韵Kuiper TestKuiper Two-Sample Statistics[例2]为了鉴别新旧两种生产方法对生产效率的影响,随机抽取了22人用旧生产方法生产,25人用新生产方法生产,每人平均日产量(件)资料如下旧方法20312718102639454124222314113237404649555419新方法36393125262820212421585556413749444012161524232811问两种方法对日产量影响有无显着差异(=
0.05)【数据摆放】【程序】proc nparlwaydata=sasuser.datal0_02wilcoxom;class g;var x;【运行结果】【例3】用某药治疗不同病情的老年慢性支气管炎病人,疗效见下表,比较该药对两种病情的疗效某药对两种不同病情的支气管炎疗效单纯型合并肺疗效单纯型气肿控制6542显效186有效3023。
个人认证
优秀文档
获得点赞 0