还剩7页未读,继续阅读
文本内容:
语言使用二元回归将序数数据R建模为多元数据分析报告GLM〃原文链接http:tecdat.cn/e=10204原文出处拓端数据部落公众号用于分析序数数据的最常见模型是逻辑模型本质上,您将结果视为连续潜在变量的分类表现此结果的预测变量仅以一种方式对其产生影响,因此为每个预测变量获得一个回归系数但是该模型有几个截距,它们代表将变量切分以创建观察到的分类表现的点就像在普通回归模型中一样,每个预测变量都会以一种方式影响结果,这就是比例赔率假设或约束或者,可以让每个预测变量在每个切入点对结果产生不同的影响如何使用单变量软件对此建模?页面上有关于多元随机系数模型的文GLM UCLAidre章在这里很重要,因为他们使用(单变量线性混合模型软件)对多元结果进行nlme建模基本思想是将数据堆叠起来,使其成为一种重复测量,但是找到一种向软件发出信号的信号,即结果是不同的,从而对预测变量要求不同的截距和斜率因此,我们要做的是将数据从宽转换为长,将其建模为常规二项式,但是我们需要告诉模型为每个级别估计不同的截距为此,我使用具有工作相关性结构的unstructured通用估计方程()GEE3示范libraryordinai#For ordinalregression tocheck ourresultslibrarygeepack#For GEEwith binarydata数据集soup-ordinal::soup soup$iD-1nrowsoup#Create aperson IDvariablestrsoupdata.frame1:1847obs.of13variables:$RESP:Factor w/185levels
1111111111...$PROD:Factor w/2levels,,RefH,,Testn:
1212122221...・・$PRODID:Factor w/6levels”172“J374”,1213162451…$SURENESS:Ord.factor w/6levels
6556552552...$DAY:Factor w/2levels“1“J2”1111222222…$SOUPTYPE:Factor w/3levels,,Self-made,,,,,Cannedn..:
2222222222...J$SOUPFREQ:Factor w/3levels H1/week,n1-4/month,..:
1111111111...$COLD:Factor w/2levels No,Yes:
2222222222...・・$EASY:Factor w/10levels*1*„4”,
7777777777...$GENDER:Factor w/2levels“Male”,“Female”
2222222222...;$AGEGROUP:Factor w/4levels18-30,31-
40..:
4444444444...;$LOCATION:Factor w/3levels Region1:Region
2.:
1111111111...$ID:int
12345678910...我使用变量它有个级别使用和变量对其进行建模SURENESS6DAY GENDER#Select variablesto workwith匚:,,soup-dply selectsoupD,SURENESS DAY GENDER#/like dummyvariables withrecognizablenamessoup$girl-ifelsesoup$GENDER==Female,1,0#Make malereference groupsoup$day2-ifeisesoup$DAY==2,1,0#Make day1reference group下一步是将顺序结果转换为代表每个阈值的个结果5完成此操作后,我们准备对这个新的结果变量进行转换5headsoup.iong#Lets lookat thedataFemale102121848161Female133695161Female1041455421Female105157389161Female162251Female10212ID SURENESSDAY GENDERgirl day2SURE VALSURE.f11让我们看看没有选择最高响应类别的人:Female1021218692241Female1031ID SURENESSDAYGENDERgirl day2SURE VALSURE.f2222337162241Female1041455632241Female1050574102241Female10606这个人选择了中的她的前三个分数是她的最后两个分数是因SURENESSVAL a1,0,为小于阈值和阈值44-55-6下一步是为阈值创建虚拟变量这些变量将用于表示模型中的截距请注意,我将虚拟变量乘以在序数回归中,这样做使解释更容易总之,它确保-1正系数增加了从较低类别(例如)移至较高类别()或对较高响应类别做出响应的34几率现在,我们准备运行模型我们使用相关结构为GEE unstructured接下来,我使用标准序数回归估算模型:让我们比较系数和标准误差Estimate Estimate.1Std.err Std.Error Waldz value Pr|W|Pr|z|SURE.f2-
2.13244-
2.
131550.
104540.
10450416.0946-
20.
39710.
00000.0000SURE.f3-
1.19345-
1.
192590.
091420.
092320.
00000.0000SURE.f4-
0.89164-
0.
890790.
089790.
0901198.5995-
9.
88570.
00000.0000SURE.f5-
0.65782-
0.
656970.
089450.
0889854.0791-
7.
38330.
00000.0000SURE.f6-
0.04558-
0.
044770.
088010.
087890.2682-
0.
50930.
60460.6105girl-
0.04932-
0.
049170.
090360.
090740.2980-
0.
54190.
58510.5879day2-
0.26172-
0.
260370.
085840.
085799.2954-
3.
03510.
00230.0024可以看到结果非常接近但是,使用估计不能建立一个人的结果之间的依存关系的估计会产生不同的结果glmSURE.f2-
2.
151440.08255-
26.
0620.0000SURE.f3-
1.
212710.0000SURE.f4-
0.
911490.0000SURE.f5-
0.
677820.0000SURE.f6-
0.
065230.06178-
1.
0560.2911Estimate Std.Error z value Pr|z|girl-
0.
073260.04961-
1.
4770.1398day2-
0.
268980.04653-
5.
7800.0000估计值和标准误均不足我们可以轻松地放宽模型中的比例赔率约束让我们通过放宽对预测变量的约pom.bin束来运行某些人所说的编/%例嬷害模型我们通过估计阈值虚拟变量和预测day2day2变量之间的相互作用来做到这一点我还使用名义参数运行了相同的模型进行比较day2oEstimate Estimate.1Std.err Std.Error WaldzvaluePr|W|Pr|z|SURE.f2-
2.02982-
2.
031060.
118000.
11834295.8986-
17.
16300.
000000.00000SURE.f3-
1.22087-
1.
222130.
098290.
09857154.2801-
12.
39800.00000SURE.f4-
0.92773-
0.
928990.
094580.
0944396.2112-
9.
83750.
000000.00000SURE.f5-
0.65744-
0.
658700.
092460.
0918850.5554-
7.
16930.
000000.00000SURE.f6-
0.04733-
0.
048590.
089550.
089650.2793-
0.
54200.
597140.00000SURE.f2:day
20.
073590.
073600.
141480.
141550.
27050.
51990.
602980.58784SURE.f3:day
20.
316910.
316970.
106070.
106138.
92702.
98670.
002810.60312SURE.f4:day
20.
333010.
333080.
099700.
0997311.
15513.
33980.
000840.00282SURE.f5:day
20.
263300.
263390.
096180.
096167.
49382.
73910.
006190.00084SURE.f6:day
20.
267410.
267480.
093470.
093458.
18422.
86220.
004230.00616girl-
0.04809-
0.
049940.
090480.
090770.2825-
0.
55020.
595070.
004210.58221结果是可比较的现在,我们可以将比例比例赔率二进制模型与比例赔率二进制模型进行比较,以测试变量的约束条件允许对两种模型进行测试:day2geepack anovaWaldAnalysis ofWald statisticTableModel1VAL~0+SURE.f2+SURE.f3+SURE.f4+SURE.f5+SURE.f6+girl+SURE.f2:day2+SURE.f3:day2+SURE.f4:day2+SURE.f5:day2+SURE.f6:day2Model2VAL~0+SURE.f2+SURE.f3+SURE.f4+SURE.f5+SURE.f6+girl+day2Df X2P|Chi|146,
940.14两种模型之间的差异在统计上均不显着,表明变量的比例约束已足够我们可以day2使用或使用函数进行比较和建模从而进行相同的测试ordinal pom.ord npom.ord anova,两者都是似然比检验,比上述的检验更充分nomimaLtesto GEE WaldLikelihood ratiotests ofcumulative linkmodels:formula:nominal:link:threshold:pom.ord SURENESS~girl+day2~1logit flexiblenpom.ord SURENESS~girl~day2logit flexibleno.par AIClogLik LR.stat dfPrChisqpom.ord75554-2770npom.ord115555-
27666.
9140.14nominal_testpom.ordTests ofnominal effectsformula:SURENESS~girl+day2Df logLikAIC LRTPrChinone-27705554girl4-
276655548.
020.
091.day24-
276655556.
910.141Signif.codes:0***
0.001**
0.
010.
0570.11这两个测试收敛到相同的结果,并且在比较模型的测试中也给出了相同的GEEWaldp值然而,测试统计数据略高Wald-x2x2完成此操作后,使用序数数据包当然要容易得多但是,将模型视为二进制可能会有一些好处,但是所有这些都是出于好奇而非必要由于某种原因,我仍未弄清楚,当一个人尝试使用函数从模型中获得预测的概率时,它仅返回一组拟合的概率fitted理想情况下,它应该为每个阈值返回拟合概率使用可以直接获得每个级别geepack,的预测概率但是,这种优势是微不足道的而且,如果熟悉最大似然估计,则可以简单地对似然函数进行编程上面的例子在比例赔率情况下的语法为coefsummaryresEstimate Std.Errora1-
2.
131556030.10450286a2-
1.
192592660.09232077a3-
0.
890790680.09010891a4-
0.
656976710.08898063a5-
0.
044775650.08788869bg-
0.
049176040.09073602bd-
0.
260373690.08578617coefsummarypom.ordEstimate Std.Error zvaluePr|z|1|2-
2.
131552810.10450291-
20.
39706631.775532e-922|3-
1.
192591710.09232091-
12.
91789373.567748e-383|4-
0.
890785900.09010896-
9.
88565244.804418e-234|5-
0.
656974650.08898068-
7.
38334011.543671e-135|6-
0.
044765530.08788871-
0.
50934346.105115e-01girl-
0.
049172450.09073601-
0.
54192875.878676e-01day2-
0.
260373600.08578617-
3.
03514652.404188e-03结果非常相似,对于比较模型的更确定的方式,我们总是可以比较对数似然:logLikres1og Lik.-
2769.784df=7logLikpom.ordlog Lik/-
2769.784df=7分类数据分析
1.Agresti,A2013Wiley-lnterscienceo。
个人认证
优秀文档
获得点赞 0