还剩6页未读,继续阅读
文本内容:
性信息的多元归分析二值变量伍德里奇《计量经济学导论》复习笔记和课后习题详解-含有定第7章含有定性信息的多元回归分析二值或虚拟变量
7.1复习笔记考点一带有虚拟自变量的回归*****
1.对定性信息的描述定性信息是指通常以二值信息0-1的形式出现的信息,如性别、是否结婚等在计量经济学中,二值变量又称为虚拟变量
2.只有一个虚拟自变量1只有一个虚拟自变量的简单模型考虑决定小时工资的简单模型wage=00+60female+pleduc+uo根据多元回归的解释方式,S0表示控制educ不变时,female变化1单位给wage带来的变化假定零条件均值假定Eu|female,educ=0成立,月B么:SO=Ewage|female=1,educ-E wage|female=0,educ,其中female=1表示女性,female=0表示男性可以发现,在任意教育水平下,男性与女性的工资差异是固定的,女性工资比男性工资多60o除了P0之外,模型中只需要引入一个虚拟变量因为female+male=l,所以引入两个虚拟变量会导致完全多重共线性,即虚拟变量陷阱2当因变量为logy时,对虚拟解释变量系数的解释当变量中有一个或多个虚拟变量,且因变量以对数的形式存在时,虚拟变量的系数可以理解为百分比的变化将虚拟变量的系数乘以100,表示的是在保持所有其他因素不变时y的百分数差异,精确的百分数差异为100-[expApi-l]其中o APl是一个虚拟变量的系数
3.使用多类别虚拟变量1在方程中包括虚拟变量的一般原则如果回归模型具有g组或g类不同截距,一种方法是在模型中包含g-1个虚拟变量和一个截距基组的截距是模型的总截距,某一组的虚拟变量系数表示该组与基组在截距上的估计差异如果在模型中引入g个虚拟变量和一个截距,将会导致虚拟变量陷阱另一种方法是只包括g个虚拟变量,而没有总截距这种方法存在两个实际的缺陷
①对于相对基组差别的检验变得更繁琐;
②在模型不包含总截距时,回归软件通常都会改变R2的计算方法具体而言,就是公式R2=1-SSR/SST中的总平方和SST,被一个没有将y i减去其均值的总平方和SST0取代,由此得到的R02=1-SSR/SST0称为未中心化的R2,从而有可能使得拟合优度指标失效SST0的计算公式为01SST niiy==1
(2)通过虚拟变量来包含序数信息假设要估计城市信用等级对市政债券利率(MBR)的影响城市信用等级是一个序数变量,范围是0~4,称这个变量为CR可以对CR的每个值0都定义一个虚拟变量由于有5个类别,所以可包括4个虚拟变量,将零信用等级定为基组并省略若CR=1,则CR1=1,否贝(J CR1=0;若CR=2,贝!J CR2=1,否贝U CR2=0,以此类推因止匕,可以转化为估计模型MBR=[30+61CR1+62CR2+83CR3+84CR4+其他因素以81为例,系数的解释为S1为信用等级为1级的城市和信用等级为0级的城市之间在MBR上的差异(保持其他因素不变)考点二涉及虚拟变量的交互作用★★★★
1.虚拟变量之间的交互作用具有定量意义的变量在回归模型中可以具有交互作用,类似的,虚拟变量也能产生交互作用虚拟变量的交互作用就是在模型中引入虚拟变量的乘积形式
2.容许出现不同的斜率31)不含交互项的模型在多元回归模型中存在任意几个组之间的截距不同的情况在有些情况下,虚拟变量也可与非虚拟的解释变量有交互作用,从而出现不同的斜率考虑模型logwage=po+SOfemale+01+Slfemaleeduc+u当female=0时,模型可以写成log wage=po+pieduc+u;当female=1时,模型变为log wage=00+60+pi+51educ+uo50度量的是男性和女性在截距上的差异,而61度量男性和女性在斜率即受教育回报上的差异42含有交互项的模型考虑模型logwage=po+SOfemale+pieduc+81female-educ+u一个重要的假设是,男性和女性受教育的回报是相同的,这可以表述成oH0:81=0这意味着logwage对educ的斜率对男性和女性而言无差异在这个虚拟假设之下,允许在不同教育水平下,男性和女性的工资存在差异,但性别工资差异在各种相同教育水平上必须相同若对受教育程度相同的男性和女性的平均工资相同这个假设感兴趣,则50和61都必须同时为零必须使用F检验来检验虚拟假设H0:80=0,51=
05.检验不同组之间回归函数上的差别在含有k个解释变量和1个截距项的一般模型中,假设有两组g=1和g=2对g=l和g=2将模型写成y=Pg,O+0g,lxl+Pg,2x2+...+Pg,k x k+uo检验这两组的截距和所有斜率都相同,就意味着产生了k+1个约束可以认为无约束模型除了截距和变量本身外,还有一组虚拟变量和交互项,那么其自由度为n-2k+l无约束模型的残差平方和可通过两个分离的回归得o到,这两个不同回归分别对应着两个不同的组,令SSR1SSR2表示针对第一组第二组估计式所得到的残差平方和,它涉及nln2个观测而约束模型的残差平方和就是将两组混合在一起并估计同一个方程时所得到的SSR p0在此基础上,就可以计算F统计量F={[SSR p-SSR1+SSR2]/SSRl+SSR2H[n-2k-1]/k+1}其中,n为总观测次数o在计量经济学中,这也被称为邹至庄统计量邹至庄检验的一个重要局限是原假设要求各组之间不存在任何差异但在更多情况下,允许组间的截距不同,然后再来检验斜率的差别会更有意义邹至庄检验的步骤包括1分别对两组数据进行回归估计得到残差平方和SSR1和SSR2,两者之和即为无约束模型的残差平方和2将两组数据混合进行估计得到残差平方和SSR p,这就是为受约束回归残差平方和3构造F统计量,并与给定显著水平下F的临界值进行比较若F值大于临界值,则拒绝原假设,即说明两个回归函数存在差异考点三二值因变量线性概率模型★★★★
1.线性概率模型考虑模型:y=p0+plxl+p2x2+...+pkxk+u在零条件均值假定0MLR.4成立时,Ey|x=[30+pix1+p2x2+...+pk x k当y是一个o取值为0和1的二值变量时,Py=l|x=Ey|x总是成立的因此有:P y=l|x=p0+plx l+p2x2+...+pk xk这意味着成功的概率px=Py=l|x是o所有x变量的一个线性函数方程P y=l|x=p0+pix1+p2x2+...+pk xk是二值响应模型的一个例子,P y=l|x被称为响应概率因为响应概率是所有参数P的线性函数,所以这类模型又被称为线性概率模型LPM在LPM中,在保持其他因素不变时,印度量因x j的变化导致成功概率的变化j=1,2,…,k:Py=l|x=Pjxjo
2.线性概率预测以二值变量为因变量进行预测时,预测的概率可能不会落在0〜1区间内令4i表示拟合值,定义预测值iy在八y i之
0.5时取值为1,并在八yi
0.5时取值为0现在,便得到一组预测值iy,这些预测值和y i一样,o取值不是0便是L利用yi和iy的数据,就可以得到正确预测y i=1和y i=0的频率以及全部正确预测的比例若用百分比表示全部正确预测的比例,便是二值因变量拟合优度的一个广泛使用的指标
3.线性概率模型可能存在异方差性当y是二值变量时,以x为条件的方差为:Vary|x=px[1-px]e其中,px=po+pixl+...+pkx k这意味着,除非概率与任何一个自变量o都不相关,否则,线性概率模型中就一定存在着异方差性因此,由于y的二值特性,线性概率模型违背了一个高斯-马尔可夫假定
4.离散因变量的回归结果解释一般地,在假设MLR.1和MLR.4下E y|xl,x2,,xk=P0+pixl+02x2+...+pkxk pj是指在其他条件不变时,x j的增0加对y的期望值的影响给定一组x j值,拟合值P0+A^lxl+§2x2+...+u0k xk就是Ey|xl,x2,,xkA的一个估计因此人四是当x j=1时,对y的平均变动的估计保持其他因素不变
5.2课后习题详解
一、习题
1.利用SLEEP75中的数据也可参见第3章习题3,我们得到如下估计方程sleep=\educ-
8.7d^e+
0.12初及’+
87.75掰He
235.
110.
0185.
8611.
210.
13434.33卢it
706.・0一
123.F0117变量sleep是每周晚上睡眠的总分钟数,totwrk是每周花在工作上的总分钟数,educ和age则以年为单位,而male是一个性别虚拟变量i所有其他因素不变,有没有男性比女性睡眠更多的证据?这个证据有多强?ii工作与睡眠之间有统计显著的取舍关系吗?所估计的取舍关系是什么样的?iii为了检验年龄在其他因素不变的情况下对睡眠没有影响这个原假设,你还需要另外做什么回归?答i变量male的回归系数是
87.75,根据估计结果可知,男性每周的睡眠时间要比女性每周的睡眠时间多近一个半小时又因为其值接近于99%的置信水平下的双侧检验的临界值大约为
2.58,因此男性比女性睡眠更多的证据是相当强的ii变量totwrk的t统计量的值为t totwrk=-
0.163/
0.018--
9.06这是非常显著的这个系数表明每周平均多工作一个小时60分钟,对应的平均每周晚上睡眠将减少
0.163x60*
9.8分钟iii需要对不含变量age和age2的模型进行回归,以便得到R r2,即受约束模型的R2当模型中含有变量age和age2时,当且仅当两个变量age0和age2前的系数均为0时,才表明年龄在其他因素不变的情况下对睡眠没有影响这个原假设成立2二利用BWGHT中的数据,可估计出如下方程log hw^ht=
4.66—
0.0044c/g,v+
0.0093logfamine+
0.016parity
0.
220.
00090.
00590.006+
0.021male+O.Q55white
0.
0100.013/i=1388,R2=
0.0472和log bwght=
4.65-
0.0052c3+
0.0110log famine
0.
380.
00100.0085+
0.017parity+
0.034male
0.
0060.011+
0.045white-
0.0030molheduc+
0.0032fatheduc
0.
0150.
00300.0026w=
1191.R2=
0.0493变量定义和例
4.9中一样,但我们增加了两个虚拟变量一个虚拟变量表明孩子是不是男孩,另一个虚拟变量则表明这个孩子是不是白人i在第一个方程中,解释变量cigs的系数具体而言,每天多抽10根烟对出生体重有何影响?ii在第一个方程中,保持其他因素不变,预计一个白人孩子的出生体重比一个非白人孩子重多少?这个差异是统计显著的吗?iii评价motheduc的估计影响和统计显著性iv从这些给定信息中,为什么不能计算出检验motheduc和fatheduc联合显著性的F统计量?为了计算这个统计量,还需要做些什么?A log答:i如果变量cigs每增加10根,即每天多抽10根烟,贝I」bwght=-
0.0044xl0=-
0.044即婴儿出生体重将减少大约
4.4%ii在第一个方程中,保持其他因素不变,预计一个白人孩子比一个非白人孩子的出生体重多
5.5%另外,t white*
4.23,在一般常用的显著性水平下都是显著的因此,一个白人孩子与一个非白人孩子的出生体重在统计上是有显著差异的iii如果母亲的教育年限每增加1年,孩子的出生体重将增加
0.3%,这个影响是很小的,其t motheduc=1,因此母亲的受教育年限对孩子的出生体重的影响是不显著的(iv)这两个回归模型用了不同的观测数据,因为对于第二个回归方程而言,一些观测数据中母亲的受教育年限或者是父亲的受教育年限的数据是缺失的因此可以用估计第二个回归模型的数据重新估计第一个方程,以便得到新的拟合优度R2-
3.利用GPA2中的数据,可估计出如下方程2sal=
1028.10+
19.30%size-
2.19hsize-^
5.W female(
6.
(29)()()()
3.
830.
534.
2912.
7118.15—
169.8\black+
62.31female-black〃2=4137,/=
0.0858变量sat是SAT的综合分数,hsize是以百人计的学生所在高中毕业年级的学生规模,female是一个性别虚拟变量,而black是一个种族虚拟变量(黑人取值1,其他人则取值0)(i)有很强的证据支持模型中应该包括hsize2吗?从这个方程来看,最优的高中规模是什么?(ii)保持hsize不变,非黑人女性和非黑人男性之间SAT分数的估计差异是多少?这个估计差异的统计显著性如何?(iii)非黑人男性和黑人男性之间SAT分数的估计差异是多少?检验其分数没有差异的原假设,备择假设是他们的分数存在差异(iv)黑人女性和非黑人女性之间SAT分数的估计差异是多少?为了检验这个差异的统计显著性,你需要怎么做?答(i)变量hsize2的t统计量的值为
22.19/
0.
534.132hsize。
个人认证
优秀文档
获得点赞 0