还剩6页未读,继续阅读
文本内容:
入门讲义StataStata入|J讲义
一、Stata安装及注意事项
二、数据清理以及问卷的信度与效度检验
三、界面介绍
四、数据的输入与熟悉
4.1log记录文件
4.2数据的读入与另存
4.3数据的类型
4.4变量名与数据标签的修改
五、数据库的描述
5.2变量编码簿codebook
5.4显示数据lis,t browse
六、变量的生成与处理
6.1新变量的生成和改变
6.2变量的生成规则
6.3生成字符型变量
6.4生成份组变量
6.5变量类型的转换
七、数据的描述
7.1变量频数分布
7.2变量的中央趋势和离散趋势
7.3描述数值型数据统计量的其他方法
八、图形的制作与数据的描述
8.1散点图
8.2线图
8.3条形图
8.5饼图
8.6箱线图
九、回归分析
一、Stata安装及注意事项下载软件后,请解压到盘(其他盘也可以)根目录下即可下LL statal
3.rar D载地址百度云盘9pan.baidu/share/linkshareid=1245846483uk=604047888囚,村正•示十丈字算?♦A在默A设定下.苜次打开Statal3时.所1的窗门第是白色的.此时Stml3无法正常显示中文字构(妻为乱叫)•新决方出根同©修口旺[R*ciilfc]n中的中攵字符tfc0正点工示.R索做一下定,依次点注页中Edit-Prefereoce-General Preference-Resoin Cobn-Color scheme,在下粒二单中已择-Clisacw或;•Custocn2-」把bold左侧方程中的可勾都去掉.盘阳5囱要保证樗物文件能”以合适的字体髭示.只舄作如下设定即可X依M方J TVEdit-Preferoce-General Preference-\iewer Colon今Color scheme.(\下拉T举中心”-Custom2w•超bold-fl hft中的《」地上掉.长走完此七点七.鹤足,呷4・
二、数据清理以及问卷的信度与效度检验
三、界面介绍
1、五个窗口
2、菜单基本功能介绍
3、工具栏快捷键的介绍
4、语法和命令
四、数据的输入与熟悉
4.1log(记录文件)
1、菜单操作
2、命令输入a.log using”文件路径和名称“b.log offlogonlog close
4.2数据的读入与另存数据分析的第一步是,将数据处理成为Stata所用的格式输入数据的方式有六种,包括键盘输入数据,读入文本文件数据,将spss或者Excel数据文件直接复制或者导入,或者先利用其他软件将文件导成.dta格式
1、Excel数据的导入
2、.dta数据的读入a.use”文件路径和名称”(读入全部)数据b.use varlistusing“文件路径和名称”(读入部份变量)c.use“文件路径和名称“in XA,读入部份样本,X〜Y之间的观察值)d.use“文件路径和名称条件if!吾句
4.3数据的类型Byte字节型Int整数型Float浮点型Double双精度型Str字符型
4.4变量名与数据标签的修改1)命令方式修改rename原变量名新变量名2)a.labedlata”这是一份农村调查数据”b.label varage年龄c.label fdienesexi labelvaluessex sexibrowse(蓝色文字与数字有对应关系的)labelbook窗口菜单方式lookfor var(搜索变量)
五、数据库的描述
5.1数据的描述(des)describe,simple(只输出数据中的变量名称)describe,short(只输出数据的样本量、变量的数目、数据的大小等)describe,detail变量名变量的保存形式表现格式变量取值的标签变量的标签
5.2变量编码簿(codebook)在对数据基本情况有了了解之后,我们再来了解一下变量的具体信息codebook命令相当于编码簿,提供数值型变量的描述性统计,也获得字符型变量相关信息的简洁途径菜单路径Data-describe data-describe datacontents(codebook)命令codebook
5.3描述变量的属性(inspect)在了解变量的一些基本信息之后,还需要对变量的频数分布、中央趋势、离散趋势等进行描述菜单路径Data-describe data-Inspect variables命令inspect
5.4显示数据lis,tbrowseEg命令list ABC,Dsep10noobslistCifD
185.5排序数据sort所谓排序,就是按关键变量数值的递增或者递减次序进行罗列用作排序运算依据的关键变量可以是数字类型,也可以是字符类型参预排序的变量可以惟独一个,也可以有两个或者多个命令sort BCDgsort:既可以对当前数据从小到大,也可以从大到小-号置于一个变量前*缺失值被默认为大于正数的最大值
六、变量的生成与处理
6.1新变量的生成和改变命令gen新变量名二表达式1eggen x=_ngen x2=xA2list xx2scatter xx2replace变量名=表达式2if条件表达式
6.2变量的生成规则a.变量的名称可长达32个字符,必须以字母或者字符开头,也可以下划线开头,但是不能使用空白字符或者!?等特殊字符变量最后一个字符不能是句号b.变量名称必须惟一c.要区分大小写,不能混用
6.3生成字符型变量gen sexl=male”replace sex=l,,fcmale,,if sex=0list sexsexi
6.4生成份组变量gen agegrp=0replace agegrp=1if age=18age25replace agegrp=2if age=25age35replace agegrp=3if age=35age55replace agegrp=4if age=55replace agegrp=.if age二二.分组要遵守不重不漏原则,对于缺失值要注意,因为缺失值默认为正无穷
6.5变量类型的转换a.将字符型变量转换为数值型变量egdestring natio,ngennewvardestring nation,replace
七、数据的描述
7.1变量频数分布命令tabulate var菜单statistics-summaries,tables,and tests-frequency tables-One-way table注意当tabulate的后边接两个变量的时候,则生成它们之间的交叉表在使用tab进行频数分析的时候,往往会接多个变量,则得到too manyvariablesspecif,ie的错误提示,下面区分一下tab tabitab这2三条命令tab可用于生成单个变量的频数分布,或者两个变量的交叉分布tabi可接多个变量,但只能分别生成单个变量的频数分布,不能生成交叉表tab2可以生成多个双变量的交叉表egtabexport agenation eduincome usingresults.txt,smean sdreplaceshellout results.txt
7.2变量的中央趋势和离散趋势集中趋势是指数据分布的一种表现形式频数最多的组段代表了中心位置,从两侧到中心,频数分布是逐步增加的集中趋势包括变量的均值、中数、众数、最大值、最小值等离散趋势,从中心到两侧,频数分布是逐渐减少的,反映了数据的离散程度主要测量方法包括方差、极差、标准差菜单statistics-summaries,tables,and tests-summary statistics-summary statistics命令summarizevarlist,detailformat income%
6.2f〃/限定输出格式sum income,format
7.3描述数值型数据统计量的其他方法tabsumtabstat、table等命令,在此再也不详细介绍
八、图形的制作与数据的描述
8.1散点图Scatter描绘散点图,且是双向关系图,反映两个变量之间的关系其图形反映Y轴的数值是否随X轴数值的变化而发生相应的变化egscatter incomeedusysuse auto,clear twowayscatter price weigraph matrixpriceweilen mpgScatter有不少选项help scatter
8.2线图
8.3条形图
8.4直方图histogram histage,discretesysuse nlsw
88.dta,clear histwagegen ln_wage=lnwagehist Inwage,normaldis ln10-—100-—
100008.5饼图
8.6箱线图
九、回归分析前边的章节介绍了社会科学中定量分析方法的过程与步骤,熟悉数据、描述数据和处理数据的基本技术,包括了解数据的基本特征和分布、修改和生成变量、数据的清理、数据分组以及绘图的基本程序命令和窗口路径判断性统计方法运用概率理论,根据观察到的样本特征预测和判断总体特征但是几种判断性统计分析假定检验和方差分析都存在一定的局限比如,假定检验只能同时分析两个变量,且分类变量只能有两个取值方差分析虽然客服了该局限,分类的自变量可以有多个取值,且同时允许分析连续的因变量是否随多个自变量的不同取值各异但方差分析本身除了提供F统计量外,并不提供更多的信息;而且方差分析主要用于分类自变量与数值型因变量之间的分析虽然它也能纳数值型自变量于分析之中,但是不能提供单个自变量对因变量作用的大小从方差分析发展而来的另一种判断性统计方法——回归分析,可以客服这些局限回归分析研究的主要对象是客观事物之间的联系,表现为变量之间的统计关系在进行回归分析之前,首先必须掌握变量之间是否相关惟独变量之间存在关系,才有必要进行回归分析假如当X增加时,Y的取值发生相应的变化,则X与Y之间时相关的;假如当X增加时,Y的取值没有确定的变化,则X与Y之间时不相关或者没有相关关系的对风牛马不相及的事件进行回归时没有任何意义的
9.1线性回归01^a.相关散点图scatter pl加eg:gen x1=_ngen yl=-xlscatter ylxlb.相关系数-1R1接近0表示两变量的线性关系微弱或者彻底不相关相关系数仅能衡量两个变量之间的线性关系,不能提供曲线关系的信息因此R二0不一定表示两变量之间没有任何关系命令correlate varlistgraphmatrix incomeedu age,maxisylabelnone xlabelnonec.模型成立的条件1零均值假定2同方差假定3无自相关假定4解释变量与扰动项不相关假定5在重复抽样中Xi的值是固定的在重复的样本中,解释变量Xi所取的值被认为是固定的,也就是说Xi是非随机的二.毁lUK*回EflMh,小二弟社的芳本假定我们已加火体H门根为;Y・B•昆K♦“・心表叼T匕依处f X.和乂内此,法I我们嗔*X4M0工杆广1於•则HI门机
④利了外出任何机V4嘶,也无金对Ri A』出任何就诃车所.为了〉Hn俏it通行仃理的解开.让健就必於正悦机扰MN”和解公史二.工达学力抽望人匕此的走为线性同ritftp的甲摹代比.七0在以下几个以方,等比他假正Ex I»0/—12…/Vi-9〃见机械总同«・匕41【刚F3£丫〃,近I卜Nu.U旭«0・|1岫・K Hlii E£«*iftW•HI-,I,s’X外■HU,一上相抵响的心势.2“方年fit比ivart/zj*・国〃川■£/・/i・UX・・・E3-2-10区个代正和匕时何%马机快.5,从X力窄等于一个南敢71口书行交点收不同他暂时,“JI对『力日力tt手均£1的分t»Fl艮杷川的.W4W rR《w H同的力C・Ml凶力,tvaryj=W-£yj]2,身6♦6/,+〃-出.―/n3«£M•7’»l此・iMW1网时代明•内士HZ可佐义值的分曲杆收小2桶“豹.工无H箱矢假疣cov〃,.〃J=,lA-月1“心「以〃”=£夕“20i/ji.ja U
2.・・・.n02-11G斤一个等太Hi立.坦因为“儿,是相互俭立的.4
①“必二£“£“’・0次际上力星大于St机执动,相[独立性的假定.帙/说叫.产1F桃的因此兄完全葡机的•相”独立的.TWX的.凶此.因*¥Y的序列CIKH,…J之间也是—IX的.4X群生吊优动则不相入脩定8VXj.“J・U02-12U tff;H々U iWfr^M K匕的机打金川“,科1|触〃补相、附机有;力14“和“,,发•X,IM令%1狗用科足片子独》的・小箕上.awin分析中.X,匝乜抽时剧中式定取值止瑜定科殳景.闪此“与X不相丈的仪出一IS棒It够滑任,5cH史灿样中K fl是啊小¥」•里我的AUM殳N,所取的忙1般汰为足同定的.也就足说MIHIItt机的.h解4令编的耳观,伯小曲由他相同.这个他双一兀仙伸的“检幻中,空束》Tlf令W%%令M2何小存在《t楼去格在多元线件网门校.中*释知2间小ftt存在线性相关,究龟为什么•段】将《下一星向大索介4O・d.命令regress varlist,optionreg eduagereg eduage,r异方差(截面数据很容易浮现异方差)异方差的检验1)看残差图(rvfplo)t2)怀特检验(estat imtest,white)3)BP检验(estathettest)异方差的处理1)OLS+稳健标准误(输出稳健标准误如果使用的数据采取了分步骤、多阶段的聚类抽样设计和方法,同一单位的样本不一定彻底独立,从而违背了统计理论的一个基本原则其后果是,浮现异方差,分析结果可能浮现偏误robust有助于克服这一不足)2)广义最小二乘法(GLS)3)加权最小二乘法(WLS)自行学习4)可行广义最小二乘法自相关1)时间序列数据,往往会浮现自相关2)截面数据中的自相关3)认为处理挪移平均数,内插值4)设定误差:如果模型设定中遗漏了某个自相关的解释变量,并被纳入到扰动项中,则会引起扰动项的自相关自相关的检验1)画图scatter2)BG检验3)DW检验处理方法1)使用:OLS+异方差自相关稳健的标准误2)使用OLS+聚类稳健的标准误3)使用可行广义最小二乘法(FGLS)4)修改模型设定结果解读包括三部份左上方是方差分析结果,右上方是回归统计量,下部份是参数估计的内容方差分析部份给出了回归平方和(Model),残差平方和(R),总平方和(T),自由度以及回归和残差的均方(MS)1)F检验F检验是对总体回归方程的显著性检验,即对因变量与自变量之间的线性关系是否显著的一种假设检验2)判定系数R八2度量估计的回归方程的拟合优度表明模型中的自变量对因变量变异的解释能力3)T检验对回归系数的显著性进行检验即检验回归系数是否等于()c.结果的输出()logout,save mytableword replace:reg DF C
9.2Logistic(最大似然法)Logistics回归分析是对因变量为定性变量的回归分析它是一种非线性模型其基本特点是因变量必须是二分类变量命令logit yxlx2(参数估计)logistic yxlx2(提供发生比)分析结果的实质是一样的,但输出结果的表现形式有所不同
9.3时间序列。
个人认证
优秀文档
获得点赞 0