还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
多元回归分析数据分析的重要方法揭示多个变量之间的复杂关系课程目标掌握基本理论学习分析方法理解多元回归分析的核心概念能够构建、评估和改进多元回和数学基础归模型培养应用能力多元回归分析的定义研究方法数学模型探索一个因变量与多个自变量之₀₁₁₂₂Y=β+βX+βX+间关系的统计技术...+βX+εₙₙ预测工具利用多个变量共同预测目标变量的值多元回归分析的应用领域经济金融医学研究预测经济增长、股票价格、通货膨胀率分析疾病风险因素、药物疗效评估工业生产市场营销优化生产参数、质量控制确定影响销售额的关键因素多元回归分析与简单线性回归的区别简单线性回归多元回归分析仅包含一个自变量包含多个自变量₀₁₀₁₁₂₂Y=β+βX+εY=β+βX+βX+...+βX+εₙₙ只考虑单一影响因素综合考虑多种影响因素多元回归模型的基本形式线性函数关系₀₁₁₂₂Y=β+βX+βX+...+βX+εₙₙ参数含义₀是截距项,是各自变量系数ββᵢ误差项表示随机误差项ε多元回归模型的假设条件线性关系1因变量与自变量之间存在线性关系误差项独立2各观测值的误差项相互独立同方差性3误差项具有相同方差正态分布4误差项服从正态分布自变量的选择原则理论相关性变量应与研究主题有理论联系统计显著性变量应对模型有统计显著贡献数据可获得性变量数据应易于获取且可靠多重共线性问题定义后果诊断自变量之间存在高度相回归系数估计不稳定,相关系数矩阵,方差膨关性方差增大胀因子VIF变量之间的相关性分析多元回归模型的参数估计收集数据获取因变量和自变量的观测值建立方程构建多元回归方程估计参数计算的最优估计值βᵢ最小二乘法()原理OLS最小化Σ平方和数学表达残差平方和达到最小值minΣYᵢ-Ŷᵢ²最优估计量得到参数的最佳线性无偏估计估计量的性质OLS无偏性有效性一致性̂,估计量的期望等于真实参数在所有线性无偏估计中方差最小样本量增大时,估计量收敛于真实参数Eβ=β多元回归模型的矩阵表示矩阵形式简洁表达复杂计算Y=Xβ+ε̂⁻β=XX¹XY多元回归方程的解释方程结构预测功能₀₁₁₂₂根据值预测的期望值Ŷ=b+b X+b X+...+b X X Yₙₙ₀是截距,是回归系数提供因变量与自变量关系的最佳线性拟合b bᵢ回归系数的含义₀截距斜率统计意义ββᵢ当所有自变量为时,因变量的预期值其他变量不变时,变动一单位导致描述自变量对因变量的独立影响程度0XᵢY的变化量标准化回归系数消除β*量纲影响计算方法不同量纲变量可直接比较影响大小×β*ᵢ=βᵢsₓᵢ/sᵧ比较相对重要性评估各自变量对因变量的相对影响程度偏回归系数与简单回归系数的区别简单回归系数1仅考虑单一自变量与因变量的关系偏回归系数2控制其他变量后的净效应数值差异3两种系数通常有显著差异多元回归模型的拟合优度衡量模型精确度模型解释数据变异的能力量化指标通过和调整等统计量表示R²R²评估标准比较不同模型的预测准确性决定系数的计算与解释R²调整后的R²定义作用考虑自变量数量的修正惩罚不必要的自变量R²防止过度拟合R²ₐ=1-1-R²n-1/n-k-1更适合模型比较多元回归模型的显著性检验提出假设计算统计量确立原假设和备择假设统计量和统计量F t做出决策评估值p接受或拒绝原假设与显著性水平比较α检验的原理与步骤F假设设定₀₁₂模型无效H:β=β=...=β=0ₙ统计量计算回归均方残差均方F=/临界值确定在显著性水平下查分布表αF结论判断若临界值,则拒绝₀FF H检验与回归系数的显著性t检验每个回归系数是否显著不为零₀₁H:βᵢ=0vs H:βᵢ≠0t=bᵢ/sebᵢ假设检验的值解释p值定义p在原假设为真时观测到当前或更极端结果的概率决策规则时拒绝原假设pα显著性水平通常取或α
0.
050.01多元回归分析中的预测预测新观测值预测精度预测公式代入新的值计算的受模型拟合度和样本量₀₁₁X YŶ=b+b X+估计值影响₂₂b X+...+b Xₙₙ点预测与区间预测点预测区间预测预测的单一最佳估计值提供的可能范围Y Y₀₁₁₂₂考虑抽样误差和随机误差Ŷ=b+b X+b X+...+b Xₙₙ±₍₂₁₎××₀⁻₀Ŷtα/,n-k-s√[1+X XX¹X]预测的置信区间宽窄95%常用置信度影响因素预测区间包含真实值的概率样本量、值位置、模型拟合度X两类区间类型均值预测区间和个体预测区间残差分析残差定义分析目的观测值与预测值之差检验回归假设是否满足e=Y-Ŷ理想特征均值为零,方差相等,相互独立,正态分布残差图的绘制与解释理想残差图非线性关系异方差性呈随机分布,无明显模式残差呈曲线或形分布残差随预测值变大或变小U异方差性检验问题描述误差项方差不恒定检验方法检验、检验、残差图分析White BP影响估计量不再是最有效估计量OLS解决方案变量转换、加权最小二乘法自相关性检验多重共线性的诊断方法相关矩阵检查方差膨胀因子VIF变量间相关系数过高表明可能存在多重共线性通常表示严重多重共线性
0.8VIF10条件指数特征值分析条件指数表示可能存在多重共线性特征值接近零表明存在多重共线性15方差膨胀因子()VIFVIF1-5计算公式中等共线性需要注意但影响不大VIFᵢ=1/1-R²ᵢ10严重共线性需要采取措施处理条件数与特征根分析矩阵1XX计算相关矩阵的特征值条件数2最大特征值最小特征值/判断标准3条件数表示严重多重共线性100岭回归简介基本原理特点与优势通过添加惩罚项减小回归系数有效处理多重共线性β̂ᵣᵢᵈᵍᵉ=XX+λI⁻¹XY牺牲无偏性换取更小的方差整体预测效果可能更好逐步回归法开始添加移除变量/确定候选变量集根据统计标准进行筛选停止评估模型达到终止条件时结束检验模型改进情况向前选择法起点从只有截距项的模型开始添加变量依次添加最显著的变量终止条件没有变量满足入选标准时停止向后剔除法起点从包含所有变量的模型开始剔除变量依次剔除最不显著的变量终止条件所有变量都显著时停止逐步回归的优缺点优点缺点•自动选择变量•可能忽略重要变量•减少计算量•多重检验问题•避免不必要的变量•过度拟合风险•回归系数估计有偏虚拟变量在多元回归中的应用定义应用场景表示分类变量的二进制变量性别、教育程度、地区差异等0或分类特征1注意事项避免虚拟变量陷阱,个类别只用个虚拟变量K K-1定性变量的编码方法编码方法特点适用场景哑变量编码最常用,设置参考类一般分类变量别效应编码比较类别与总体平均实验设计分析对比编码比较相邻或特定类别有序分类变量交互项的引入与解释定义两个自变量乘积项,表示联合效应模型表示₀₁₁₂₂₃₁×₂Y=β+βX+βX+βXX+ε解释一个变量的效应依赖于另一个变量的水平多项式回归非线性关系的线性化处理变量转换对数、平方根、倒数等识别非线性通过散点图和残差分析模型评估比较转换前后的拟合效果对数转换在回归分析中的应用常见形式双对数模型系数解释123半对数模型₀₁₀₁弹性变动导致变动₁Y=β+βlnX+εlnY=β+βlnX+εX1%Yβ%加权最小二乘法适用场景异方差性问题的解决方案基本原理给不同观测值赋予不同权重数学表达minΣwᵢYᵢ-Ŷᵢ²异常值的识别与处理箱线图散点图残差图识别单变量异常值识别多变量异常值识别模型拟合异常值影响点分析杠杆值衡量观测点在空间中的影响力X学生化残差残差除以其估计标准差距离Cook删除观测点对所有拟合值的影响距离Cooks和DFBETAS DFFITSDFBETASDFFITS测量删除观测点对回归系数的影响测量删除观测点对预测值的影响表示显著影响表示显著影响|DFBETAS|2/√n|DFFITS|2√k/n多元回归分析的假设检验总结线性关系散点图、残差图正态性图、直方图Q-Q同方差性残差与预测值图独立性检验Durbin-Watson多元回归分析在经济学中的应用经济增长模型分析影响增长的多种因素GDP需求分析研究价格、收入、替代品对需求量的影响生产函数探索资本、劳动、技术等因素对产出的贡献投资回报评估不同投资策略的收益率和风险因素多元回归分析在市场研究中的应用销售预测预测产品销量1消费者行为分析影响购买决策的因素广告效果评估不同营销渠道的投资回报多元回归分析在医学研究中的应用药物反应医疗成本分析患者特征对药物疗效的影响研究影响医疗费用的因素风险因素分析治疗效果研究多种因素对疾病风险的影响评估不同治疗方案的效果差异多元回归分析软件介绍SPSS RSAS用户友好,图形界面操作开源免费,扩展包丰富企业级应用,处理大数据集能力强实例分析房价预测模型实例分析销售额影响因素研究43%广告投入对销售额的贡献比例28%产品价格对销售额的贡献比例18%竞争强度对销售额的贡献比例11%其他因素包括季节性、经济环境等多元回归分析的局限性相关不等于因果统计关联不能证明因果关系模型假设限制线性关系、同方差性等假设在实际中可能不成立遗漏变量偏误重要变量的遗漏会导致结果有偏预测能力有限模型外预测存在较大不确定性课程总结与展望基础掌握1多元回归分析的核心概念与方法技能应用解决实际问题的分析能力进阶方向非线性回归、面板数据、机器学习方法。
个人认证
优秀文档
获得点赞 0