还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
回归分析教学本课程将系统介绍回归分析的基本原理、应用方法及实际案例,帮助学习者掌握数据分析的核心技能回归分析简介什么是回归分析历史发展研究领域一种统计方法高尔顿研究遗传学经济学预测分析变量间关系最小二乘法奠基工程数据分析预测未知值现代统计学基石医学研究回归分析的实际应用经济学应用医学领域GDP预测模型药物响应关系股票市场分析疾病风险因素消费者行为研究治疗效果评估工程应用材料性能预测质量控制能源消耗分析数据类型与变量定义响应变量(因变量)自变量(预测变量)我们希望预测的变量用于预测的变量通常用Y表示通常用X表示取决于自变量可以是多个变量类型定量变量数值型定性变量分类型需要不同处理方法相关性与因果关系相关性因果关系关系判断变量间线性关联程度一个变量导致另一个变理论支持非常重要化-1到1之间的值实验设计是关键需要严格实验设计不等于因果关系随机化提高可信度不能仅靠相关推断一元线性回归模型图形表示直线关系散点图上拟合基本形式参数含义预测新值Y=β₀+β₁X+εβ₀截距一个自变量Xβ₁斜率一个因变量Yε随机误差最小二乘法基础原理最小化误差平方和数学表达SSE=ΣYᵢ-Ŷᵢ²目标找到最优拟合线几何解释垂直距离平方和最小回归系数估计计算斜率₁ββ₁=Σxᵢ-x̄yᵢ-ȳ/Σxᵢ-x̄²计算截距₀ββ₀=ȳ-β₁x̄回归方程ŷ=β₀+β₁x一元回归案例分析数据收集身高体重数据样本量30人绘制散点图观察关系趋势判断线性假设计算参数使用最小二乘法得到回归方程结果分析解释系数含义进行预测拟合优度R²含义模型解释变异比例计算方法2R²=SSR/SST=1-SSE/SST数值范围0到1之间结果解释越接近1拟合越好残差分析基础残差定义实际值与预测值差异分布假设独立同分布正态随机变量检验方法正态性检验可视化工具残差图、QQ图假设检验t检验t单个参数显著性F检验F整体回归显著性
0.05显著性水平常用α值p值判断ppα时拒绝原假设置信区间一元回归总结模型表达参数估计最小二乘法Y=β₀+β₁X+ε应用场景显著性检验单因素影响分析t检验与F检验多元线性回归简介增加多个自变量提高预测能力基本模型形式Y=β₀+β₁X₁+β₂X₂+...+βₖXₖ+ε每个系数表示对应变量的边际效应多元回归模型构建矩阵表达式法方程求解计算方法Y=Xβ+εβ̂=XX⁻¹XY矩阵运算实现简洁表示多变量关系最小二乘法推广软件自动处理回归系数解读系数类型含义解释注意事项β₀(截距)所有自变量为0时的可能无实际意义因变量值βᵢ(斜率)其他变量不变时,Xᵢ需考虑多重共线性变化单位对Y的影响标准化系数消除量纲影响后的相便于变量间比较对重要性多元回归案例1案例背景2数据特点学生成绩影响因素样本量80名学生自变量学习时间、出勤率、前测成绩变量间存在相关性3建模过程4结果分析变量选择与检验学习时间影响最大模型拟合与诊断R²值达
0.78多元回归拟合优度调整R²R²原始解释变异比例考虑自变量数量随变量增加必然上升调整R²=1-1-R²·n-1/n-p-1可能导致过拟合更适合模型比较增加无用变量时调整R²可能下降平衡拟合度与模型复杂度变量选择方法向前选择从空模型开始逐步添加最显著变量向后消除从全模型开始逐步移除最不显著变量逐步回归结合前两种方法可添加也可移除变量选择标准基于F检验或信息准则考虑实际意义多重共线性检测相关系数矩阵方差膨胀因子条件指数检查变量间高相关性VIF=1/1-R²ⱼ基于特征值比率相关系数
0.8需注意VIF10表示严重共线性大于30表示严重问题多元线性回归总结易错点技巧总结忽视多重共线性重视变量选择过分解释R²注重模型诊断错误解读系数考虑变量转换实用建议从简单模型开始理论与数据相结合注意异常观测模型诊断基础诊断步骤正态性检验、散点图分析、异常值检测常用工具Q-Q图、残差图、标准化残差目标确保模型假设满足,提高模型可靠性异方差性检测含义表现误差方差不恒定残差图呈漏斗形解决方案检验方法加权最小二乘法White检验自相关性问题DW检验Durbin-Watson检测一阶自相关
2.0理想值无自相关时接近
21.5正自相关DW值偏小
2.5负自相关DW值偏大自相关主要出现在时间序列数据可通过引入滞后变量或差分处理非线性关系识别残差曲线模式变量变换多项式回归呈现明显非随机性对数转换引入平方项U型或倒U型平方根转换可表示曲线关系高杠杆点与异常值异常值1Y方向偏离高杠杆点2X空间中远离中心影响点3同时具有高杠杆和异常值特性检测方法标准化残差、杠杆值hii、Cook距离处理方式检查数据准确性、考虑移除或使用稳健方法残差图分析残差与拟合值图残差与预测变量图正态图Q-Q检测非线性检查变量关系检验正态性识别异方差性发现遗漏变量发现偏态影响点分析距离Cook综合衡量观测点影响DFFITS移除观测对拟合值的影响DFBETAS移除观测对系数估计的影响判断标准Cook距离4/n需关注模型修正方法变量变换加权最小二乘稳健回归对数转换处理异方差性M估计Box-Cox变换权重为方差倒数减少异常值影响平方根转换提高估计效率迭代加权过程模型选择标准假设与检验回顾1线性关系假设Y与X线性相关残差图检验2独立性假设观测相互独立Durbin-Watson检验3正态性假设误差服从正态分布Shapiro-Wilk检验4同方差性假设误差方差恒定Breusch-Pagan检验分类变量的引入二分类变量一个哑变量(0或1)多分类变量k-1个哑变量交互效应哑变量与连续变量相乘参照组被省略的分类非线性回归模型多项式回归引入高次幂项Y=β₀+β₁X+β₂X²+...+ε对数线性模型对变量取对数处理非线性和异方差回归Logistic因变量为二分类预测概率而非数值主成分回归与岭回归主成分回归岭回归降维技术添加惩罚项转换为无关主成分λΣβ²ᵢ正则化处理多重共线性收缩系数估计共同点处理共线性区别实现方式不同逐步回归详细介绍算法思路基于统计量选择最优变量子集优点自动化、效率高、易实现缺点多重检验问题、可能错过最优模型、p值偏小应用场景大量候选变量、探索性分析面板数据回归基础模型类型特点应用场景混合OLS忽略面板结构无个体差异固定效应模型允许个体特定截距关注组内变化随机效应模型个体效应为随机变量样本随机抽取Hausman检验用于选择适当模型优势同时利用横截面与时间序列信息时间序列回归滞后变量自相关处理包含前期观测值差分方法协方差调整估计Y_t=α+βX_t+γY_t-1+ε_t捕捉动态关系Cochrane-Orcutt程序单位根检验确保平稳性ADF检验避免伪回归广义线性模型简述GLM线性回归回归Poisson正态分布误差计数数据恒定方差对数连接函数1234回归回归Logistic Gamma二项分布非负连续数据logit连接函数倒数连接函数回归模型的局限性线性假设限制变量遗漏外推风险无法捕捉复杂非线性关系重要变量缺失导致偏误样本范围外预测不可靠真实世界常非线性完整数据难获取关系可能改变回归分析实操Pythonimport pandasas pdimportnumpy asnpimport matplotlib.pyplot aspltfrom sklearn.linear_model importLinearRegressionfrom sklearn.model_selection importtrain_test_split#读取数据data=pd.read_csvdata.csv#划分自变量和因变量X=data[[x1,x2,x3]]y=data[y]#划分训练集和测试集X_train,X_test,y_train,y_test=train_test_splitX,y,test_size=
0.2,random_state=42#建立模型并拟合model=LinearRegressionmodel.fitX_train,y_train#查看系数printf截距:{model.intercept_}printf系数:{model.coef_}语言回归分析实操R#读取数据data-read.csvdata.csv#查看数据结构strdata#建立回归模型model-lmy~x1+x2+x3,data=data#查看结果摘要summarymodel#模型诊断parmfrow=c2,2plotmodel#预测新值new_data-data.framex1=10,x2=20,x3=30predictmodel,new_data,interval=prediction工具与可视化Excel数据录入变量列表设置数据类型确认散点图绘制初步关系探索添加趋势线回归分析工具数据分析加载项回归选项设置结果解读系数表理解统计量解释综合案例房价预测1120样本量北京市住宅5预测变量面积、楼层、年限等
0.83值R²模型解释力3显著变量面积影响最大建模过程数据清洗、异常检测、多重共线性处理、变量选择结论位置和面积是主要影响因素,模型预测精度较高综合案例薪资与教育、经验关系2综合案例广告投入与销量3目标变量月度销售额预测变量电视、广播、网络广告投入最优模型3对数-线性模型主要发现边际效益递减开放性练习题1基础练习一元回归系数手算模型解释练习2中级练习变量选择与诊断残差分析解读3高级挑战综合案例建模非标准情况处理4推荐数据集波士顿房价加州住房数据科学中的回归分析传统统计方法机器学习技术重视假设检验注重预测精度集成模型正则化方法提高泛化能力3处理高维数据课程总结理论基础实践技能诊断能力最小二乘原理模型构建流程问题识别线性模型假设软件工具应用解决方案选择应用拓展多种回归变体现实案例分析展望与进阶学习推荐书籍进阶课程职业发展《应用回归分析》统计学习导论数据分析师《数据分析与回归建模》因果推断基础统计建模专家。
个人认证
优秀文档
获得点赞 0