还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
线性回归分析数据科学的基础统计方法课程概述课程目标掌握回归分析的理论基础学习内容线性回归模型的建立与应用先修知识第一章回归分析基础回归分析的定义回归分析的应用领域研究变量间依存关系的统计方法回归分析与相关分析的区别回归分析相关分析研究自变量对因变量的影响研究变量间的相关程度可进行预测和推断不涉及因果关系需要划分自变量和因变量变量地位平等回归分析的类型多元线性回归多个自变量,一个因变量简单线性回归一个自变量,一个因变量非线性回归变量间非线性关系第二章简单线性回归简单线性回归模型的定义描述一个自变量与一个因变量间的线性关系模型假设•线性关系•误差项独立同分布•方差齐性简单线性回归模型的数学表达(截距)ββεβy=₀+₁x+₀线性关系的数学表达式x=0时y的预测值(随机误差)(斜率)εβ₁模型无法解释的随机部分x变化一个单位时y的变化量最小二乘法目标函数最小化残差平方和数学原理求导数等于零的点几何意义寻找距离所有点总和最近的直线最小二乘估计的计算公式β₁β₁=Σx-x̄y-ȳ/Σx-x̄²的计算公式β₀β₀=ȳ-β₁x̄几何解释回归直线必过x̄,ȳ点回归方程的拟合点估计区间估计拟合效果评价ŷ=b₀+b₁x参数的置信区间构建通过统计指标和图形判断回归方程的评价指标决定系数R²模型解释的变异比例均方误差MSE预测值与实际值差异的平方平均标准误差SE回归系数估计的精确程度残差分析残差的定义残差图的绘制残差图的解释实际值与预测值之差横轴为自变量或预测值•随机分布模型适当•存在模式模型可能有问题e_i=y_i-ŷ_i纵轴为残差值异常值检测σ31标准差法则距离Cooks超出3倍标准差为异常衡量观测值对参数估计的影响2/n杠杆值阈值判断样本点对回归结果的影响力简单线性回归的假设检验检验类型检验假设统计量t检验H₀:β₁=0t=b₁/SEb₁F检验H₀:模型不显著F=MSR/MSE预测与置信区间点预测置信区间给定x值时y的最佳估计参数真值所在的区间估计预测区间未来观测值的可能范围第三章多元线性回归多元线性回归模型的定义基本形式多个自变量预测一个因变量y=β₀+β₁x₁+β₂x₂+...+βx+εₚₚ模型假设•线性性•无多重共线性•误差项同方差多元线性回归的矩阵表示多元线性回归的最小二乘估计目标函数最小化残差平方和Sβ正规方程XXβ=XY参数估计β̂=XX⁻¹XY多元回归方程的拟合回归系数解释控制其他变量时单个变量的边际效应标准化系数不同单位变量影响的相对比较拟合优度模型对数据的解释能力多元回归的评价指标多重共线性危害参数估计不稳定检测方法相关系数矩阵和VIF解决方案删除变量或使用正则化方法多元回归的假设检验整体显著性检验1F检验至少一个回归系数不为零偏回归系数检验2t检验单个回归系数是否显著区间估计3回归系数的置信区间变量选择方法向前选择向后剔除逐步回归从无变量开始逐个添加从全变量开始逐个删除结合向前和向后方法第四章回归诊断残差分析影响分析检查模型假设识别高影响观测值模型改进假设验证针对诊断结果调整模型正态性、独立性等异方差性检验异方差性问题检验检验White Breusch-Pagan误差项方差不恒定基于残差平方的回归需要指定异方差形式导致标准误估计有偏无需指定异方差形式通过辅助回归实现自相关性检验正态性检验图检验Q-Q Shapiro-Wilk直观检验残差分布是否正态小样本最有效的正态性检验检验Jarque-Bera基于偏度和峰度的检验模型规范性检验模型设定错误类型检验RESET变量遗漏、函数形式错误拉姆赛回归方程规范错误检验增广回归检验添加可能遗漏的变量检验第五章广义线性模型随机分量因变量分布假设系统分量线性预测因子η=Xβ链接函数连接期望值与线性预测因子逻辑回归逻辑回归特点模型系数解释Logit处理二分类因变量lnp/1-p=Xβ反映自变量对对数优势比的影响因变量服从伯努利分布链接函数为logit函数expβi为优势比变化泊松回归λ0,1,
2...计数数据泊松分布因变量为非负整数均值等于方差ln对数链接lnμ=Xβ第六章时间序列回归时间序列特点趋势成分季节性成分观测值按时间顺序长期变化方向固定周期的波动模排列式随机成分不规则波动自回归模型移动平均模型模型ARIMA预测应用模型诊断生成未来值的点预测和区间预测参数估计残差白噪声检验模型识别最大似然法估计系数确定p、d、q值第七章非线性回归指数模型幂函数模型逻辑斯蒂模型y=ae^bx y=ax^b y=a/1+e^-bx-c多项式回归二次多项式三次多项式y=β₀+β₁x+β₂x²y=β₀+β₁x+β₂x²+β₃x³模型选择过拟合问题通过AIC或交叉验证选择阶数高阶项可能导致过拟合分段线性回归断点确定模型构建连续性约束视觉检查或统计方法不同区间使用不同线性关系可选择在断点处保持连续第八章回归分析中的特殊问题问题类型影响处理方法异常值扭曲参数估计剔除或稳健回归缺失值减少样本量插补或删除多重共线性参数估计不稳定变量选择或正则化多重共线性的处理岭回归主成分回归添加L2正则化项提取自变量主成分β̂=XX+λI⁻¹XY用主成分替代原始变量控制系数大小降低维度变量变换对数变换处理指数关系平方根变换稳定方差变换Box-Cox3参数化变换家族第九章回归分析在机器学习中的应用过拟合欠拟合模型过于复杂,捕捉噪声模型过于简单,无法捕捉关系交叉验证评估模型泛化能力的方法正则化方法回归回归调参方法Lasso RidgeL1正则化,可实现变量选择L2正则化,收缩系数但不置零交叉验证选择最优正则化强度弹性网络方法原理公式表达结合L1和L2正则化α·L1+1-α·L2参数调优优势调整和两个参数同时具有变量选择和系数收缩能力αλ第十章回归树和随机森林决策树回归随机森林回归基于特征划分样本多棵树的集成学习叶节点为区域平均值随机选择特征和样本易解释但易过拟合预测能力强但解释性差支持向量回归不敏感损失ε-容忍范围内的误差ε核函数2处理非线性关系超参数C惩罚系数和ε误差容忍度第十一章回归分析在各领域的应用经济学应用需求分析、生产函数估计生物学应用基因表达分析、药物响应预测心理学应用行为预测、因素分析工程学应用质量控制、系统建模回归分析在金融中的应用股票收益预测多因素回归模型预测回报率风险评估波动性和风险因子建模资产定价CAPM和APT等因子模型回归分析在医学中的应用回归分析在社会科学中的应用68%42%教育成果预测社会现象分析家庭背景对学生成绩的解释率犯罪率与社会经济因素的关联度
3.5政策效果评估政策干预前后的效应大小第十二章回归分析软件实践语言实现Rlm函数和各类扩展包实现Pythonsklearn、statsmodels库大数据工具Spark MLlib、TensorFlow中的回归分析SPSS结果解释参数选择阅读系数表、ANOVA表等分析设置选择变量和方法数据准备选择菜单分析-回归-线性导入数据并检查质量中的回归分析Excel第十三章回归分析报告撰写报告结构研究问题、数据描述、方法、结果、讨论图表展示散点图、残差图、模型预测图表格呈现回归系数表、显著性检验表文字表述解释模型意义和实际应用价值回归结果的解释输出项解释方法注意事项回归系数变量单位变化的边际效应考虑变量单位和标准化p值系数显著性水平注意多重检验问题R²模型解释变异比例非因果关系的指标模型诊断报告残差与拟合值图残差图残差杠杆图Q-Q-检查线性性和异方差性检查残差正态性检测影响点和异常值第十四章回归分析的局限性遗漏变量偏误反向因果重要变量未纳入模型因变量可能影响自变量因果关系推断问题预测的不确定性相关不意味着因果预测区间可能较宽4回归分析的未来发展人工智能整合深度学习与回归结合大数据挑战高维数据的处理方法个性化预测异质效应的精确估计课程总结基础理论1掌握线性回归的数学基础模型构建2学会选择变量和评估模型诊断改进3掌握模型诊断和优化实际应用4能够解决实际领域问题参考文献与推荐阅读入门教材进阶读物《应用线性回归分析》蒙哥马《线性回归分析》威廉姆·门登利霍尔学术论文《统计学习的要素》特雷弗·哈斯蒂。
个人认证
优秀文档
获得点赞 0