还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
回归分析及其应用统计建模与预测变量关系的量化分析课程概述课程目标课程内容掌握回归分析理论基础理论到高级应用学习要求第一章回归分析基础定义与历史1回归分析的起源与发展基本概念2变量关系的类型应用场景3多学科的实际应用回归分析的定义
1.1统计学方法变量间关系研究研究变量间相互依赖的数量关系确定自变量如何影响因变量预测与解释建立模型用于预测和解释现象回归分析的历史
1.211885年高尔顿研究父子身高关系21805年勒让德提出最小二乘法31809年高斯发表最小二乘法理论现代4计算机技术推动回归分析发展变量间的关系类型
1.3函数关系相关关系确定性关系统计性关系一个自变量值对应唯一因变量值存在随机波动例圆面积与半径例身高与体重回归分析的基本思想
1.4数据收集获取研究变量的观测值建立数学模型确定变量间关系的函数形式参数估计使用统计方法估计模型参数模型评价验证模型的有效性回归分析的应用领域
1.5经济学生物学需求预测、经济增长分析生长曲线、药物效应研究工程技术社会科学质量控制、可靠性分析行为研究、教育成果分析第二章简单线性回归模型形式一个自变量与一个因变量的线性关系参数估计使用最小二乘法求解参数模型评价通过决定系数、F检验等评估模型预测应用基于模型进行点预测和区间预测简单线性回归模型
2.1模型形式Y=β₀+β₁X+ε截距项β₀X=0时Y的期望值斜率β₁X变化一个单位时Y的平均变化量随机误差ε遵循正态分布N0,σ²最小二乘法
2.2基本原理使残差平方和最小目标函数Q=ΣYᵢ-β₀-β₁Xᵢ²求导分别对β₀和β₁求偏导解方程联立方程求解参数估计值回归系数的估计
2.3点估计区间估计β̂₁=ΣXᵢ-X̄Yᵢ-Ȳ/ΣXᵢ-X̄²β̂±tα/2,n-2·sβ̂β̂₀=Ȳ-β̂₁X̄置信水平通常为95%模型评价
2.4决定系数R²F检验模型解释的变异比例检验回归方程的显著性残差分析t检验检验模型假设是否满足检验回归系数的显著性预测
2.5点预测区间预测Ŷ=β̂₀+β̂₁X₀预测区间给定X₀值的单一Y预测值考虑随机误差和参数估计误差比置信区间更宽实例分析
2.6数据介绍模型建立结果解释房屋面积与售价数据售价=β₀+β₁×面积面积每增加1平方米,价格增加β₁万元第三章多元线性回归多元回归模型形式1包含多个自变量的线性模型参数估计技术2矩阵运算与最小二乘法模型诊断与优化3多重共线性、变量选择与残差分析多元线性回归模型
3.1模型形式Y=β₀+β₁X₁+β₂X₂+...+βX+εₚₚ参数含义β₀是截距偏回归系数βᵢ表示其他变量不变时Xᵢ的边际效应随机误差ε~N0,σ²多元回归的矩阵表示
3.2观测值向量设计矩阵参数向量矩阵形式Y=[y₁,y₂,...,y]ᵀX包含所有自变量值和常数项β=[β₀,β₁,...,β]ᵀY=Xβ+εₙₚ最小二乘估计
3.3正规方程XᵀXβ̂=XᵀY参数估计β̂=XᵀX⁻¹XᵀY拟合值Ŷ=Xβ̂残差e=Y-Ŷ多重共线性
3.4定义诊断方法自变量之间存在线性相关关系方差膨胀因子VIF分析处理方法剔除变量、岭回归、主成分分析变量选择
3.5向前选择法从空模型开始逐步加入变量向后剔除法从全模型开始逐步剔除变量逐步回归法结合向前和向后的方法最优子集法比较所有可能的变量组合模型诊断
3.6残差分析异常值检测检验随机误差的正态性和方差齐性识别学生化残差、库克距离模型验证杠杆点分析使用测试集评估预测性能识别对模型有高杠杆作用的观测实例分析
3.7数据描述房价与面积、位置、房龄等因素模型构建对数变换处理偏度变量选择使用AIC准则确定最优模型结果分析解释各因素对房价的影响程度第四章广义线性模型模型扩展突破经典线性模型的限制特殊形式logistic回归、泊松回归等估计方法最大似然估计、迭代加权最小二乘法应用场景分类问题、计数数据分析广义线性模型概述
4.11定义线性模型的推广形式2随机成分响应变量服从指数族分布3系统成分线性预测器η=Xβ4连接函数连接期望值与线性预测器gμ=η回归
4.2logistic二项logistic回归多项logistic回归预测二分类结果概率处理多分类问题连接函数logitp=lnp/1-p使用多个logit函数适用疾病诊断、信用评估适用消费者选择分析泊松回归
4.3模型形式lnμ=Xβ分布假设响应变量服从泊松分布应用场景计数数据事故频次、疾病发生数过度离散方差大于均值时需要特殊处理模型拟合
4.4最大似然估计对数似然函数迭代计算IWLS找出使观测数据概率最大的转换乘积为求和便于计算使用牛顿-拉夫森法求解迭代加权最小二乘法优化求参数值解模型评价
4.5似然比检验AIC准则比较嵌套模型平衡拟合优度和模型复杂度混淆矩阵ROC曲线计算精确率、召回率等指标评估分类模型的判别能力实例分析
4.6logistic回归应用泊松回归应用信用风险预测疾病发生率分析客户特征与违约风险关系环境因素对疾病发生的影响构建风险评分卡模型计算相对风险比第五章非线性回归模型形式1参数与因变量非线性关系参数估计非线性最小二乘法、迭代算法转换技术线性化变换、数值优化方法非线性回归模型
5.1定义参数与因变量存在非线性关系指数模型Y=βₒeᵝ¹ˣ+ε幂函数模型Y=βₒXᵝ¹+εLogistic模型Y=β₀/1+e^-β₁X-β₂+ε参数估计方法
5.2最小二乘法最大似然估计最小化残差平方和最大化观测数据的概率需要迭代求解可处理不同误差分布适用于误差正态分布情况需要指定概率密度函数线性化转换
5.3对数转换倒数转换将乘法关系转为加法关系处理分式形式的非线性关系变量替代转换的局限性引入新变量简化模型形式可能改变误差结构非线性最小二乘法
5.4Gauss-Newton算法基于一阶泰勒展开Levenberg-Marquardt算法结合梯度下降和Gauss-Newton方法初值选择对算法收敛性至关重要收敛判断参数变化或残差变化小于阈值模型评价
5.5残差分析伪R²预测能力评估检验随机性和正态评估模型拟合优度交叉验证、PRESS性统计量参数敏感性分析评估模型稳定性实例分析
5.6生长曲线拟合药物动力学模型生物体生长过程建模药物在体内浓度变化使用Logistic或Gompertz模型使用多指数衰减模型预测最大生长量和生长速率计算药物半衰期和清除率第六章时间序列回归时间序列特征1趋势、季节性、周期性和随机波动基本模型2AR、MA、ARMA等模型高级模型3ARIMA、季节性ARIMA时间序列的特征
6.1趋势季节性长期变化方向固定周期的波动随机波动周期性不规则变动非固定周期的波动自回归模型
6.2AR模型形式Yt=φ₁Yt₋₁+φ₂Yt₋₂+...+φYt₋+εtₚₚARp模型p阶自回归,当前值依赖于p个滞后值参数估计Yule-Walker方程、最小二乘法平稳性条件特征方程根落在单位圆外移动平均模型
6.3MA模型形式Yt=εt+θ₁εt₋₁+θ₂εt₋₂+...+θqεt₋qMAq模型q阶移动平均,当前值依赖于当前及q个滞后白噪声参数估计最大似然估计、非线性最小二乘可逆性条件特征方程根落在单位圆外模型
6.4ARMA模型构建预测方法ARMAp,q结合AR和MA特点递推法Yt=φ₁Yt₋₁+...+φYt₋+εt+θ₁εt₋₁+...+θqεt₋q最小均方误差预测ₚₚ预测误差随着预测期增加而扩大模型
6.5ARIMA差分处理使非平稳序列转化为平稳序列模型识别利用ACF和PACF确定p、d、q值参数估计最大似然法估计模型参数模型检验残差白噪声检验、信息准则比较季节性模型
6.6ARIMA模型形式SARIMAp,d,qP,D,Qs季节性参数P,D,Q表示季节性部分阶数周期参数s月度数据s=12,季度数据s=4应用场景销售、旅游、气温等季节性明显数据实例分析
6.7时间序列模型在销售预测、股价分析和经济指标预测中的应用案例第七章面板数据回归数据特征主要模型横截面和时间序列的结合固定效应模型同时观察多个个体在多个时点的数据随机效应模型动态面板模型面板数据概述
7.1定义同时包含横截面和时间序列信息的数据优势更大样本量,控制个体异质性平衡面板每个个体观测期相同非平衡面板观测期不完全相同固定效应模型
7.2模型假设模型形式个体效应与解释变量相关Yᵢ=Xᵢβ+αᵢ+εᵢₜₜₜ估计方法局限性去均值变换、LSDV无法估计时不变变量的效应随机效应模型
7.3模型假设模型形式估计方法个体效应与解释变量不相关Yᵢ=Xᵢβ+αᵢ+εᵢ广义最小二乘法GLSₜₜₜ个体效应是随机变量误差项为复合误差可估计时不变变量效应检验
7.4Hausman原理检验个体效应与解释变量是否相关零假设随机效应模型更合适备择假设固定效应模型更合适检验统计量基于两种估计量差异构造动态面板模型
7.5模型特点包含因变量滞后项2估计问题滞后项与误差项相关导致内生性GMM估计差分GMM利用滞后变量作为工具变量系统GMM结合差分方程和水平方程估计实例分析
7.6经济增长模型公司财务分析分析各国增长率差异研究资本结构影响因素控制国家特有因素处理企业异质性使用固定效应模型使用动态面板模型第八章回归分析在机器学习中的应用树基模型回归树、集成方法核方法与神经网络支持向量回归、深度学习正则化技术岭回归、LASSO回归回归树
8.1决策树原理递归二分,最小化节点内方差CART算法通过贪心算法选择最佳分割点剪枝技术避免过拟合,提高泛化能力优势可解释性强,适应非线性关系支持向量回归
8.2SVM原理构建最大容忍带ε-不敏感损失函数忽略ε范围内的误差核函数选择线性核、多项式核、RBF核参数调优交叉验证优化C、ε和核参数神经网络回归
8.3多层感知机输入层、隐藏层、输出层激活函数ReLU、sigmoid、tanh等反向传播算法梯度下降更新权重优化技术批归一化、dropout防止过拟合集成学习方法
8.4随机森林梯度提升树Bagging方法Boosting方法构建多棵独立决策树序列训练,每棵树学习前一棵树的残差平均预测结果降低方差XGBoost、LightGBM等实现正则化技术
8.5岭回归Lasso回归L2正则化,收缩系数但不为零L1正则化,产生稀疏解超参数选择弹性网络交叉验证优化惩罚强度结合L1和L2正则化优势实例分析
8.6总结与展望课程回顾未来发展学习建议从基础理论到高级应用与深度学习、因果推断理论结合实践,持续学结合习实践工具R、Python、SPSS等软件应用。
个人认证
优秀文档
获得点赞 0