还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据分析基础相关性分析教学课件课程概述重要性目标结构相关性分析是数据科学核心技能掌握分析方法与解释技巧第一部分相关性分析基础掌握核心概念理解相关性基本定义学习分析方法熟悉各种相关系数了解应用场景什么是相关性?定义相关因果≠描述两个变量间关系程度和方向的统计指标相关性的类型负相关一个变量增加,另一个减小正相关零相关一个变量增加,另一个也增加相关系数定义范围常见类型衡量两变量线性关系强度的数值通常在-1到+1之间指标皮尔逊相关系数定义测量线性相关程度的参数统计量公式r=Σ[Xi-X̄Yi-Ȳ]/√[ΣXi-X̄²ΣYi-Ȳ²]适用条件连续变量、线性关系、正态分布斯皮尔曼等级相关系数定义1测量两变量等级顺序关系的非参数统计量计算步骤2将数据转化为等级,应用公式计算适用场景3序数数据、非线性关系、非正态分布相关系数的解释0-
0.2极弱相关几乎无关联
0.2-
0.4弱相关关联较弱
0.4-
0.6中等相关明显关联
0.6-
1.0强相关高度关联第二部分数据准备与探索收集数据清洗数据获取高质量原始数据处理缺失值与异常值可视化探索描述统计直观观察变量关系了解数据分布特征数据收集数据质量收集方法确保准确性、完整性与代表性问卷调查、实验测量、观察记录、数据库提取样本考量合理样本量与抽样策略数据清洗缺失值处理异常值检测数据转换删除、均值替换或高箱线图、Z分数法或标准化、对数转换或级插补法统计检验归一化描述性统计统计量含义用途均值数据平均水平集中趋势中位数数据中心位置抗异常值标准差数据离散程度变异性度量数据可视化散点图热图相关矩阵直观展示两变量关系和模式通过颜色强度表示多变量相关性综合展示所有变量间关系正态性检验Q-Q图Shapiro-Wilk检验将数据分位数与理论正态分布比较统计测试数据是否来自正态分布•点落在直线上表示符合正态分布•p
0.05接受正态性假设•偏离直线指示非正态性•p
0.05拒绝正态分布假设线性关系检验确认线性关系皮尔逊相关的必要前提散点图分析观察点的分布模式线性回归初步拟合线性模型评估关系第三部分皮尔逊相关系数分析理解基础理论掌握皮尔逊系数原理与假设执行计算过程手动计算与软件操作进行假设检验评估统计显著性解释分析结果正确理解相关意义皮尔逊相关系数计算计算各变量均值1X̄和Ȳ计算离差乘积2Xi-X̄Yi-Ȳ计算离差平方和3ΣXi-X̄²和ΣYi-Ȳ²应用相关公式4代入数值得到r值皮尔逊相关系数的假设检验1设立假设2计算检验统计量H₀:ρ=0无相关vs H₁:ρ≠0有相关t=r√n-2/√1-r²3确定p值4做出决策与设定显著性水平α比较pα时拒绝原假设相关矩阵构建矩阵可视化呈现解释关系计算所有变量间两两相关系数热图着色表示相关强度识别变量间潜在联系模式案例分析身高与体重的相关性结果解读相关系数大小统计显著性实际意义r=
0.78表示强正相关p
0.001表示高度显著确认身高体重存在稳定关联身高增加,体重也倾向于增加结果不太可能由随机因素导致可用于预测或分类任务陷阱与注意事项非线性关系异常值影响虚假相关皮尔逊系数可能低估少数极端值可显著扭无关变量可能因巧合实际关系强度曲相关结果呈现相关限制范围样本范围限制会降低相关系数第四部分斯皮尔曼等级相关系数分析等级转化计算过程1原始数据转换为排名序列应用斯皮尔曼公式处理2解释应用检验结果43正确理解结果含义评估统计显著性等级数据的处理12排序原始数据分配等级值从小到大排列每个变量赋予相应排名序号3处理并列情况计算平均等级值斯皮尔曼相关系数计算公式手动计算步骤SPSS操作rs=1-6Σd²/nn²-1排序、赋等级、计算差值、应用公分析→相关→双变量→选择斯皮尔式曼斯皮尔曼相关系数的假设检验假设设立检验统计量临界值表H₀:ρ=0vs H₁:ρ≠0较大样本可用t=rs√n-2/√1-rs²小样本查表确定临界值计算值超过临界值则拒绝原假设案例分析学习时间与成绩的相关性结果解释相关系数rs=
0.89表示学习时间与成绩高度正相关统计显著性p=
0.017低于
0.05,关系统计显著实际意义学习时间增加通常伴随成绩提高与皮尔逊相关系数的比较对比维度皮尔逊系数斯皮尔曼系数数据类型连续、等距或比率等级或有序分布要求双变量正态无特定要求关系类型线性关系单调关系异常值敏感性较敏感较不敏感第五部分其他相关性分析方法偏相关分析肯德尔系数点二列相关多元相关控制第三变量影响适用于有并列等级连续与二分变量关系分析复杂变量关系偏相关分析控制混淆变量1排除第三变量影响揭示真实关系2识别直接关联程度应用场景3复杂系统多变量关系研究肯德尔等级相关系数τ-a Tau-aτ-b Tau-b适用条件不考虑并列情况考虑并列等级小样本计算所有可能对的一致性更适合有大量并列的数据大量并列等级序数变量点二列相关定义计算应用测量二分类变量与连续变量间关二分变量编码为0/1后应用修正性别与测试分数、治疗与恢复程系公式度多元相关分析指标解释多元相关系数R衡量整体相关程度R²表示被解释的方差比例定义应用多个预测变量与一个结果变多因素影响研究,如多指标量的关系预测模型2314典型相关分析基本原理心理学应用市场研究分析两组变量之间关系的多变量技术研究性格特质与行为表现关系分析消费者特征与购买行为关联第六部分相关性分析在SPSS中的实现数据准备导入并预处理原始数据变量定义设置正确的测量水平运行分析选择合适的相关方法结果解读正确理解输出结果界面介绍SPSS数据视图变量视图主要菜单以电子表格形式显示实际数据定义变量属性分析、图形、数据转换功能行代表个案,列代表变量设置名称、类型、测量水平等输出查看器显示结果数据导入和预处理导入数据文件→打开→数据,支持Excel、CSV等格式定义变量切换至变量视图,设置名称和属性数据筛选数据选择个案,设置筛选条件→变量转换转换计算变量,创建新变量→描述性统计分析频率分析描述统计量探索性分析分析描述统计分析描述统计分析描述统计→→→→→→频率描述探索交叉表分析描述统计→→交叉表皮尔逊相关分析操作步骤1选择菜单分析相关双变量→→2选择变量将需分析变量移至变量框3设置参数选择皮尔逊,设置显著性检验选项4运行分析点击确定获取结果斯皮尔曼相关分析操作步骤数据准备确保变量设置为有序或连续型操作路径分析相关双变量选择斯皮尔曼→→→结果解读查看系数值和显著性水平注意事项无需检查正态性,适用各类数据分布偏相关分析在中的实现SPSS菜单选择分析相关偏相关→→变量设置指定主要变量和控制变量选项配置设置显著性检验和缺失值处理结果分析比较控制前后相关系数变化相关图的绘制结果导出和报告生成结果复制导出格式右键输出→复制至剪贴板文件→导出为Word/Excel/PDF报告生成格式调整结合文本说明制作完整报告双击表格/图表进行精细编辑第七部分相关性分析在实际研究中的应用理解相关原理掌握理论基础熟悉分析工具灵活运用软件操作实践应用案例学习领域应用技巧市场研究案例医学研究案例研究设计分析方法结果解释横断面调查收集年龄与血压数据皮尔逊相关分析评估线性关系年龄与收缩压r=
0.68,显著正相关500名不同年龄段参与者控制BMI的偏相关分析控制BMI后相关降至r=
0.52教育领域案例
0.
720.56内在动机与成绩相关系数外在动机与成绩相关系数强正相关,p
0.001中等正相关,p
0.
010.64学习态度与成绩相关系数中强正相关,p
0.001金融数据分析社会科学研究教育水平收入水平与犯罪率呈显著负相关r=-
0.65与犯罪率呈中度负相关r=-
0.48人口密度失业率与犯罪率呈弱正相关r=
0.32与犯罪率呈中强正相关r=
0.59第八部分相关性分析的进阶话题非线性相关时间滞后相关样本量影响复杂曲线关系分析考虑时间延迟效应评估统计功效机器学习应用特征工程的相关性非线性相关性检测方法常见类型处理策略散点图检视二次关系数据转换对数、平方残差分析对数关系非参数方法变换技术U形关系非线性回归时间滞后相关性概念一变量当前值与另一变量未来值的关系意义揭示时间序列数据中因果关系线索技巧滞后期确定、平稳性检验、交叉相关分析样本量对相关分析的影响相关性因果关系vs相关性因果关系变量间统计关联,无方向性变量间作用-反应关系不表明一个导致另一个变量X改变导致变量Y改变常见误区因果推断混淆相关与因果需要实验设计忽略潜在第三变量随机分配与对照组机器学习中的相关性分析特征选择筛选高相关变量提升模型性能多重共线性处理预测变量间高度相关问题降维技术基于相关性的主成分分析特征工程4利用相关性创建新特征大数据环境下的相关性分析高性能计算实时分析可视化技术分布式系统处理海量数据相关性流处理技术动态监测相关变化复杂高维相关性直观呈现课程总结核心概念分析方法1相关性定义和类型多种系数计算与解释2实践案例软件应用43多领域应用示例SPSS实操技能参考资料与延伸阅读推荐教材学术期刊《多变量统计分析》《心理学报》《统计研究》《SPSS统计分析从入门到《数据分析与知识发现》精通》在线资源中国知网、统计之都网站、Coursera相关课程。
个人认证
优秀文档
获得点赞 0