还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
两组数据分布的比较统计学方法与应用课程目标与学习成果了解数据分布比较在统计掌握常见的两组数据分布能够运用统计软件进行数学中的重要性及其应用场比较方法,包括参数检验据分析,并解读分析结景和非参数检验果为什么需要比较两组数据发现差异验证假设12比较两组数据可以帮助我们通过比较数据,我们可以验发现两组数据之间是否存在证我们对数据的假设是否成显著差异立进行决策数据分布比较的实际应用场景医学研究比较不同治疗方法对患者的疗效市场调研比较不同营销策略对产品销量的影响教育评估比较不同教学方法对学生成绩的影响社会科学研究比较不同社会群体的生活水平或幸福度课程大纲概览数据分布的基本概念1正态分布、非正态分布、描述性统计量数据可视化方法2箱线图、直方图、图、密度曲线比较、散点图Q-Q参数检验方法3检验、方差分析、假设检验的实施步骤与结果解读t非参数检验方法4检验、符号秩检验、检验方法的选Mann-Whitney UWilcoxon择效应量分析5计算、效应量的解释Cohens d实例分析6医学研究数据、市场调研数据、实践注意事项数据分布的基本概念什么是数据分布数据分布描述了一组数据中各个数据点的分布情况正态分布数据以平均值为中心,呈钟形曲线分布非正态分布数据不符合正态分布,可能存在偏态或多峰描述性统计量用于描述数据分布特征的数值,如均值、标准差、中位数等什么是数据分布数据分布是指一组数据中各个数据点的分布情况它描述了数据在不同数值范围内的频率或概率数据分布可以通过图表和统计量来进行描述和分析正态分布简介钟形曲线曲线形状类似于钟形,平均值处为最高2点对称性1正态分布曲线关于平均值对称标准化3通过标准化可以将不同分布的数据转化为标准正态分布非正态分布类型偏态分布多峰分布均匀分布数据分布偏向一边,可分为左偏和右数据分布出现多个峰值,表明数据可数据在整个数值范围内均匀分布偏能来自多个不同的群体描述性统计量回顾1均值数据的平均值,代表数据的中心趋势2标准差数据围绕均值的离散程度3中位数将数据从小到大排序后处于中间位置的值4四分位数将数据分成四等份的三个分界点均值的含义与计算12243648510均值是指一组数据中所有数值的平均值,计算方法为将所有数值相加除以数值个数标准差的概念方差1每个数据点与均值的差值的平方和的平均值标准差2方差的平方根,表示数据分布的离散程度标准差越大,数据分布越分散;标准差越小,数据分布越集中中位数与四分位数中位数1将数据从小到大排序后处于中间位置的值,不受异常值影响四分位数2将数据分成四等份的三个分界点,反映数据的分布范围箱线图3通过箱线图可以直观地展示数据的中心趋势和离散程度偏度与峰度偏度峰度数据分布的偏斜程度,可以反映数数据分布的尖锐程度,可以反映数据是否对称据集中程度数据可视化方法箱线图的构建箱线图通过五个数值来描述数据的分布,分别是最小值、第一四分位数、中位数、第三四分位数和最大值直方图的应用直方图将数据分为若干个组,并用柱形的高度来表示每个组通过直方图可以直观地观察数据的形状、中心趋势和离散程的频率或概率度图解读Q-Q12理论值样本值横轴代表理论正态分布的标准分纵轴代表样本数据的标准分数数3线性关系如果数据分布符合正态分布,则样本值与理论值呈线性关系密度曲线比较密度曲线是通过对直方图进行平滑化而得到的,可以更1准确地展示数据的形状比较两组数据的密度曲线,可以观察其形状是否一致2散点图分析线性关系非线性关系两组数据之间存在线性关系,数据点分布在一条直线附近两组数据之间存在非线性关系,数据点分布在曲线附近参数检验方法方差分析2比较两组或多组均值是否具有显著差异检验t1比较两组均值是否具有显著差异假设检验3检验关于总体参数的假设是否成立检验的基本原理t统计量自由度t用于检验两组均值差异的统计分布的形状取决于自由度,t量,服从分布自由度越大,分布越接近正t t态分布值p值表示在原假设成立的情况下,观察到样本数据或更极端数据的概p率独立样本检验t独立样本两组数据来自不同的样本,样本之间相互独立方差齐性检验两组数据的方差是否相等,若方差相等,则使用等方差检验t显著性检验检验两组均值之间的差异是否具有统计学意义配对样本检验t配对样本差值分析显著性检验两组数据来自相同的样本,样本之间计算每个配对样本的差值,并对差值检验配对样本的差值是否具有统计学存在配对关系进行检验意义t检验的假设条件t数据服从正态分布两组数据的方差相等(独立样本检验)t样本之间相互独立(独立样本检验)样本数据是连续型数据t检验的实施步骤t提出假设1根据研究目的,设定原假设和备择假设选择检验方法2根据样本数据类型和研究设计选择合适的检验方法t计算统计量t3使用统计软件或公式计算统计量t确定值p4根据统计量和自由度,查阅分布表或使用统计软件计t t算值p做出判断5根据值的大小,判断原假设是否成立p检验结果解读t12值统计量p t值小于显著性水平,拒绝原假统计量越大,两组均值差异越大αp t设,认为两组均值存在显著差异3置信区间置信区间可以提供关于两组均值差异的范围估计检验的局限性t假设条件样本量检验对数据的假设条件比较检验对样本量有一定的要t t严格,如果假设条件不满足,求,样本量过小可能会导致检则检验结果可能不准确验结果不稳定异常值异常值可能会对检验的结果产生较大影响t非参数检验方法检验符号秩检验Mann-Whitney UWilcoxon比较两组数据的秩是否具有显著差比较两组数据的配对样本的秩是否异具有显著差异检验Mann-Whitney U将两组数据合并排序,并计算每个数据点的秩计算统计量,统计量越小,两组数据差异越大U U根据统计量和样本量,查阅检验表或使用统计软件计算U Up值符号秩检验Wilcoxon配对样本秩和比较显著性检验两组数据来自相同的样本,样本之间计算每个配对样本的差值,并对差值检验配对样本的差值的秩是否具有统存在配对关系的秩进行比较计学意义检验方法的选择数据类型数据分布1连续型数据可以使用检验或非参数如果数据服从正态分布,则可以使用t2检验参数检验样本量研究设计4样本量较大时,可以选择参数检验或3根据研究设计选择合适的检验方法非参数检验效应量分析效应量反映两组数据之间差异的实际大小Cohens d常用的效应量指标,表示两组均值之间的差异程度解释效应量可以帮助我们更直观地理解两组数据之间的差异计算Cohens d组均值110组均值212合并标准差2的计算公式为组均值组均值合并标准差Cohens dd=1-2/效应量的解释
0.
20.5小效应量中等效应量两组数据之间的差异较小两组数据之间的差异中等
0.8大效应量两组数据之间的差异较大方差分析基础方差分析1比较两组或多组均值是否具有显著差异检验F2检验组间方差和组内方差之比是否显著,判断组间均值是否存在差异多重比较3进一步比较组间均值的差异,确定哪些组之间存在显著差异单因素方差分析自变量因变量研究中操纵的变量,也称为因素研究中测量的变量,也称为结果变量方差齐性检验方差齐性检验结果解读Levenes检验不同组别的样本方差是否相等常用的方差齐性检验方法值小于显著性水平α,拒绝原假设,p认为组别间的方差不相等检验的应用F组间方差1不同组别均值之间的差异程度组内方差2同一组别内数据点之间的差异程度统计量F3组间方差与组内方差之比值p4值小于显著性水平,拒绝原假设,认为组间均值存在显著差αp异多重比较方法检验校正Tukeys HSDBonferroni适用于比较所有组别间的均值适用于控制多重比较的错误差异率检验Scheffe适用于比较所有可能的组间均值差异实例分析医学研究数据12研究目的数据收集比较两种治疗方法对患者血压的影收集两组患者的治疗前和治疗后的响血压数据3数据分析使用配对样本检验或符t Wilcoxon号秩检验分析两组数据的差异数据预处理步骤数据清洗处理缺失值、异常值和错误数据数据转换将数据转换为合适的格式,例如将分类变量转换为数值变量数据标准化将数据缩放到相同的范围,例如将数据标准化为均值为,标准差为01描述性统计分析均值标准差正态性检验使用检验或检验来检验数据的正态性Shapiro-Wilk Kolmogorov-Smirnov方差齐性检验检验结果解读Levenes值大于显著性水平,接受原假设,认为两组数据的方差相可以使用等方差检验分析两组数据的差异αp t等检验应用t统计量值t pt=
2.5p=
0.02置信区间95%CI:
2.5,
7.5结果可视化治疗方法治疗方法12结果解释123显著差异效应量结论值小于,拒绝原假设,认为两种,表明两种治疗方法的治疗方法比治疗方法更有效地降低了p
0.05Cohens d=
0.512治疗方法对患者血压的影响存在显著差效应量为中等患者的血压异实例分析市场调研数据比较两种广告策略对产品销量的影收集两种广告策略下产品的销量数使用独立样本检验或t Mann-Whitney响据检验分析两组数据的差异U数据收集方法问卷调查1通过问卷收集用户对产品或服务的意见和评价网络爬虫2使用网络爬虫工具从互联网上收集数据,例如产品评论或用户行为数据数据库查询3从公司内部数据库或公开数据库中查询数据数据清洗过程缺失值处理删除缺失值、填充缺失值或使用插值法进行处理异常值处理删除异常值、替换异常值或使用其他方法进行处理数据转换将数据转换为合适的格式,例如将字符串转换为数值分布比较流程描述性统计分析数据预处理1计算数据的均值、标准差、中位数等对数据进行清洗、转换和标准化2统计量效应量分析假设检验4计算效应量,反映两组数据之间差异选择合适的检验方法,检验两组数据3的实际大小之间是否存在显著差异非参数检验应用检验符号秩检验Mann-Whitney UWilcoxon值小于,拒绝原假设,认为两种广告策略的销量存值大于,接受原假设,认为两种广告策略的销量没p
0.05p
0.05在显著差异有显著差异结果展示技巧策略策略12实践注意事项选择合适的检验方法,并满足检验的假设条件合理处理异常值和缺失值,避免对分析结果产生误差注意样本量的影响,样本量过小可能会导致检验结果不稳定避免过度解读分析结果,需要结合实际情况进行判断常见错误与陷阱过度解读选择错误的检验方法忽略样本量的影响对分析结果进行过度解读,导致误选择与数据类型或研究设计不匹配的样本量过小可能会导致检验结果不准解检验方法,导致结果偏差确样本量的影响样本量过小1容易导致检验结果不稳定,降低检验的功效样本量过大2可能导致过度拟合,降低模型的泛化能力异常值处理删除异常值直接删除异常值,适用于异常值数量较少且对分析结果影响较小的情况替换异常值用其他值替换异常值,例如用均值或中位数替换异常值使用鲁棒方法使用对异常值不敏感的统计方法,例如使用中位数或秩和检验缺失值处理删除缺失值填充缺失值使用插值法直接删除包含缺失值的记录,适用使用其他值填充缺失值,例如使用使用插值法根据其他数据点估计缺于缺失值数量较少且对分析结果影均值、中位数或其他方法填充缺失失值,适用于缺失值数量较多且数响较小的情况值据具有规律性的情况结果报告规范明确研究目的和问题详细描述数据收集方法、数据清洗过程和分析方法展示数据分析结果,包括图表、统计量和值p解释分析结果,并给出结论讨论研究结果的局限性,并提出未来研究方向。
个人认证
优秀文档
获得点赞 0