还剩25页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
计划统计培训课件目录统计学基础概念理解统计学定义、分支和关键术语数据收集与整理掌握数据收集方法、质量控制和整理技巧描述性统计分析学习集中趋势、离散程度和数据分布图表推断统计与假设检验了解抽样原理、假设检验和统计方法统计软件实操熟悉、和语言的基本操作Excel SPSSR案例分析与应用第一章统计学基础概念什么是统计学?统计学定义统计学是一门收集、整理、分析和解释数据的科学,通过数学方法从数据中提取有价值的信息它帮助我们在不确定性中做出更科学的判断统计学的作用帮助决策提供数据支持,减少决策风险•发现规律从看似杂乱的数据中发现潜在模式•预测趋势基于历史数据预测未来可能发展•验证假设通过数据证实或否定理论假设•统计学的两大分支描述统计推断统计描述统计关注如何总结和描述已有数据的特征,帮助我们理解数据的推断统计关注如何基于样本数据推断总体特征,处理不确定性和随机基本性质性集中趋势均值、中位数、众数参数估计点估计、区间估计••离散程度方差、标准差、极差假设检验显著性检验••数据分布频率分布、百分位数相关与回归分析••数据可视化各种统计图表方差分析••关注问题数据是什么样的?关注问题样本能告诉我们总体什么信息?统计学中的关键术语总体与样本参数与统计量变量类型总体研究兴趣的全部对象集合参数描述总体特征的数值定性变量描述性质或类别的变量Population Parameter样本从总体中抽取的部分对象统计量描述样本特征的数值名义变量性别、颜色Sample Statistic•序数变量等级、满意度抽样从总体中选取样本的过程例如总体均值与样本均值•Samplingμx̄定量变量可测量数值的变量离散变量计数值•数据分类示意图定性变量与定量变量的区别数据类型定性变量(分类变量)定量变量(数值变量)统计分析中的所有变量表示特征或类别,不能进行数学运算表示数量,可以进行数学运算第二章数据收集与整理数据收集方法调查问卷实验设计通过结构化问题收集信息的方法,可以是纸质或电子形式在控制条件下系统性操作变量并观察结果优点成本低,覆盖广优点可确定因果关系••缺点回收率可能低,质量依赖于问题设计缺点成本高,可能不自然••适用大规模人群态度和行为调研适用产品测试、医学研究••观察法二手数据利用直接观察并记录研究对象的行为或现象使用已有的、为其他目的收集的数据优点获取真实行为数据优点节省时间和成本••缺点耗时,可能有观察者偏差缺点可能不完全符合研究需求••适用行为研究、市场调查适用趋势分析、背景研究••数据质量控制数据有效性与可靠性异常值识别与处理有效性数据是否真实测量了异常值是显著偏离其他观测值的数据点Validity我们想要测量的内容识别方法箱线图、分数、法•Z IQR内容有效性测量工具是否覆盖了概则•念的全部重要方面处理策略验证、保留、移除或替换•构念有效性测量是否与理论预期一•缺失值处理方法致列表删除删除含缺失值的整行数据可靠性测量的一致性和稳•Reliability定性均值替换用变量均值替代缺失值•回归替换基于其他变量预测缺失值测试重测可靠性在不同时间重复••-测量的一致性内部一致性不同测量项目之间的一•致程度数据整理技巧数据清洗流程示例分类汇总与分组系统性地检查和修正数据问题数据编码与录入将数据按照特定标准进行分类和汇总检查数据完整性和一致性将收集的原始数据转换为适合分析的格式•确定分组变量和分组标准识别并处理异常值••为定性变量建立编码系统(如性别创建频率表和交叉表•1=处理缺失数据•男,女)•2=计算各组的描述统计量验证数据间的逻辑关系•建立数据字典,记录变量含义和编码方••生成分组比较图表标准化和规范化数值案••使用双重录入技术减少错误•设置数据验证规则(如年龄范围限制)•第三章描述性统计分析数据分布形态偏态与峰态正态分布简介偏态描述分布的对称性正态分布是统计学中最重要的概率分布之一,也称为高斯Skewness NormalDistribution分布正偏态右侧尾部较长,均值大于中位数•特征负偏态左侧尾部较长,均值小于中位数•对称分布偏态系数接近呈钟形曲线,完全对称•0•均值、中位数和众数相等峰态描述分布的尖峭程度•Kurtosis由均值和标准差完全确定尖峰分布中心值附近数据集中•μσ•约的数据在±范围内平峰分布数据分布较为均匀•68%μ1σ•约的数据在±范围内正态分布峰态系数为•95%μ2σ•3约的数据在±范围内•
99.7%μ3σ重要性许多自然和社会现象近似服从正态分布•是许多统计推断方法的理论基础•正态分布曲线示意图68%95%
99.7%在±范围内在±范围内在±范围内μ1σμ2σμ3σ接近的数据落在均值绝大多数数据()落几乎所有数据()落70%95%
99.7%一个标准差的范围内在均值两个标准差的范围在均值三个标准差的范围内内统计图表展示直方图条形图展示连续数据分布的图表展示分类数据频数的图表横轴数据区间横轴类别••纵轴频数或频率纵轴频数或频率••适用了解数据分布形态适用比较不同类别数量••注意分组区间的选择很重要变体水平条形图、分组条形图••饼图箱线图展示部分与整体关系的图表展示数据分布关键特征的图表扇形面积比例或百分比展示中位数、四分位数、极值••适用展示构成比例适用比较多组数据分布••注意类别不宜过多优势直观显示异常值••变体环形图、爆炸图注意需解释图中各元素含义••选择合适的图表类型根据变量类型选择定性变量用条形图、饼图;定量变量用直方图、箱线图•根据分析目的选择分布分析用直方图;比较分析用条形图、箱线图•图表设计原则简洁清晰,突出重点,避免视觉干扰•第四章推断统计与假设检验抽样原理与抽样误差抽样方法介绍大数定律与中心极限定理大数定律简单随机抽样随着样本量增加,样本均值将越来越接近总体均值每个总体单元被选中的概率相等优点无偏性,理论基础扎实缺点可能不包含重要的小子群体分层抽样将总体分为若干层,在各层内进行随机抽样优点确保各子群体代表性,提高精确度缺点需事先了解分层变量整群抽样将总体分为若干群组,随机选择整个群组优点便于实施,节省成本缺点精确度较低系统抽样从有序总体中按固定间隔选择样本优点简单易行,覆盖全面缺点可能受周期性变动影响中心极限定理无论总体分布如何,当样本量足够大时,样本均值的抽样分布近似服从正态分布假设检验基础零假设与备择假设第一类错误与第二类错误零假设₀默认的无效应假设,通常表述为无差异或无关系H备择假设₁与零假设相反的假设,通常是研究者希望证明的观点H例如₀新药与安慰剂效果无差异•H₁新药比安慰剂更有效•H显著性水平与值p显著性水平拒绝真实零假设的最大可接受概率,通常设为α
0.05值在零假设为真的条件下,观察到当前或更极端结果的概率p决策规则如果值,则拒绝₀•p≤αH如果值,则不拒绝₀•pαH第一类错误错误拒绝了实际为真的零假设α第二类错误错误未能拒绝实际为假的零假设β统计检验力,正确拒绝错误零假设的概率1-β假设检验步骤提出零假设和备择假设
1.选择适当的统计检验方法
2.确定显著性水平
3.α计算检验统计量和值
4.p常用统计检验方法检验方差分析t ANOVA单样本检验比较一个样本均值与已知总体均值比较多个()组的均值差异t≥3独立样本检验比较两个独立样本的均值单因素方差分析考察一个因素的影响t配对样本检验比较配对数据的均值差异双因素方差分析同时考察两个因素的影响及交互作用t应用条件应用条件数据近似正态分布各组内数据近似正态分布••用于小样本的均值比较各组方差相等(方差齐性)••变量为连续型观测值相互独立••卡方检验拟合优度检验检验观察频数与理论频数是否一致独立性检验检验两个分类变量是否独立齐性检验检验多个总体的分布是否相同应用条件适用于分类数据•每个单元格的期望频数应•≥5观测值相互独立•第五章统计软件实操中的统计功能Excel常用统计函数介绍数据透视表与图表制作数据透视表功能计算均值AVERAGE快速汇总大量数据•计算中位数MEDIAN灵活调整行列和筛选条件•计算众数自动计算统计量(和、计数、均值等)•MODE.SNGL创建分组和层次结构•计算样本标准差STDEV.S数据透视图功能计算样本方差VAR.S基于数据透视表创建动态图表•计算四分位数支持多种图表类型QUARTILE.INC•可添加切片器实现交互筛选计算频率分布•FREQUENCY计算相关系数CORREL执行检验T.TEST t计算百分位数PERCENTILE.INC基础操作SPSS假设检验实操演示描述统计与图表生成中常用假设检验数据导入与变量定义SPSS常用描述统计功能均值比较检验、方差分析数据导入方法•t频率分析频数表、百分比、累计百分比非参数检验检验、检•直接在数据视图中输入•Mann-Whitney UWilcoxon描述分析均值、中位数、标准差等验••从、文本文件等导入探索性分析箱线图、茎叶图等相关与回归相关、线性回归•Excel••Pearson从数据库导入•图表生成交叉表分析卡方检验•变量定义设置传统图表功能条形图、饼图、直方图等结果解读•变量名称与标签图表编辑器详细自定义图表外观输出查看器中的表格和图表•••数据类型(数值、字符、日期等)值判断与效应量解释••p测量尺度(名义、序数、尺度)•缺失值定义•变量值标签(为编码添加文字说明)•语言简介R语言环境搭建基本数据操作与绘图示例R语言特点数据操作基础R开源免费,跨平台支持•#读取数据data-read.csvdata.csv#数据查看headdatasummarydata#数据筛选filtered-data%%强大的统计分析功能•filterage30#数据分组汇总result-data%%group_bygroup%%summarize avg=丰富的扩展包生态系统meanvalue,sd=sdvalue•灵活的数据操作和可视化能力•支持高级统计建模和机器学习•环境搭建步骤从网站下载安装语言
1.CRAN R安装集成开发环境
2.RStudio安装常用包等
3.R tidyverse,ggplot2,dplyr,readxl#安装基础包install.packagestidyverseinstall.packagesggplot2install.packagesdplyr#加载包librarytidyverselibraryggplot2基础绘图第六章案例分析与应用质量管理中的统计过程控制()SPC概念与应用场景控制图示例解析SPC统计过程控制定义SPC一种使用统计方法监控和控制生产过程的质量管理方法,目的是确保过程稳定并减少变异的关键原则SPC预防胜于检测在问题发生前发现并解决•过程变异分为共同原因和特殊原因•基于数据的决策而非主观判断•持续改进过程能力•主要应用场景制造业生产线质量控制•服务业流程标准化管理•医疗卫生服务质量监控•呼叫中心绩效管理•常用控制图类型图监控均值和极差•X-R图监控均值和标准差•X-S图不合格品比例控制图•p图缺陷数控制图•c控制图解读要点控制限计算过程自然变异的界限•失控信号点超出控制限或非随机模式•趋势分析连续上升或下降的模式•市场调研数据分析案例12数据收集设计描述统计与可视化研究背景某电子产品公司需评估新产品市场接受度基础数据概况研究目标人口统计特征分析年龄、性别、收入分布•了解目标客户对产品特性的偏好购买行为分析购买频率、偏好渠道••评估价格敏感度产品偏好分析特性评分、价格接受度••确定最有效的营销渠道核心发现•数据收集方法岁人群对产品接受度最高(表示很可能购买)•18-3565%问卷设计结构化问卷,包含定性和定量问题电池续航和设计是最受重视的两个产品特性••抽样策略分层随机抽样,按年龄和收入分层价格敏感度曲线显示最佳定价区间为元••1200-1500样本量人,置信水平,误差±•40095%5%实施方式线上问卷焦点小组访谈•+3推断分析流程假设检验不同年龄组对产品接受度的差异(分析)•ANOVA价格敏感度与收入水平的关系(相关分析)•线上线下购买偏好与年龄的关联(卡方检验)•vs预测模型购买意向预测模型(逻辑回归)•模型验证与解释(曲线分析)•ROC战略建议针对岁人群的定向营销策略•18-35强调电池续航和设计特性的差异化定位•结语与学习建议统计学学习的持续性与实践性统计学不仅是一门学科,更是一种思维方式和实用工具在信息爆炸的时代,数据分析能力已成为各行各业的核心竞争力建立统计思维注重实践应用培养基于数据的决策习惯,理解随机性和将统计知识应用于实际工作问题,通过解不确定性,警惕常见的统计谬误决实际问题加深理解鼓励学员结合实际工作应用统计知识识别工作中可用统计方法解决的问题•持续学习更新从小问题开始,逐步应用复杂方法•与同事分享统计分析成果,推广数据驱动文化统计方法和工具在不断发展,保持学习新技术和方法的习惯•记录分析案例,建立个人知识库•推荐学习资源与进阶路径入门书籍《统计学从数据到结论》、《深入浅出统计学》在线课程中国大学、统计学系列课程MOOC Coursera进阶方向数据挖掘、机器学习、实验设计实践平台竞赛、开放数据集分析项目Kaggle。
个人认证
优秀文档
获得点赞 0