还剩28页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
统计基础知识教学课件第一章统计学是什么?统计学定义应用领域统计学是从数据中提取有用信息的科统计学广泛应用于经济、管理、金融、学,通过收集、整理、分析和解释数工程、医疗、社会科学等众多领域,据来获取有价值的见解,为决策提供是各行业数据分析的基础工具支持与数据科学的关系统计学的重要性数据驱动决策的基础解决现实问题的工具在信息爆炸的时代,统计学提供了统计学提供了一套强大的工具,可科学分析数据并做出合理决策的方以用来解释现象、预测趋势、评估法论,使组织能够基于证据而非直风险,帮助解决现实世界中的复杂觉做出决策问题统计学的历史与发展统计学的两大分支描述统计学关注数据的整理与总结,通过图表和数值概括展示数据特征1计算集中趋势和离散程度的统计量•绘制图表展示数据分布和结构•不进行推断,仅描述已有数据•推断统计学基于样本数据推断总体特征,进行估计和假设检验2应用概率论原理进行统计推断•计算估计值的置信区间•检验关于总体参数的假设•第二章数据的类型与测量尺度定性数据名义尺度定性数据顺序尺度仅用于分类,无顺序关系有顺序关系,但差距无意义例性别(男女)、血型()例教育等级(小学中学大学)/A/B/AB/O//定量数据连续型定量数据离散型可取任意数值取值为有限或可数无限例身高、体重、收入例家庭人数、子女数量数据的收集与整理数据来源数据质量与预处理调查法通过问卷、访谈等方式收集数据,适用于收集意见、态度等主观信息实验法在控制条件下进行实验并记录结果,适用于因果关系研究观测法直接观察现象并记录数据,不干预研究对象的自然状态第三章数据的描述与可视化数据可视化是理解数据分布和特征的重要工具,不同类型的图表适用于展示不同类型的数据关系频数分布表直方图折线图将数据分组并计算每组的频数频率,适用于大展示连续数据的分布形态,每个柱子代表一个区/量数据的初步整理和分析间内的频数或频率直方图示例公共自行车租借次数分布直方图的构成要素数据分布形态分析横轴数据的区间(如租借次数范围)偏态分布的不对称性(右偏左偏)••/峰态分布的尖锐程度(尖峰平峰)•/纵轴频数或频率(每个区间内的观•多峰数据可能来自多个不同总体•测数量)柱高反映该区间内数据出现的频繁•程度圆饼图与相对频率圆饼图的适用场景展示部分与整体的关系•类别数量较少(通常不超过个)•7主要关注比例而非精确数值•常见误用警示类别过多导致难以区分•效果可能导致视觉偏差•3D圆饼图中,每个扇形的面积与其所代表的类别在总体中的比例成正比,整个圆代表或总体100%统计量的概念̄X MdMo R样本均值中位数众数极差所有观测值的算术平均,反映数据将数据排序后的中间位置值,不受出现频率最高的值,可能有多个或最大值与最小值之差,粗略反映数的集中趋势极端值影响不存在据的离散程度σ²σ方差标准差各观测值与均值离差平方的平均,方差的平方根,与原数据单位相同,精确衡量离散程度便于解释第四章概率基础概率的定义与性质事件与样本空间概率是对随机事件发生可能性的度量,取值范围为到01基本性质非负性任何事件的概率都不小于•0规范性必然事件的概率为•1样本空间()所有可能结果的集合Ω可加性互斥事件的概率可相加•事件样本空间的子集,我们关心的结果组合概率的类型古典概率基于等可能性假设•频率概率基于大量重复试验的相对频率•条件概率与独立性条件概率公式事件独立的判断经济学中的独立性案例事件在事件已发生条件下的概率两事件独立的充要条件在经济分析中,判断变量之间是否独立对建A B立正确的模型至关重要例如消费者偏好与收入水平是否独立•或等价地不同行业的股票回报是否相互独立•条件概率反映了事件之间的关联性,是贝叶斯定理和许多统计推断的基础随机变量及其分布离散随机变量连续随机变量取值为有限个或可数无限个的随机变量取值为连续区间的随机变量概率密度函数性质PDF概率质量函数定义PMF例掷骰子的点数、家庭的子女数区间概率正态分布曲线示意图钟形曲线特征对称性以均值为中心左右对称•单峰性只有一个最高点,位于均值处•渐近性曲线永远不会触及轴•x总面积为代表总概率•1均值与标准差的意义均值决定曲线中心位置•μ标准差控制曲线的宽窄•σ经验法则约的数据在±范围内•68%μσ约的数据在±范围内•95%μ2σ约的数据在±范围内•
99.7%μ3σ第五章抽样与抽样分布总体与样本总体研究对象的全体样本从总体中抽取的部分个体目标通过样本推断总体特征抽样方法简单随机抽样每个个体被选取的概率相等分层抽样将总体分层后在各层内随机抽取系统抽样按固定间隔选取样本中心极限定理当样本量足够大时,样本均值的分布近似服从正态分布这一定理是统计推断的理论基础抽样分布是样本统计量的概率分布,反映了统计量的变异性,是构建置信区间和假设检验的基础对于样本均值,其抽样分布的标准差称为标准误,计算公式为充分统计量与统计量的性质统计量定义充分统计量统计量是样本的函数,不依赖于任何未知参数常见的统计量包括样本均值•$\bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$样本方差•$S^2=\frac{1}{n-1}\sum_{i=1}^{n}X_i-\bar{X}^2$样本极值最大值和最小值•$X_{n}$$X_{1}$统计量的性质无偏性统计量的期望等于所估计的参数•一致性样本量增大时,统计量收敛于真实参数•有效性方差最小的无偏估计量•第六章参数估计点估计用样本统计量的单一数值估计总体参数1矩估计法使用样本矩对应总体矩•极大似然估计法寻找使观测数据概率最大的参数值•最小二乘法最小化残差平方和•区间估计构建一个包含真实参数的区间,并给出置信水平2常用置信水平,,•90%95%99%一般形式点估计值±临界值×标准误•区间宽度与置信水平、样本量相关•估计量的优良性评价估计量质量的标准无偏性期望值等于被估参数•有效性在无偏估计中方差最小•一致性样本量增大时收敛于真值•假设检验基础假设检验的基本概念错误类型与值p零假设₀H默认或保守的假设,通常表述为无差异或无效应备择假设₁H与零假设相反的陈述,通常是研究者希望证明的观点检验统计量用于决定是否拒绝零假设的函数,如统计量、统计量等t Z第一类错误错误拒绝真的零假设•α第二类错误错误接受假的零假设•β显著性水平第一类错误的最大容许概率,通常取或•
0.
050.01值在零假设为真的条件下,观测到当前或更极端结果的概率•p决策规则值时拒绝零假设•pα常用假设检验方法010203单样本检验双样本检验卡方检验t t检验一个样本均值是否等于某个特定值比较两个独立样本的均值是否有显著差异用于分析分类数据,检验观测频数与期望频数的差异适用场景样本来自正态分布或样本量较大,总适用场景比较两种处理方法、两个群体之间的体标准差未知适用场景适合性检验、独立性检验、同质性检差异验例测试某班级平均成绩是否达到预期目标分80例比较两种教学方法下学生的平均成绩差异例检验消费者偏好与年龄是否相互独立选择合适的检验方法需要考虑数据类型、分布假设、样本规模等因素对于非参数数据或不满足正态性假设的情况,可以使用非参数检验方法如检验、检验等Wilcoxon Mann-Whitney U第七章回归分析基础简单线性回归模型研究一个自变量与一个因变量之间线性关系的统计方法X Y其中₀截距,时的预测值•βX=0Y₁斜率,每变化一个单位引起的平均变化量•βX Y随机误差项,假设服从正态分布•ε相关系数与决定系数相关系数衡量线性相关强度,范围•r[-1,1]决定系数模型解释的变异比例,范围•R²[0,1]越接近,表明模型拟合效果越好•R²1在经济学中,回归分析被广泛应用于需求分析、生产函数估计、消费函数研究等领域,帮助研究者理解变量间的定量关系并进行预测多元回归简介多元回归模型多重共线性问题模型诊断与改进研究多个自变量与一个因变量之间关系的统自变量之间存在高度相关性,导致残差分析检查正态性、同方差性•计方法影响点分析识别异常值和高杠杆点系数估计不稳定,标准误增大••模型选择逐步回归、岭回归、系数符号可能与理论预期相反••等LASSO难以区分各自变量的独立贡献•模型评价调整、、准则•R²AIC BIC检测方法方差膨胀因子、相关系数VIF多元回归能同时考虑多个因素的影响,更接矩阵近现实世界的复杂关系统计软件与工具介绍语言Excel RPython SPSS/Stata优点普及率高,易学易用优点开源免费,统计分析专长优点通用编程能力强,学习资源优点界面友好,专业统计功能丰富功能基础统计分析,数据透视表,功能高级统计分析,精美可视化,功能综合统计分析,特别擅长社图表制作扩展包丰富功能数据分析库会科学研究Pandas,,机器学习NumPy适合简单数据处理和基础统计分适合专业统计分析和学术研究适合需要全面统计功能的专业用析适合数据科学和机器学习应用户中的统计函数示例Excel分析工具包Excel提供了更高级的统计功能,包括Excel描述统计生成完整的描述性统计报告•直方图创建频率分布和直方图•回归分析进行简单和多元线性回归•检验执行配对和独立样本检验•t t进行单因素和双因素方差分析•ANOVA数据透视表是中最强大的数据分析工具之一,可以快速汇总和分析大量数据,创建交叉表和动态报Excel告常用统计函数函数名功能语法示例统计思维与随机思想统计思维的本质理解不确定性统计思维不仅仅是掌握公式和计算方法,在现实世界中,很少有事情是确定的,更是一种处理不确定性和变异性的思维大多数情况下我们需要在不确定性中做方式它强调决策从数据中提取有价值信息样本结果的随机波动••理解变异的普遍存在测量误差的存在••认识到推断的不确定性模型的简化与近似••避免因果关系的误判预测的不精确性••经济金融案例在经济金融领域,统计思维帮助我们评估投资风险与回报•理解市场波动的随机性•识别经济指标的趋势与周期•制定基于证据的政策决策•统计学学习资源推荐教材与课件在线学习资源中国大学高级统计学课程•MOOC站统计学教学视频搜索统计学基础•B可汗学院统计学课程(中文字幕)•统计之都网站https://cosx.org/统计软件学习数据分析视频教程•Excel语言入门北大语言教程R R数据分析《利用进行数据分析》中文笔记Python Python洪永淼《概率论与统计学(第二版)》•课件与视频下载https://probability.xmu.edu.cn/《计量经济学》(中文版)•Bruce Hansen贾俊平《统计学》(第版)•8谢邦昌《统计方法与数据分析》•课堂练习与案例分析123公共自行车租借数据分析简单回归模型实操假设检验案例讨论使用真实共享单车数据集进行实践使用或其他统计软件实际经济问题的统计检验Excel绘制不同时段租车频率的直方图分析房价与面积的关系不同地区消费水平差异分析•••分析工作日与周末租车模式差异解释回归系数的经济含义新产品上市前后销售额变化检验•••计算平均骑行时间和标准差评估模型拟合优度广告投入与销售额关系检验•••预测天气对骑行量的影响使用模型进行预测结果解读与决策建议•••通过这些实际案例的分析和讨论,学生可以将统计理论知识应用到实际问题中,培养数据分析能力和统计思维课后可以组织小组讨论,让学生分享各自的分析结果和见解统计学常见误区误用平均数忽略分布形态过度依赖值p问题仅关注平均值而忽略数据分布的问题成为机械判断的标准,p
0.05形态和离散程度忽视实际意义示例收入分布通常呈右偏态,平均收示例大样本下微小无实际意义的差异入往往高于大多数人的实际收入,中位也可能显著,而重要的效应在小样本下数更能反映典型水平可能不显著建议结合多种统计量和图形展示全面建议关注效应大小、置信区间,结合理解数据背景知识综合判断忽视数据质量与采样偏差问题专注于复杂分析而忽视数据本身的质量问题示例网络调查可能只反映网络用户的观点,无法代表整体人口建议重视数据收集过程,评估可能的偏差,谨慎解释结果认识和避免这些常见误区是培养正确统计思维的重要部分统计方法是工具,其价值取决于使用者的判断力和对背景知识的理解统计学的未来趋势大数据与统计学融合数据规模的爆炸性增长改变了传统统计范式新挑战高维数据分析、计算效率、数据质量管理新方法分布式计算、降维技术、在线学习算法机器学习与统计推断结合统计学为机器学习提供理论基础和推断框架机器学习为统计分析提供新工具和算法交叉领域统计学习理论、贝叶斯深度学习统计学在人工智能中的角色为系统提供不确定性量化和推理框架AI发展可解释的模型和因果推断方法AI统计伦理数据隐私、公平性、算法偏见管理统计学正在经历变革,与计算机科学、数据科学的界限日益模糊未来的统计学家需要掌握传统统计理论、计算技能和领域知识的结合,以应对更复杂的数据分析挑战课程总结统计学基础1我们学习了统计学的基本概念、数据类型、描述统计方法以及基本的数据可视化技术2概率与抽样掌握了概率基础知识、随机变量分布以及抽样分布理论,这是统计推断的基础统计推断3学习了参数估计、假设检验的方法论和实际应用,能够从样本推断总体特征4回归分析了解了简单和多元回归分析的基本原理和应用场景,能够分析变量间的关系统计思维5培养了统计思维方式,能够理解数据背后的不确定性,避免常见的统计误区统计学是一门既有深厚理论基础又高度实用的学科掌握统计思维和方法不仅有助于学术研究,也能在职业发展中提供重要竞争力鼓励大家在实际问题中应用所学知识,不断提升数据分析能力谢谢聆听欢迎提问与交流联系方式与后续支持如果您有任何问题或需要进一步讨论,教师邮箱•欢迎随时提出统计学是一门实践性很statistics@example.edu.cn强的学科,只有在不断应用和讨论中才办公时间周
二、周四•14:00-16:00能真正掌握学习讨论群扫描右侧二维码加入•本次课程的补充材料和数据集将通过学在线辅导每周三晚•19:00-21:00习平台分享,供大家课后练习使用期待在统计学的学习旅程中与大家一起成长!。
个人认证
优秀文档
获得点赞 0