还剩14页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
统计基础教学课件第一章统计学导论统计学的定义与作用统计学在各行业的应用实例统计学与数据科学的关系统计学是研究如何收集、分析、解释和呈现医疗健康临床试验设计与分析商业领域数据的科学,是定量分析决策的基础工具市场调研与消费者行为分析政府决策人口它帮助我们从杂乱无章的数据中提取有价值普查与经济数据分析科学研究实验数据的的信息,发现规律和趋势统计检验统计学的两大分支推断统计学基于样本数据推断总体特征,进行决策和预测•参数估计(点估计与区间估计)•假设检验(判断样本与总体的差异)•预测模型构建(回归分析)统计学发展简史17世纪1概率论基础建立,帕斯卡和费马解决赌博问题贝努利大数定律的提出奠定了统计学基础219世纪弗朗西斯·高尔顿开创了相关分析和回归分析,研究了人类特征的遗传规律卡尔·皮尔逊发展了相关系数和卡方检验方法20世纪初3罗纳德·费舍尔发展了实验设计方法和方差分析学生(戈塞特)发展了小样本理论和t检验4现代发展第二章数据的类型与收集定量数据与定性数据的区别数据收集方法定量数据可以测量的数值型数据,调查法问卷、访谈、电话调查如身高、体重、收入实验法控制变量进行对照实验定性数据描述性的类别数据,如性观察法直接记录现象和行为别、职业、满意度等级二手数据利用已有资料和数据库数据质量与偏差问题常见偏差抽样偏差、测量偏差、无应答偏差、幸存者偏差保证数据质量的措施科学抽样、标准化测量工具、数据清洗和验证数据的分类与编码名义变量顺序变量仅表示类别,没有顺序关系例如性别、婚姻状况、职业类别之间有顺序关系,但差距无法精确量化例如教育程度、满意度等级编码示例性别(男=1,女=2)编码示例满意度(非常不满意=1,不满意=2,一般=3,满意适用统计方法众数、频率、卡方检验=4,非常满意=5)适用统计方法中位数、四分位数、秩和检验间隔变量比例变量有相等间隔的数值变量,但没有绝对零点例如温度(摄氏有相等间隔且有绝对零点的数值变量例如身高、体重、收度)、日期入编码示例直接使用数值编码示例直接使用数值适用统计方法均值、标准差、相关分析适用统计方法所有参数统计方法第三章数据的描述与可视化频数分布表与相对频率图形可视化方法频数分布表是对数据进行分组并统计每组数据频数的表格,帮直方图助我们了解数据的集中分布情况用于连续数据,显示数据的分布形状和密度柱高表示频数或频率•频数每个组别中观测值的个数•相对频率频数除以总观测数•累计频数从第一组到当前组的频数总和条形图•累计相对频率累计频数与总频数之比用于分类数据,比较不同类别的频数或数值大小饼图展示各部分占整体的比例,适合表示构成或比例关系箱线图展示数据的中位数、四分位数和异常值,适合比较多组数据的分布特征直方图示例某城市每日出租车订单量分布数据描述直方图解读要点该直方图展示了某城市连续30天的日均出租车订单量分布情况横轴表•分布形状对称、偏左、偏右或多峰示订单量范围,纵轴表示天数(频数)•集中趋势数据集中在哪个区间可以观察到订单量大致呈正态分布,集中在7500-8500单之间•离散程度数据分布范围的宽窄•异常值是否有明显偏离主体的数据•组距选择影响直方图的细节呈现第四章概率基础概率的定义与性质概率是对随机事件发生可能性的度量,取值范围为[0,1]概率的定义方法概率的基本性质事件的运算古典概率等可能事件•非负性PA≥0•并集A∪B(A或B中,有利事件数与总事件发生)•规范性PΩ=1,数之比Ω为样本空间•交集A∩B(A和B同频率概率大量重复试验时发生)•可加性互不相容事中,事件发生的相对频率件的概率可相加•补集Aᶜ(A不发生)•互斥事件A∩B=∅主观概率基于个人判断的概率估计第五章抽样与抽样分布抽样方法简单随机抽样分层抽样系统抽样总体中每个单元被抽取的概率相等如通过随机数表将总体分为互不重叠的层,在各层内进行随机抽样从总体中以固定间隔选取样本如从顾客列表中每隔从学生名单中抽取如按年级分层抽取学生10人选一人优点实施简单,代表性好优点提高估计精度,保证各层代表性优点实施简便,样本分布均匀缺点可能无法保证对小群体的代表性缺点需要明确的分层变量缺点如总体存在周期性变化,可能产生偏差抽样误差与无偏估计抽样误差样本统计量与总体参数之间的差异,是由于随机抽样导致的不可避免的误差无偏估计如果统计量的期望值等于要估计的参数,则称该统计量是相应参数的无偏估计回归模型的假设与诊断12线性关系假设误差正态性假设自变量X与因变量Y之间存在线性关系随机误差项ε服从正态分布诊断方法散点图、残差图诊断方法残差正态概率图、直方图违反后果模型预测能力差,参数估计有偏违反后果参数检验和置信区间可能不准确解决方法数据变换(如取对数)、添加非线性项解决方法数据变换、增加样本量34同方差性假设误差独立性假设误差项的方差在不同X值下保持恒定不同观测的误差项相互独立诊断方法残差与预测值散点图诊断方法Durbin-Watson检验违反后果参数估计的标准误不准确违反后果标准误低估,置信区间过窄解决方法加权最小二乘法、数据变换解决方法时间序列模型、考虑空间相关性残差分析简介残差是实际观测值与模型预测值之间的差异ei=yi-ŷi残差分析是诊断回归模型是否适当的关键工具,可以检验各种假设是否成立,并发现离群点和高影响点第十章统计软件简介Excel SPSSR Python优势易于使用,广泛普及,适合优势直观的图形界面,无需编程优势开源免费,强大的统计分析优势通用编程语言,流行的数据基础统计分析技能和绘图能力,扩展包丰富科学生态系统(NumPy,Pandas,Matplotlib)功能描述统计、t检验、相关分功能高级统计分析、假设检验、功能全面的统计分析方法、复杂析、简单回归、数据透视表多变量分析、调查数据分析数据可视化、机器学习功能数据处理、统计分析、机器学习、深度学习适用场景初学者、小型数据集、适用场景社会科学研究、调查分适用场景学术研究、高级统计分商业分析析、教学环境析、数据科学项目适用场景大数据分析、人工智能应用、软件开发集成简单示例进行描述统计分析PythonPython代码示例分析结果解读以上代码展示了使用Python的pandas、matplotlibimport pandasas pdimportnumpy asnpimport matplotlib.pyplot as和seaborn库进行基本统计分析的过程pltimport seabornas sns#读取数据data=pd.read_csvsales_data.csv#基本描述统计summary=
1.导入必要的库和数据data.describeprintsummary#相关性分析correlation=
2.计算基本描述统计量(均值、标准差、最小值、data.corrprintcorrelation#数据可视化plt.figurefigsize=10,最大值等)6sns.histplotdata[sales],kde=Trueplt.title销售额分布
3.分析变量间的相关性plt.xlabel销售额plt.ylabel频数plt.show#箱线图比较
4.绘制销售额分布的直方图,了解其分布形态plt.figurefigsize=12,6sns.boxplotx=region,y=sales,data=dataplt.title不同区域销售额比较plt.show
5.使用箱线图比较不同区域的销售情况Python强大的数据分析生态系统使得统计分析可以高效且可重复地进行,同时生成专业的可视化结果统计学学习建议与资源推荐经典教材与在线课程实践项目与数据集推荐推荐教材入门实践项目•《统计学》,李金昌著,高等教育出版社•分析电商销售数据,探索季节性和产品关联•《商务与经济统计》,林建忠,徐国祥著,清华大学出版社•调查分析学生学习习惯与成绩关系•《概率论与数理统计》,盛骤,谢式千,潘承毅著,高等教育出版社•收集天气数据,建立温度与降水量的预测模型•《统计学从数据到结论》,吴喜之著,中国统计出版社•分析社交媒体用户行为数据优质在线课程推荐数据集资源•中国大学MOOC《统计学》•国家统计局公开数据•学堂在线《概率论与数理统计》•UCI机器学习数据集库•Coursera《统计学导论》北大•Kaggle竞赛平台数据集•网易公开课《可汗学院统计学》•世界银行开放数据•各省市政府开放数据平台统计学在现实中的案例分享电商用户行为分析医疗临床试验数据解读应用场景某电商平台使用聚类分析将应用场景某新药研发过程中,通过严用户分为高价值、潜力型和低活跃三格的随机对照试验评估药物疗效和安全类,针对不同类型用户实施差异化营销性,使用生存分析比较新药与标准治疗策略的效果差异统计方法K均值聚类、RFM模型分统计方法生存分析、Cox比例风险模析、关联规则挖掘型、Kaplan-Meier曲线实施效果促销活动转化率提高35%,实施效果证明新药能显著延长患者中用户留存率提升18%,精准营销降低获位生存期,并识别出最适合的患者群客成本40%体,为药物审批提供关键证据金融风险管理中的统计应用应用场景某银行构建信用评分模型,预测贷款申请人的违约风险,优化贷款审批流程统计方法逻辑回归、决策树、随机森林、ROC曲线评估实施效果贷款违约率降低25%,审批效率提高60%,精准定价提升利润率15%统计学的未来趋势自动化统计分析工具的发展大数据与统计学的融合•自动特征选择与模型构建工具•智能数据可视化与结果解读系统•传统统计方法面向海量数据的扩展与改进机器学习与统计推断的结合•统计分析的代码自动生成•分布式计算框架下的统计算法实现•面向非专业人士的统计决策支持系统•实时数据流的在线统计分析方法•可解释人工智能中的统计方法应用•非结构化数据的统计建模技术•因果推断与预测模型的结合•深度学习模型的统计性质研究•贝叶斯方法在复杂模型中的应用统计学正逐步从传统的数据分析方法发展为数据科学的核心基础,未来将更加注重与计算机科学、领域知识的融合,推动智能决策和科学发现。
个人认证
优秀文档
获得点赞 0