还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
统计数理与数据分析探索数据世界的奥秘,掌握统计分析利器通过系统学习,提高数据分析能力,培养统计思维统计础数理基统计义务学定核心任数据收集、整理、分析、解释的科从样本推断总体,揭示数据规律学关与数据分析系统计学是数据分析的理论基础统计类数据型与收集类定数据定序数据12分类变量,如性别、颜色有序分类,如教育程度定比数据定距数据有绝对零点,如身高、重量有单位间距,如温度43统计描述性方法趋势离集中散程度均值平均水平方差离均差平方和均值中位数中间位置标准差方差平方根众数出现最多的值极差最大值减最小值论础识概率基知试验随机可重复、结果不确定样间本空所有可能结果集合事件样本空间的子集古典与几何概率古典概率几何概率有限样本空间,等可能事件基于度量空间中的集合关系应用案例投针问题、随机投点条件概率与独立性义别条件概率公式独立性定独立性判PA|B=PA∩B/PB PA∩B=PAPB事件发生互不影响贝全概率公式与叶斯公式全概率公式1分割样本空间后加权求和贝叶斯公式2逆向推理,由结果求原因实际应用3医学诊断、垃圾邮件过滤变随机量与分布函数变随机量分布函数样本空间到实数集的映射Fx=PX≤x离散型有限或可数取值单调不减连续型取值为区间右连续极限性质见离常散型分布项二分布泊松分布几何分布n次独立试验,成功次数单位时间内随机事件发首次成功所需试验次数生次数见连续常型分布态均匀分布正分布指数分布区间内等可能,如随机数生成钟形曲线,自然现象常见无记忆性,表示等待时间维变多随机量及其分布联合分布1多个随机变量的整体分布边缘分布2单个随机变量的分布条件分布3其他变量已知下的分布协关方差与相系数4度量变量间线性关系数学期望与方差协数学期望方差方差随机变量的平均值随机变量的离散程度衡量两变量的线性关系EX=∑x·PX=x VarX=E[X-EX²]CovX,Y=E[X-EXY-EY]阶高矩与矩母函数协阵中心矩方差矩E[X-EXᵏ],描述分布形态多随机变量间的协方差集合矩母函数M_Xt=Ee^tX,确定分布的工具大数定律与中心极限定理切比雪夫大数定律中心极限定理样本均值收敛于总体均值样本均值近似服从正态分布成立条件有限方差样本量足够大独立同分布样抽分布概述样随机抽从总体中随机抽取样本样值本均分布服从正态分布,均值μ,方差σ²/n样本方差分布与卡方分布相关样三大重要抽分布卡方分布t分布F分布自由度为参数总体方差未知时使用两方差比的分布方差分析中使用样本量增大接近正态方差齐性检验计参数估概述计点估用单一值估计未知参数间计区估给出参数所在的区间范围计质估量性无偏性、一致性、有效性计最常用点估方法贝计叶斯估计极大似然估法引入先验分布计矩估法最大化样本出现概率计算后验分布期望样本矩等于总体矩渐近有效,广泛应用计算简便,但效率不高间计区估方法态总值间计正体均区估已知方差Z分布未知方差t分布置信水平通常95%间间宽比例参数置信区区度基于正态近似置信度越高,区间越宽适用于大样本样本量越大,区间越窄间计方差与方差比的区估单总1体方差基于卡方分布两总2体方差比基于F分布应场3用景质量控制、精度比较设检验假基本思想做出决策拒绝或不拒绝原假设计检验统计算量根据样本数据计算设设立假原假设H₀与备择假设H₁第一类错误错误拒绝原假设,概率为α第二类错误错误接受原假设,概率为β单总检验体参数态总值检验检验检验骤正体均方差步已知方差Z检验基于卡方分布设立假设→选择检验方法→计算统计量→做出结论未知方差t检验服从χ²分布两总检验体参数1两均值的t检验2配对t检验3两样本方差检验独立样本,比较两总体均值成对数据,比较处理前后差异F检验,比较两总体方差检验属性参数单检验两检验比例比例检验一个总体比例比较两总体比例Z统计量=p̂-p₀/√[p₀1-p₀/n]Z统计量=p̂₁-p̂₂/√[p̂1-p̂1/n₁+1/n₂]检验非参数方法检验检验适场秩和符号用景Wilcoxon检验,基于数只考虑正负号,忽略大分布未知,样本量小,据排序小序数数据方差分析(ANOVA)多因素方差分析研究多个因素交互作用单因素方差分析比较多个总体均值是否相等基本原理比较组间方差与组内方差拟优检验卡方合度计统计结收集数据算量判断果观察频数与理论频数χ²=ΣO-E²/E与临界值比较适用场景检验数据是否符合特定分布应用案例检验骰子是否均匀,遗传学研究关相分析概述尔逊关尔关皮相系数斯皮曼相系数r=Σ[x-x̄y-ȳ]/√[Σx-x̄²Σy-ȳ²]基于秩的相关系数度量线性相关程度适用于非线性单调关系取值范围[-1,1]不受异常值影响小简单线归性回分析归归最小二乘法回系数回方程使残差平方和最小b₁斜率,自变量对因变量的影响程度ŷ=b₀+b₁xb₀截距,自变量为0时因变量的值用于预测和解释归设诊回模型假与断态正性同方差性残差服从正态分布残差方差保持不变线性性独立性变量关系为线性残差间相互独立线归多元性回变线多个自量多重共性ŷ=b₀+b₁x₁+b₂x₂+...+b x自变量间高度相关,影响估计ₚₚ精度归逐步回筛选最佳变量组合归变筛选优回量与模型化前向选择从零开始逐个添加变量后向剔除从全模型逐个删除变量逐步法3结合前向与后向方法筛选准则AIC/BIC准则,越小越好义线础广性模型基逻辑归归回泊松回二分类因变量计数型因变量logitp=logp/1-p logμ=XβS形曲线,预测概率稀有事件、时间序列分析时间础序列分析基关自相函数测量时间序列与自身滞后值的相关性关偏自相函数去除中间滞后项影响后的相关稳检验平性单位根检验,ADF检验类聚分析初步值层类评标K均法次聚估指基于均值划分构建聚类树状图轮廓系数需预先确定K值自底向上或自顶向下簇内及簇间距离维主成分分析与降1数据标准化2计算协方差矩阵使变量统一量纲衡量变量间关系3计算特征值与特征向量4降维与数据投影确定主成分方向减少数据复杂度,保留主要信息别础判分析基线别别性判分析判函数1寻找最佳投影方向最大化组间方差与组内方差比2应场类则用景4分准3模式识别、图像分类最小化错分率贝统计叶斯基本概念频贝率学派叶斯学派参数为固定值参数为随机变量利用样本信息先验+数据→后验大样本渐近性质引入主观信息贝叶斯公式Pθ|X∝PX|θPθ贝统计应实叶斯用例计贝络类参数估叶斯网分模型后验分布计算,可信区间描述变量间因果关系朴素贝叶斯,文本分类预处术数据理与清洗技值处缺失理删除、填充、模型预测值处异常理检测、删除或变换标数据准化Z-score,Min-Max方法视数据可化方法图图图热图条形/柱状散点力分类数据比较二维关系展示多维数据模式常用工具Matplotlib,ggplot2,Tableau,Power BI经关典案例分析身高体重系经类问题典案例分析二元分85%
0.92线积模型准确率ROC曲下面正确分类的比例区分正负类能力78%敏感性正类正确识别率逻辑回归建模logitp=-
3.2+
0.04×变量1+
1.5×变量2实际经济案例数据分析实际实验案例医学数据隐数据分析中的道德与私隐护数据安全私保加密存储匿名化处理访问控制知情同意数据脱敏数据使用边界伦则理准公平性透明度可解释性统计软绍分析件介PythonNumPy,Pandas,Scikit-learn语R言专业统计分析,丰富可视化SPSS友好界面,适合初学者课复习程答疑与要点难见问题重点点常•假设检验原理•参数估计方法选择•回归分析假设•模型适用条件判断•多元统计方法应用•统计结果实际解释课总结程与展望趋势未来大数据,机器学习融合能力提升理论结合实践,多做案例础夯实基理解核心概念,掌握基本方法。
个人认证
优秀文档
获得点赞 0