还剩40页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
随机事件与数据分析基础课件欢迎来到随机事件与数据分析基础课件本课程旨在为学员构建扎实的数据分析理论基础,并掌握实际应用技能通过系统学习概率论、统计推断、回归分析、时间序列分析以及常用数据挖掘算法,学员将能够运用数据分析方法解决实际问题,为未来的学习和工作打下坚实的基础课程目标掌握概率论与数理统计的基本概念1理解随机事件、概率、随机变量、概率分布等基本概念,为数据分析提供理论基础熟练运用统计推断方法2掌握点估计、区间估计、假设检验等统计推断方法,能够对数据进行有效推断和决策掌握回归分析与时间序列分析3掌握线性回归、多元回归、时间序列分析等方法,能够建立预测模型并进行分析熟悉常用数据挖掘算法4了解聚类、决策树等数据挖掘算法,能够对数据进行有效分类和预测概率论基础回顾随机事件概率的定义概率的性质随机事件是指在随机试验中可能发生也概率是衡量随机事件发生的可能性大小概率具有非负性、规范性和可加性非可能不发生的事件例如,抛掷一枚硬的数值经典定义是指在所有可能结果负性指事件发生的概率大于等于0;规范币,正面朝上就是一个随机事件随机都等可能的情况下,事件发生的概率等性指必然事件的概率为1;可加性指互斥事件可以用集合来表示,其概率是衡量于事件包含的结果数与所有可能结果数事件的概率之和等于这些事件各自概率事件发生的可能性大小的指标的比值概率的取值范围在0到1之间的和随机变量及分布随机变量概率分布随机变量是指取值具有随机性的概率分布是描述随机变量取值的变量随机变量可以是离散的,概率规律的函数对于离散随机也可以是连续的例如,抛掷一变量,概率分布可以用概率质量枚硬币,正面朝上的次数就是一函数(PMF)来表示;对于连续个随机变量随机变量,概率分布可以用概率密度函数(PDF)来表示分布函数分布函数是描述随机变量小于等于某个值的概率的函数分布函数对于任何随机变量都存在,并且是单调不减的离散随机变量及概率分布伯努利分布二项分布泊松分布描述单次试验的结果,只有成功和失败描述n次独立重复伯努利试验中成功的描述单位时间内随机事件发生的次数,两种可能,例如硬币的正反面次数,例如n次抛硬币正面朝上的次例如一小时内到达银行柜台的顾客人数数连续随机变量及概率密度函数概率密度函数概率计算PDF性质概率密度函数(PDF)连续随机变量在某个区PDF必须非负,并且在是描述连续随机变量取间内取值的概率等于整个取值范围内的积分值概率的函数PDF的PDF在该区间上的积必须等于1PDF反映积分表示随机变量在某分因此,PDF的面积了随机变量在不同取值个区间内取值的概率表示概率点附近的概率密度常见连续概率分布正态分布均匀分布指数分布正态分布是最常见的连续概率分布,其均匀分布是指随机变量在某个区间内取指数分布常用于描述独立事件发生的时概率密度函数呈钟形曲线许多自然现任何值的概率都相同的分布均匀分布间间隔例如,电子元件的寿命、排队象和社会现象都近似服从正态分布正的概率密度函数在区间内为常数,区间等待的时间等指数分布由一个参数决态分布由均值和方差两个参数决定外为0均匀分布由区间的上下限两个参定,该参数表示事件发生的平均速率数决定多元随机变量及联合分布边缘分布边缘分布是指单个随机变量的概率分联合概率分布2布,可以通过对联合分布进行积分或求和得到边缘分布反映了单个变量的概描述多个随机变量同时取值的概率分率规律,忽略了其他变量的影响布对于离散随机变量,联合概率质量1函数(PMF)表示变量同时取特定值条件分布的概率对于连续随机变量,联合概率密度函数(PDF)描述变量在某点附近条件分布是指在给定某些随机变量的取的概率密度值条件下,其他随机变量的概率分布3条件分布反映了变量之间的依赖关系,是贝叶斯公式的基础条件概率与条件期望条件概率1条件概率是指在已知某个事件发生的条件下,另一个事件发生的概率条件概率反映了事件之间的依赖关系,可以用贝叶斯公式条件期望进行计算2条件期望是指在已知某个随机变量的取值条件下,另一个随机变量的期望值条件期望反映了变量之间的依赖关系,可以用于预贝叶斯公式3测和决策贝叶斯公式是计算条件概率的重要工具,可以将先验概率转化为后验概率贝叶斯公式在机器学习、模式识别等领域有广泛应用大数定律与中心极限定理大数定律中心极限定理当试验次数足够多时,样本均值会趋近于总体均值说明了频率大量独立随机变量的和的分布趋近于正态分布保证了即使总体的稳定性,是统计推断的基础分布未知,也能用正态分布近似计算样本均值的概率抽样分布抽样分布的概念常见抽样分布抽样分布是由样本统计量构成的常见的抽样分布包括正态分布、概率分布,例如样本均值的分t分布、卡方分布和F分布不同布、样本方差的分布等抽样分的抽样分布适用于不同的统计量布是统计推断的基础,可以用于和不同的总体分布估计总体参数和进行假设检验抽样分布的应用抽样分布可以用于估计总体参数的置信区间,也可以用于进行假设检验例如,可以用样本均值的抽样分布来估计总体均值的置信区间,可以用样本方差的抽样分布来进行方差分析点估计方法最大似然估计法2选择使样本出现的概率最大的参数值作为估计值估计量性质通常较好,但计矩估计法算可能复杂1用样本矩估计总体矩,从而得到参数的估计值方法简单,但估计量性质可能不好最小二乘法选择使残差平方和最小的参数值作为估3计值常用于回归分析,计算简单区间估计置信区间的概念置信水平区间估计的方法置信区间是指在一定置信水平下,总体置信水平是指置信区间包含总体参数的区间估计的方法根据不同的统计量和不参数可能落入的区间范围置信区间的概率常用的置信水平包括90%、95%同的总体分布而有所不同常用的区间宽度反映了估计的精度,宽度越窄,估和99%置信水平越高,置信区间的宽估计方法包括正态分布法、t分布法、卡计的精度越高度越宽方分布法和F分布法假设检验提出假设明确原假设和备择假设,例如,原假设为总体均值等于某个值,备择假设为总体均值不等于该值选择检验统计量选择合适的检验统计量,例如t统计量、Z统计量、F统计量等选择的检验统计量应能反映原假设是否成立计算值P根据样本数据计算P值,P值是指在原假设成立的条件下,观察到当前样本或更极端样本的概率P值越小,拒绝原假设的证据越强做出决策根据P值和显著性水平(例如
0.05)做出决策如果P值小于显著性水平,则拒绝原假设;否则,接受原假设直方图与频率分布直方图频率分布数据洞察直方图是一种用于可视频率分布是指数据在不通过观察直方图和频率化数据分布的工具它同取值区间内的频率分布,我们可以了解数将数据分成若干个区频率分布可以用表格或据的分布特征,例如是间,并显示每个区间内图形来表示频率分布否服从正态分布、是否数据的频率直方图可可以帮助我们了解数据存在异常值等这些信以帮助我们了解数据的的分布规律,为后续的息可以帮助我们选择合分布形状、中心位置和数据分析提供基础适的数据分析方法离散程度描述性统计指标集中趋势1均值、中位数、众数等,描述数据的中心位置离散程度2方差、标准差、极差等,描述数据的分散程度分布形状3偏度、峰度等,描述数据分布的对称性和尖峭程度原假设与备择假设原假设(H0)备择假设(H1)假设检验的目的研究者试图推翻的假设,通常表示没有与原假设对立的假设,表示存在效应、通过样本数据提供的证据,判断是否应效应、没有差异或没有关系例如,原存在差异或存在关系例如,备择假设该拒绝原假设如果证据足够强,则拒假设为总体均值等于某个值为总体均值不等于某个值绝原假设,接受备择假设;否则,接受原假设检验统计量与值P检验统计量P值用于衡量样本数据与原假设之间在原假设成立的条件下,观察到差异大小的统计量检验统计量当前样本或更极端样本的概率的值越大,拒绝原假设的证据越P值越小,拒绝原假设的证据越强强显著性水平预先设定的拒绝原假设的概率阈值通常取
0.05或
0.01如果P值小于显著性水平,则拒绝原假设单样本均值检验检验统计量2t统计量或Z统计量当总体方差已知时,使用Z统计量;当总体方差未知适用场景时,使用t统计量1检验单个样本的均值是否等于某个已知值例如,检验一批产品的平均重量是否符合标准假设假设总体服从正态分布,或样本量足够3大(中心极限定理)双样本均值检验独立样本配对样本检验统计量检验两个独立样本的均值是否存在显著检验两个配对样本的均值是否存在显著t统计量根据样本是否独立、方差是否差异例如,检验两种不同疗法的效果差异例如,检验同一个人在接受治疗相等,选择不同的t统计量计算公式是否存在差异前后的指标是否存在差异方差分析原理适用场景将总变异分解为组间变异和组内变异,通过比较组间变异与组内检验三个或三个以上样本的均值是否存在显著差异例如,检验变异的大小,判断各组均值是否存在显著差异三种不同肥料对作物产量的影响是否存在差异简单线性回归模型模型公式最小二乘法模型评估Y=β0+β1X+ε,其中Y是因变量,X是通过最小化残差平方和,估计回归系数R平方、调整R平方等指标,用于评估模自变量,β0是截距,β1是斜率,ε是误差β0和β1残差是指实际值与预测值之间型的拟合程度R平方越大,模型拟合程项的差异度越高回归系数的检验检验检验值t FP检验回归系数是否显著不等于0如果检验整个回归模型是否显著有效如根据t检验或F检验的统计量计算P值回归系数显著不等于0,则说明自变量果F检验显著,则说明模型整体上有解如果P值小于显著性水平,则拒绝原假对因变量有显著影响释能力设残差分析残差正态性检验检验残差是否服从正态分布如果残差不服从正态分布,则可能需要对模型进行修正残差独立性检验检验残差之间是否独立如果残差之间不独立,则可能存在自相关问题残差方差齐性检验检验残差的方差是否相等如果残差的方差不相等,则可能存在异方差问题多元线性回归模型公式变量选择Y=β0+β1X1+β2X2+...+βnXn+ε,其中Y是因变量,X1,选择对因变量有显著影响的自变量常用的变量选择方法包括逐X2,...,Xn是自变量,β0,β1,β2,...,βn是回归系数,ε是误差项步回归、向前选择和向后剔除回归诊断多重共线性异常值离群点自变量之间存在高度相关关系,导致回远离大部分数据的观测值,可能对回归残差较大的观测值,可能不符合模型假归系数估计不稳定可以通过计算方差模型产生较大影响可以通过计算Cook设可以通过观察残差图来检测离群膨胀因子(VIF)来检测多重共线性距离或杠杆值来检测异常值点时间序列分析时间序列时间序列分析应用领域按时间顺序排列的一系列数据点例利用时间序列数据,建立模型,分析金融、经济、气象、交通等领域如,股票价格、气温、销售额等趋势、周期性、季节性等规律,并进行预测平稳序列与差分非平稳序列2均值或方差随时间变化的序列需要进行平稳化处理才能进行分析和预测平稳序列1均值和方差不随时间变化的序列平稳序列更容易进行分析和预测差分通过计算相邻数据点之间的差异,消除序列的趋势和季节性是平稳化序列的3常用方法自相关与偏自相关自相关偏自相关模型识别衡量时间序列中相邻数衡量时间序列中排除中通过观察ACF和PACF据点之间的相关程度间变量影响后,两个数的图形,可以初步判断自相关函数(ACF)用据点之间的相关程度时间序列模型的类型于描述自相关系数随滞偏自相关函数例如,AR模型、MA模后阶数的变化(PACF)用于描述偏型或ARMA模型自相关系数随滞后阶数的变化模型ARIMAAR模型1自回归模型,用过去的观测值预测未来的观测值MA模型2移动平均模型,用过去的误差项预测未来的观测值ARMA模型3自回归移动平均模型,结合AR模型和MA模型的特点ARIMA模型4差分整合移动平均自回归模型,用于处理非平稳时间序列模型识别与参数估计模型识别参数估计通过观察ACF和PACF的图形,确定ARIMA模型的阶数(p,d,使用最大似然估计法或矩估计法,估计ARIMA模型的参数参数q)p是自回归阶数,d是差分阶数,q是移动平均阶数估计的精度会影响模型的预测效果模型诊断与预测残差检验模型预测模型评估检验模型残差是否为白噪声如果残差使用已建立的ARIMA模型,对未来时间使用均方误差(MSE)、平均绝对误差不是白噪声,则说明模型未充分提取时点的值进行预测预测结果的精度取决(MAE)等指标,评估模型的预测精间序列的信息于模型的拟合程度和数据的稳定性度选择预测精度最高的模型数据预处理数据清洗数据转换处理缺失值、异常值和重复值,将数据转换为适合分析的形式,保证数据的质量例如标准化、归一化、离散化等数据集成将来自不同来源的数据整合在一起,形成完整的数据集异常值检测统计方法基于统计分布,识别偏离大部分数据的观测值例如,Z-score方法、箱线图方法距离方法基于数据点之间的距离,识别与其他数据点距离较远的观测值例如,K近邻方法、局部离群因子方法聚类方法将数据点聚成若干类,识别不属于任何类的观测值缺失值填补删除法填补法直接删除包含缺失值的观测值或变量适用于缺失值比例较小的使用统计量或模型预测缺失值常用的填补方法包括均值/中位数情况填补、K近邻填补、回归填补等特征工程特征选择特征提取特征构建选择对模型预测有重要意义的特征常将原始特征转换为新的特征,以提高模根据业务知识和数据特点,构建新的特用的特征选择方法包括过滤法、包装法型的预测能力常用的特征提取方法包征例如,将时间戳转换为年、月、日和嵌入法括主成分分析、线性判别分析等等特征主成分分析降维去除相关性信息保留将高维数据转换为低维数据,减少数将原始变量转换为互不相关的主成尽量保留原始数据的信息,主成分的据的复杂度,提高模型的运行效率分,消除变量之间的多重共线性总方差应尽可能接近原始数据的总方差聚类分析无监督学习相似性度量应用领域在没有标签的情况下,将数据点聚成若干根据数据点之间的相似性,将相似的数据市场细分、用户画像、异常检测等领域类聚类分析是一种无监督学习方法点聚在一起常用的相似性度量包括欧氏距离、曼哈顿距离、余弦相似度等算法K-Means算法步骤K值选择随机选择K个中心点,将每个数据点分配到距离其最近的中心点使用肘部法或轮廓系数法,选择合适的K值K值过小或过大都会所在的类,重新计算每个类的中心点,重复以上步骤,直到类的影响聚类效果中心点不再变化或达到最大迭代次数层次聚类凝聚式聚类分裂式聚类距离度量从每个数据点作为一个类开始,逐步将从所有数据点作为一个类开始,逐步将根据类与类之间的距离,选择合适的合距离最近的类合并,直到所有数据点都类分裂成更小的类,直到每个数据点都并或分裂方式常用的距离度量包括单属于同一个类属于一个类联动、全联动、平均联动等决策树算法分类回归将数据点分配到不同的类别决预测连续变量的值决策树也可策树是一种常用的分类算法以用于回归分析算法步骤选择最佳分割特征,根据分割特征将数据点划分到不同的子节点,递归地重复以上步骤,直到满足停止条件案例实践与总结案例实践总结展望123选择实际案例,运用所学的数据分回顾本课程的重点内容,总结数据鼓励学员继续学习和探索数据分析析方法,解决实际问题例如,用分析的基本流程和常用方法强调的更多知识和技术,为未来的学习户行为分析、销售预测、风险评估数据分析在实际应用中的重要性和工作打下坚实的基础等。
个人认证
优秀文档
获得点赞 0