还剩39页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据分析基础算法本课程旨在为学生提供数据分析基础知识和常用算法的讲解,帮助学生掌握数据分析的流程和方法,并能够运用相关算法解决实际问题课程介绍课程目标课程内容了解数据分析的概念和流程,掌握常用数据分析算法,能够运用算法数据收集与预处理•解决实际问题描述性统计分析•概率论基础•假设检验•回归分析•聚类分析•决策树算法•朴素贝叶斯算法•均值算法•K-线性回归算法•时间序列分析•异常值检测•文本数据分析•数据分析的概念和流程数据分析定义数据分析是指利用科学方法,对收集来的数据进行分析和解释,以发现数据中隐藏的规律和趋势,从而为决策提供参考数据分析流程数据收集•数据预处理•数据探索性分析•数据建模•结果解释•数据收集与预处理数据收集数据清洗数据转换数据收集是指从各种数据清洗是指对数据数据转换是指将数据来源获取数据,包括进行处理,以消除错转换为适合分析的格数据库、文件、网站误、缺失、重复、异式,例如将文本数据、传感器等常等问题转换为数值数据数据可视化基础直方图散点图12显示数据的分布情况显示两个变量之间的关系饼图折线图43显示数据的比例关系显示数据随时间的变化趋势描述性统计分析集中趋势度量1描述数据中心位置离散趋势度量2描述数据分散程度相关性分析3描述两个变量之间的关系集中趋势度量平均数中位数众数反映数据的平均水平反映数据的中间位置反映数据中最频繁出现的数值离散趋势度量1方差:数据与平均数的平方2标准差:方差的平方根,反差的平均值映数据与平均数的平均偏差3极差:数据的最大值和最小值之差,反映数据分布的范围相关性分析相关系数散点图反映两个变量之间的线性关系强度直观显示两个变量之间的关系概率论基础随机事件在随机现象中可能发生的各种结果概率随机事件发生的可能性大小概率分布描述随机变量取值的概率规律随机变量与概率分布离散型随机变量连续型随机变量取值有限或可数取值可以在一个区间内连续变化概率分布类型伯努利分布•二项分布•泊松分布•正态分布•正态分布对称性1分布曲线关于平均数对称钟形2曲线呈钟形,两端逐渐下降集中趋势3数据集中在平均数附近抽样分布与估计抽样分布1样本统计量的概率分布参数估计2根据样本数据估计总体参数置信区间3估计总体参数的范围假设检验提出假设选择检验统计量确定拒绝域计算检验统计量得出结论方差分析2组间差异比较不同组的均值差异1组内差异分析同一组内数据的差异回归分析线性回归逻辑回归建立自变量和因变量之间的线性关系预测二元分类变量聚类分析均值算法K-1将数据划分成个簇,每个数据点属于最近的簇K层次聚类2将数据按照相似性进行层次化分组决策树算法节点分裂2根据特征值将数据分成子节点特征选择1选择最佳特征进行划分停止条件达到预设条件或无法再划分3朴素贝叶斯算法贝叶斯定理朴素假设基于先验概率和条件概率计算后验概率特征之间相互独立均值算法K-初始化簇中心随机选择K个数据点作为簇中心分配数据点将每个数据点分配到距离其最近的簇中心更新簇中心重新计算每个簇的中心点迭代重复分配数据点和更新簇中心,直到收敛线性回归算法模型假设自变量和因变量之间存在线性关系参数估计使用最小二乘法估计回归系数模型评估评估模型的拟合程度和预测能力分类算法评估准确率正确预测的样本数占总样本数的比例精确率预测为正样本中实际为正样本的比例召回率实际为正样本中预测为正样本的比例分数F1精确率和召回率的调和平均数混淆矩阵正样本真阳性假阴性负样本假阳性真阴性曲线ROC定义用途曲线是根据不同阈值下真阳性率和假阳性率绘制的曲线评估分类模型的性能,选择最佳阈值ROC交叉验证数据划分模型训练1将数据分成训练集和测试集使用训练集训练模型2重复模型评估4重复上述步骤,直到所有数据都被用3使用测试集评估模型性能作测试集时间序列分析趋势分析1分析数据随时间变化的长期趋势季节性分析2分析数据随季节变化的周期性规律随机波动分析3分析数据中随机波动的影响平稳性检验1ADF检验:检测时间序列是否存在单位根2KPSS检验:检测时间序列是否平稳自相关分析自相关函数偏自相关函数反映时间序列中不同时间点数据的相关性反映时间序列中剔除中间时间点数据影响后的相关性移动平均模型模型原理用过去一段时间数据的平均值来预测未来数据模型参数移动平均的窗口大小异常值检测定义方法与其他数据点明显不同的数据点局部异常因子•隔离森林•均值偏移检测•局部异常因子原理用途计算数据点与其周围邻居的密度差异检测局部异常点,适用于密度不均匀的数据集隔离森林随机划分数据使用随机超平面将数据空间划分成多个子空间数据隔离异常点更容易被隔离,需要更少的划分次数异常得分计算每个数据点被隔离的路径长度,作为异常得分均值偏移检测原理计算数据点到其最近簇中心的距离用途适用于检测高维数据中的异常点文本数据分析分词与词频统计1将文本分解成词语,统计词语出现的频率情感分析2分析文本的情感倾向,例如正面、负面、中性主题模型3发现文本中的潜在主题分词与词频统计1分词将文本分解成词语2词频统计统计每个词语出现的次数情感分析方法应用词典法舆情监控••机器学习产品评价分析••深度学习客户服务••主题模型模型LDA将文档分解成主题,每个主题由词语组成主题发现发现文本中隐藏的主题,并为每个主题分配关键词数据挖掘项目实战项目定义明确项目目标和问题数据收集与准备收集数据、清洗数据、准备数据数据分析与建模分析数据、选择算法、建立模型结果评估与部署评估模型性能、部署模型、监控模型案例分享客户画像分析预测销量分析分析客户的特征和行为,为营销策略提供参考预测产品的销量,帮助企业制定生产计划团队讨论问题探讨1针对课程内容进行深入探讨案例分享2分享实际应用数据分析的案例经验总结3总结学习经验,分享学习心得总结与展望课程总结未来展望本课程讲解了数据分析的基础算法和应用场景,帮助学生掌随着数据技术的不断发展,数据分析将越来越重要,希望同握数据分析的流程和方法学们能继续学习和探索数据分析领域。
个人认证
优秀文档
获得点赞 0