还剩41页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据分析基础工具与应用课数习数本程旨在帮助您掌握据分析的基本概念和方法,并学使用各种据分进应析工具行实际用课程大纲1数2数第一章据分析概述第二章据收集与清洗3数4关第三章据探索性分析第四章相性分析56归第五章聚类分析第六章回分析7时8数第七章间序列分析第八章文本据分析910战第九章推荐系统第十章案例分析与实第一章数据分析概述定义应用场景数对数进释过数应领场营销疗据分析是指据行收集、整理、分析和解的程,目的据分析广泛用于各个域,例如市、金融、医保健问题是从中提取有意义的信息,以支持决策或解决、教育和科学研究等数据分析的定义数对数进释过问题据分析是指据行收集、整理、分析和解的程,目的是从中提取有意义的信息,以支持决策或解决数据分析的重要性现提高决策效率发新的商业机会竞势优化业务流程提升争优数据分析的流程数据收集1来数数库调问从各种源收集据,例如网站、据、查卷和社交媒体等数据清洗2对数进转换数质据行清理和,以确保据量和一致性数据探索性分析3对数进数据行初步分析,以了解据的基本特征和模式数据建模4来释数关预测来趋势构建模型解据之间的系,并未结果解释5对结进释结论模型果行解,并得出有意义的第二章数据收集与清洗数据收集方法数据清洗技巧数数数库问调访谈数数数数据收集方法包括据抓取、据查询、卷查、、据清洗技巧包括据缺失值处理、据异常值处理、据格观验转换数标察和实等式和据准化等数据收集的方法数据抓取数数使用爬虫工具从网页或其他据源中抓取据数据库查询数库数关数库数库从据中提取据,例如系型据或NoSQL据问卷调查过问调馈通卷查收集用户或客户的意见和反访谈过访谈获专专专识观通取家或业人士的业知和点数据清洗的技巧数据缺失值处理1数数使用平均值、中位、众或其他方法填充缺失值数据异常值处理2识别使用Z-score或其他方法并处理异常值数据格式转换3将数转换为将转换为据统一的格式,例如日期格式统一的日期格式数据标准化4将数进标将数缩据行准化处理,例如据放到0到1之间数据质量控制数据准确性数据完整性数据一致性数据时效性数应尽错数应数应数应时数据可能准确,避免据完整,避免缺失值据一致,避免冲突和矛据及更新,保持据误和偏差盾的最新性第三章数据探索性分析描述性统计分析可视化分析对数进计标图图来数图图线图饼据的基本特征行统分析,例如平均值、准差、方差和使用表和形展示据,例如直方、散点、折和频图率分布等等描述性统计分析集中趋势离散程度数数数数标数描述据集中位置的度量,例如平均值、中位和众描述据分散程度的度量,例如准差、方差和四分位间距可视化分析图图线图饼图直方散点折异常值检测法箱线图法1Z-score2来识别线图来识别使用Z-score异常值使用箱异常值聚类分析法3来识别使用聚类分析异常值第四章相关性分析皮尔逊相关系数斯皮尔曼相关系数测线关测单调关量两个变量之间的性相程度量两个变量之间的相程度皮尔逊相关系数逊关数围为关负皮尔相系的取值范-1到1,其中1表示完全正相,-1表示完全关关相,0表示不相斯皮尔曼相关系数关数线关围为斯皮尔曼相系适用于非性系的变量,其取值范也-1到1多重共线性诊断方差膨胀因子()1VIF线VIF用于衡量自变量之间的多重共性程度条件数2数阵线条件用于衡量矩的奇异性,可反映多重共性程度第五章聚类分析聚类算法层次聚类算法K-Means将数数数进层树状结据划分到K个簇中,使得每个据点与其所属簇的中心距离根据据之间的距离行次化聚类,形成构最小聚类算法K-Means初始化K个随机中心点将数每个据点分配到与其最近中心点所在的簇计重新算每个簇的中心点骤重复步2和3,直到中心点不再改变层次聚类算法自下而上自上而下数为单独开数为开远从每个据点作的簇始,逐步合并距离最近的簇,直到从所有据点作一个簇始,逐步拆分距离最的簇,直到每数为单独只剩下一个簇个据点作的簇聚类算法性能比较对选择K-Means算法效率高,但初始中心点的敏感层数计较次聚类算法不需要事先确定簇的个,但算量大第六章回归分析线性回归逻辑回归预测连续预测购买产用于型变量,例如房价、股票价格等用于离散型变量,例如是否品、是否患病等线性回归线归标线该线性回的目是找到一条最佳拟合直,使得直能够最准确地描述自关变量与因变量之间的系逻辑回归逻辑归数将线转换为预测标回使用Sigmoid函性模型概率,并根据概率目变别量的类回归诊断与模型评估残差分析1残检满分析模型的差,以查模型的假设是否足拟合优度检验2标评使用R平方值或其他指估模型的拟合优度第七章时间序列分析自相关分析平稳性检验时数时关检验时数稳时数计质分析间序列据在不同间点上的相性间序列据是否平,即间序列据的统性是否随时间推移保持不变自相关分析关过关数关数来进自相分析可以通自相函(ACF)和偏自相函(PACF)行平稳性检验单位根检验差分法12检验检验来检验时数单对时数进趋势节使用ADF或PP间序列据是否具有位间序列据行差分,以消除和季性因素,使稳根其变得平预测模型建立模型模型模型AR MAARMA归时数时数归结自回模型,使用间序列据本身的移动平均模型,使用间序列据的随自回移动平均模型,合了AR模型和历进预测误项进预测史值行机差行MA模型的特点第八章文本数据分析文本预处理情感分析对数进转换数倾负文本据行清洗和,以提高分析效率分析文本据的情感向,例如正面、面或中性文本预处理分词去停用词12将数单词语语数词语文本据分割成个或短去除文本据中的无意义,例如“的”、“是”、“在”等词干提取词性标注34将词语还词识别数词语词原到其基本形文本据中每个的性情感分析基于词汇的情感分析基于机器学习的情感分析预词来断数倾习来训练数使用先定义的情感典判文本据的情感向使用机器学模型情感分类器,根据文本据的情感特征进预测行主题模型题现数隐题主模型旨在发文本据中藏的主,例如LDA模型和NMF模型第九章推荐系统基于内容的推荐基于协同过滤的推荐历为内评为内根据用户的史行或偏好推荐类似的容根据其他用户的分或行推荐容基于内容的推荐欢例如,如果用户喜看科幻电影,系统会推荐其他科幻电影基于协同过滤的推荐欢欢例如,如果用户A和用户B都喜电影X,而用户A也喜电影Y,系统会推荐给电影Y用户B混合推荐算法结内协过滤混合推荐算法合了基于容的推荐和基于同的推荐,以提高推荐效果第十章案例分析与实战1应2应零售行业用金融行业用3应社交媒体用零售行业应用数为预测库据分析可以帮助零售企业分析客户行、商品需求、优化存管理和营销制定精准的策略金融行业应用数识别评资进评据分析可以帮助金融机构风险、估投机会、行信用分和反欺诈分析社交媒体应用数监舆进据分析可以帮助企业了解用户喜好、控情、行品牌推广和优化用户验体总结与展望数为现来数将继续据分析已经成代社会不可或缺的一部分,未据分析发展,应领为带来并用于更多域,人类社会更大的价值。
个人认证
优秀文档
获得点赞 0