还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
探索性数据分析欢迎来到《探索性数据分析》课程在这个数据驱动的时代,探索性数据分析()已成为每位数据科学家不可或缺的技能通过本课程,您将学习如EDA何深入挖掘数据的内在特征和模式,从而做出更明智的决策无论您是数据科学的新手还是有经验的从业者,本课程都将为您提供系统化的方法和技巧,帮助您更好地理解和分析数据让我们一起踏上这段探索数据奥秘的旅程!课程目标和大纲掌握核心概念EDA理解探索性数据分析的基本原理和方法论,建立数据分析思维熟练数据可视化技术学习各种数据可视化方法,能够选择恰当的图表展示数据特征应用统计分析方法掌握描述性统计、相关性分析等统计方法,从数据中提取有价值信息实践各种工具EDA熟悉和语言中的工具包,能够独立完成数据分析流程Python REDA什么是探索性数据分析()?EDA探索性数据分析(,简称)是一Exploratory DataAnalysis EDA种分析和总结数据集主要特征的方法论它通过视觉和统计技术来探索数据,帮助分析师了解数据的结构、识别异常值、发现模式和关系、检验假设,并在建模前获取对数据的深入理解是由统计学家在世纪年代提出的,强调数据EDA JohnTukey2070分析应该是一个探索过程,而非仅仅验证预设假设这种方法鼓励分析师以开放的态度探索数据,让数据说话,从而获得对数据更深入的理解在过程中,分析师不断提出问题,通过数据可视化和统计分EDA析寻找答案,并根据发现继续提出新问题这是一个迭代的、交互式的过程,旨在揭示数据中隐藏的信息和洞察的重要性EDA发现新洞察揭示数据中隐藏的模式和关系提高数据质量识别并处理缺失值和异常值指导建模方向为后续分析提供基础和方向验证假设测试关于数据的先验假设探索性数据分析是数据科学工作流程中不可或缺的环节通过,我们能够在建模前深入了解数据,避免垃圾输入,垃圾输出的问题,从而EDA提高后续分析和建模的质量与可靠性在数据科学流程中的位置EDA数据收集获取和整合多源数据数据清洗处理缺失值和异常探索性数据分析理解数据特征和关系特征工程创建和选择特征建模与评估开发和验证模型探索性数据分析在数据科学流程中扮演着承上启下的关键角色它不仅帮助我们检验数据清洗的效果,还为后续的特征工程和模型构建提供了重要指导通过,我们能EDA够更好地理解数据的分布、关系和特征,从而做出更明智的建模决策的基本步骤EDA数据理解与准备了解数据的来源、结构和含义,进行必要的预处理和清洗描述性统计分析计算统计量,了解数据的集中趋势、离散程度和分布特征可视化分析通过各种图表直观展示数据特征和关系,发现潜在模式关系分析探索变量之间的相关性和因果关系,为建模提供依据假设验证针对数据特征提出假设并进行验证,调整分析方向探索性数据分析是一个迭代的过程,这些步骤并非严格的线性顺序,而是相互交织、不断循环的在实际分析中,我们常常需要根据每一步的发现来调整后续的分析策略,甚至可能回到前面的步骤重新开始数据收集与准备数据来源数据导入与存储初步检查公共数据集(如、)、文件读取数据结构和形状•Kaggle UCI•CSV Excel•企业内部数据库数据库连接(查询)变量类型识别••SQL•网络爬虫收集的数据数据获取缺失值和重复值检测••API•调查问卷和实验数据数据格式转换异常值初步筛查•••传感器和物联网设备数据存储优化数据一致性验证•••数据收集与准备是的第一步,也是确保后续分析质量的关键环节高质量的数据输入对于得到可靠的分析结果至关重要在这个EDA阶段,数据科学家需要了解数据的来源和背景,确保数据的完整性和准确性,并将数据转换为适合分析的格式数据质量检查完整性检查准确性检查•缺失值比例统计•数值范围验证•缺失模式分析•类别值检查•必要字段验证•异常值识别一致性检查时效性检查•重复记录检测•数据更新时间•逻辑关系验证•历史数据完整性•数据关联一致性•时间序列连续性数据质量检查是确保分析可靠性的基础工作低质量的数据会导致垃圾进,垃圾出的结果,无论使用多么先进的算法和模型在EDA过程中,我们需要系统地评估数据的各个质量维度,并记录发现的问题,为后续的数据清洗和预处理提供依据处理缺失值删除法统计插补模型预测当缺失比例低且随机使用均值、中位数、基于其他特征建立预分布时,可以直接删众数等统计量填充缺测模型来估计缺失除含缺失值的记录或失值,简单易行但可值,如回归、KNN特征,但需谨慎评估能降低数据变异性等,精度高但计算复对样本代表性的影杂响高级方法多重插补、最大期望算法等处理复杂缺失机制,能保持数据的统计特性但实现难度大缺失值处理策略的选择应基于缺失机制、、、缺失比例和数据分析目标没MCAR MARMNAR有一种万能的方法适用于所有情况,通常需要尝试多种方法并比较结果处理缺失值前,了解缺失的原因和模式至关重要,这往往能提供业务洞察并指导最佳处理方案处理异常值识别异常值使用箱线图、分数、方法、等技术识别数据中的离群点Z IQRDBSCAN分析异常原因确定异常是测量错误、数据处理问题还是真实的极端情况选择处理策略根据异常性质决定是删除、修正、变换还是保留异常值评估处理效果比较处理前后的数据分布和统计特性,确保处理合理性异常值不一定是坏数据,有时它们包含重要信息例如,在欺诈检测中,异常交易往往是分析目标因此,在处理异常值前,必须仔细评估其业务意义对异常值的处理也会显著影响统计分析结果,尤其是均值和方差等对极端值敏感的统计量,需要谨慎决策数据类型转换数值型转换类别型转换时间型转换文本型转换整数与浮点数转换标签编码(序数特征)日期格式标准化文本清洗和标准化••••数值精度和范围调整独热编码(名义特征)时间戳分解(年、月、分词和词袋模型••••日)数值型特征二值化类别合并与重映射转换•••TF-IDF时间特征工程(周末、节数值分箱(连续离散)频率编码和目标编码•文本嵌入向量化•→••假日)时间间隔计算•数据类型转换是数据预处理的重要环节,对后续分析和建模有着直接影响正确的类型转换不仅能提高计算效率,还能增加特征的表达能力,改善模型性能在转换过程中,需要考虑数据的内在性质和业务含义,避免因不恰当的转换导致信息丢失或失真描述性统计分析统计类别应用场景常用统计量集中趋势了解数据的典型值均值、中位数、众数离散程度测量数据的变异性方差、标准差、范围、IQR分布形状分析数据的分布特征偏度、峰度、分位数位置测度确定数据在分布中的位百分位数、分数Z置关联强度研究变量间的关系相关系数、协方差描述性统计是的核心工具,它通过数字摘要揭示数据的基本特征在进行可视EDA化和建模之前,描述性统计能帮助我们快速了解数据的整体情况,识别可能的问题和感兴趣的模式不同的统计量适用于不同类型的数据和分析目的,结合使用能提供更全面的数据理解集中趋势度量均值、中位数、众数均值中位数众数Mean MedianMode所有数值的算术平均,计算简单但对极端值排序后位于中间位置的值,将数据分为相等出现频率最高的值,可用于任何数据类型,敏感适用于正态分布数据,常用于回归分的两部分对极端值不敏感,适合偏态分布包括类别型数据分布可能有多个众数(多析当分布有偏态或存在异常值时,均值可或存在异常值的情况在收入、房价等常见峰分布),或没有明确众数(均匀分布)能无法反映数据的真实中心偏态分布数据分析中广泛使用在分析消费者偏好等类别数据时特别有用在实际分析中,应根据数据特征选择合适的集中趋势度量比较均值和中位数的差异可以了解分布的偏态程度如果均值大于中位数,通常表示分布右偏;如果均值小于中位数,通常表示分布左偏;两者接近则表示分布近似对称离散趋势度量方差、标准差、四分位数方差Variance衡量数据点与均值的平均平方偏差,反映数据的离散程度方差越大,数据点越分散单位是原始数据的平方,不直观计算公式σ²=Σxᵢ-μ²/n标准差Standard Deviation方差的平方根,与原始数据单位相同,更易解释在正态分布中,约的数据落在均值68%个标准差的范围内,落在个标准差内,落在个标准差内±195%±
299.7%±3四分位数Quartiles将数据等分为四部分的三个值、,即中位数、四分位距Q125%Q250%Q375%IQR,是衡量数据分散程度的稳健统计量,不受极端值影响=Q3-Q1变异系数CV标准差与均值的比值,无量纲,可用于比较不同单位或量级的数据分散程度越σ/μCV小表示数据相对集中,常用于金融风险评估和制造质量控制分布形状偏度和峰度偏度峰度Skewness Kurtosis衡量分布的不对称程度,反映数据的尾衡量分布的尖峰和厚尾程度,反映极部延伸方向和长度端值出现的概率正偏度(右偏)右侧尾部较长,均高峰度(尖峰)中心峰值高,尾部••值中位数厚重负偏度(左偏)左侧尾部较长,均低峰度(平顶)中心峰值低,尾部••偏度和峰度在金融风险管理、质量控制值中位数轻薄和科学研究中广泛应用高偏度或峰度零偏度完全对称,如正态分布正态分布峰度值为••3的数据可能需要特殊处理,如数据转换或使用非参数方法检验数据是否符合财务和经济数据常呈现正偏,如收入分金融市场回报率通常呈现高峰度,表示正态分布假设时,偏度和峰度是重要指布和资产回报率极端事件发生概率高于正态分布预期标相关性分析目的量化变量之间的关系强度和方向,为特征选择和模型构建提供依据方法相关系数计算(、、等)和相关性矩阵分析Pearson SpearmanKendall可视化散点图、热力图、相关性矩阵图直观展示变量间关系注意事项相关不等于因果;非线性关系可能被低估;多重比较问题相关性分析是中探索变量关系的基础工具在大型数据集中,它帮助我们快速识别重EDA要关联,指导后续深入分析然而,相关性只反映统计关联,不能确定因果关系;高相关变量间可能存在共线性问题,需在建模时注意不同相关系数适用于不同数据类型和关系形式,应根据具体情况选择相关系数Pearson正相关负相关无相关当一个变量增加时,另一个变量也倾向于当一个变量增加时,另一个变量倾向于减两个变量之间没有线性关系例如随机增加例如身高与体重、学习时间与考少例如商品价格与销售量、室外温度数之间、真正独立的变量之间Pearson试成绩系数为正值,最大为与暖气使用量系数为负值,最系数接近,表示没有线性相关性,但可Pearson rPearson rr0,表示完美正相关小为,表示完美负相关能存在非线性关系1-1相关系数计算公式它衡量线性关系的强度和方向,范围在到之间系数Pearson r=Σ[Xᵢ-X̄Yᵢ-Ȳ]/[√ΣXᵢ-X̄²√ΣYᵢ-Ȳ²]-11Pearson对离群值敏感,假设变量服从正态分布,且关系为线性在遇到非线性关系或序数数据时,应考虑使用其他相关系数相关系数Spearman基于排序的相关系数计算数据排序后的相关,反映单调关系而非仅线性关系Pearson稳健性优势对离群值不敏感,适用于非正态分布数据广泛应用场景有序分类变量、非线性但单调关系的连续变量相关系数()通过比较变量的排序顺序而非实际值来计算相关性,公式为,其中是配对数据的等Spearmanρρ=1-6Σd²/nn²-1d级差,是样本大小当数据存在异常值或分布偏斜时,系数比系数更可靠在金融分析、医学研究和社会科学n SpearmanPearson中,相关被广泛应用于分析非参数数据Spearman数据可视化技术数据可视化是中最强大的工具之一,它将抽象的数字转化为直观的图形,帮助我们发现数据模式、趋势和异常不同的可视化技术适用于不同类型的数据和分析EDA任务直方图和密度图展示单变量分布;散点图和热力图揭示变量关系;箱线图比较组间差异;时间序列图显示时间趋势;地理图展示空间模式有效的数据可视化需要理解数据特征、选择合适的图表类型,并注意图表设计原则在过程中,可视化与统计分析相辅相成,共同指导数据探索的方向和深度EDA单变量分析直方图直方图基本特征直方图将连续数据分成若干区间(称为箱),并计算每个区间内的数据点数量,用矩形高度表示频率或密度通过直方图,我们可以直观地观察数据的分布形状、中心位置、分散程度和异常值•正态分布钟形曲线,对称分布•偏态分布右偏(正偏)或左偏(负偏)•双峰分布有两个明显的峰值•均匀分布各区间频率接近单变量分析箱线图四分位数结构离群值检测箱线图显示五个关键统计量最小值、1超出范围的点被标记为潜在异常
1.5×IQRQ
1、中位数、Q
3、最大值2值组间比较分布形状识别4并排放置多个箱线图便于比较不同组的通过箱的大小和位置判断偏态、对称性3分布特征和离散程度箱线图()也称为盒须图,是展示数据分布特征的强大工具箱体代表中间的数据(从到),水平线表示中位数,Box Plot50%Q1Q3延伸的胡须表示非异常值的范围箱线图特别适合检测异常值和比较多个数据集的分布在临床研究、质量控制和金融分析中,箱线图被广泛用于快速评估数据特征和组间差异单变量分析小提琴图结构组成优势特点应用场景密度估计两侧对称的核密度曲线完整展示分布形状和密度复杂分布形状的可视化•••中心统计量通常包含中位数和四分位直观显示多峰分布和数据集中区域多组数据分布的并行比较•••数结合了箱线图和密度图的优点识别细微的分布差异和特征••宽度变化反映不同值域的数据密度•小提琴图是箱线图的增强版,通过在两侧添加密度分布曲线,提供了更丰富的分布信息它特别适合展示多模态分布、偏态分布或其他复杂形状的分布在比较不同处理组、时间点或类别的数据分布时,小提琴图能提供直观且信息丰富的视觉表现现代数据分析工具如、等都提ggplot2seaborn供了便捷的小提琴图绘制功能双变量分析散点图正相关模式负相关模式聚类模式点呈现从左下到右上的趋势,表明两个变量点呈现从左上到右下的趋势,表明两个变量点形成多个分离的聚类,表明数据中可能存同向变化例如,广告支出与销售额、学习反向变化例如,商品价格与需求量、距离在不同的子群体或类别识别这些自然聚类时间与考试分数等通常呈现正相关关系相与引力大小等典型的负相关关系线性或非对后续的分组分析和模型构建具有重要价关强度可通过点的聚集程度判断线性负相关都可通过散点图直观识别值,可能暗示需要分层建模散点图是探索两个数值变量关系的基础工具,通过在二维平面上绘制点对来揭示变量间的关联模式增强型散点图可添加趋势线、置信区间、点大小变化(气泡图)和颜色编码(表示第三个变量),进一步丰富可视化信息在大数据量情况下,可使用透明度或密度散点图避免点alpha重叠问题双变量分析热力图热力图基本原理热力图使用色彩强度表示数值大小,通常用于可视化矩阵数据,如相关矩阵、距离矩阵或二维表格数据颜色从冷色(低值)到暖色(高值)的渐变直观展示数值变化在EDA中,热力图最常用于相关性分析,帮助识别变量间的关联模式和重要关系强相关的变量对在热力图中显示为深色区域,快速引导分析师关注关键关系实际应用技巧•重排序使用层次聚类等方法重新排列行列,帮助识别相似变量群组•标注在格子中添加数值标签,提供精确信息•掩码隐藏不显著或重复的值(如对角线)•颜色选择考虑色盲友好的调色板多变量分析散点图矩阵n²nn-1/2图表数量唯一关系对个变量生成图表矩阵对角线上方或下方的散点图n n×nn分布图数量对角线上显示各变量分布散点图矩阵(,)是同时展示多个数值变量间关系的强大工具矩Scatter PlotMatrix SPLOM阵中的每个单元格表示行变量与列变量的二元关系,对角线上通常放置各变量的分布直方图或密度图这种可视化方法能够快速发现变量间的线性关系、聚类模式和异常情况在实际应用中,可以通过颜色编码点(表示分类变量)增强散点图矩阵的信息含量对于高维数据,可选择最关键的变量子集以保持可读性现代实现如函数和pairs R提供了灵活的定制选项pandas.plotting.scatter_matrixPython多变量分析平行坐标图基本原理平行坐标图将n维空间中的点映射到二维平面上每个维度表示为一条垂直轴,这些轴平行排列数据点变为连接各轴上对应值的折线这种可视化方法特别适合探索高维数据的模式、趋势和异常,可展示任意数量的维度,只受限于视觉可辨别性模式识别•平行线表示变量间的线性关系•交叉线表示变量间的负相关•线束聚集表示数据聚类•异常路径表示离群观测平行坐标图在多维数据分析、聚类评估和离群点检测中特别有用通过交互式设计(如轴重排、缩放和突出显示),可大幅提升其分析效力在实践中,通常需要标准化各变量以便于比较,并可使用透明度或颜色编码增强可视化效果该图表广泛应用于金融分析、制造过程监控和科学数据探索等领域时间序列数据可视化线图日历热图面积图烛台图最基本的时间序列可视将数据按日历格式排列,线图的变体,线下方区域金融市场标准可视化,每化,直观展示变量随时间使用颜色强度表示数值大填充颜色堆叠面积图可个时间单位显示开盘价、的变化趋势通过添加移小特别适合识别每周、同时显示多个时间序列及收盘价、最高价和最低动平均线可平滑短期波每月的模式和特殊日期的其组成部分,如不同产品价通过颜色区分上涨和动,突出长期趋势;通过异常在网站流量、销售类别的销售贡献或能源消下跌,能高效展示价格波设置适当的轴范围可强调数据分析中常见费构成随时间的变化动和趋势y重要变化时间序列可视化需注意合适的时间粒度选择、季节性模式识别和异常点标记交互式图表允许缩放查看不同时间尺度的模式对多时间序列,可使用小倍数图或面板图进行比较适当的数据预处理如去趋势、去季节性有助于揭示潜在模式small multiples地理空间数据可视化地理空间数据可视化将数据与地理位置关联,直观展示空间分布模式和关系常见的地理可视化类型包括热力图,显示数值密度;分类地图,用颜色表示不同类别;气泡地图,使用点大小表示数值;流向图,展示地点间的移动或关系;等值线图,显示连续变量的空间分布在实际应用中,需根据数据特性和分析目的选择合适的地图类型和投影方法交互式地图允许用户放大、平移和查询具体位置的数据地理可视化广泛应用于流行病学、人口统计学、市场分析、环境监测和城市规划等领域,帮助决策者发现地理模式并做出空间相关决策数据分布分析识别分布类型1通过直方图、图和统计测试确定数据是否符合常见理论分布(如正态分布、指数分布、泊Q-Q松分布等)分析关键特征2计算并解释集中趋势(均值、中位数)、离散程度(方差、)和分布形状(偏度、峰度)IQR检测分布异常3识别多峰分布、长尾分布或其他不符合预期的分布特征,这可能暗示数据中存在子群体或特殊情况应用分布知识4根据分布特征选择合适的统计方法、转换技术和建模策略,确保分析结果的可靠性了解数据的分布特性对于选择合适的分析方法至关重要参数统计方法通常假设数据服从特定分布(如正态分布),当这些假设不满足时,可能需要使用数据转换(如对数、变换)或选择非Box-Cox参数方法在实际应用中,混合分布常见于含多个亚群体的数据,如客户收入分布或多模态测量结果,需要更复杂的分析技术正态分布检验检验方法适用场景优缺点检验小样本检验力强,但计算复杂,Shapiro-Wilk n2000对大样本效率低检验大样本适用多种分布检验,但检Kolmogorov-Smirnov验力较弱检验各种样本量对分布尾部敏感,检验力Anderson-Darling强于检验K-S检验中等样本基于偏度和峰度统计量,DAgostino-Pearson易于理解检验金融数据分析广泛用于金融领域,同样Jarque-Bera基于偏度和峰度正态分布检验是判断数据是否满足参数统计分析前提的关键步骤在实践中,我们通常结合可视化方法(如直方图、图)和统计检验一起使用,以获得更全面的判断需要注意的Q-Q是,大样本情况下几乎所有检验都会拒绝正态性假设,因为实际数据很少完全符合理论分布图解读Q-Q符合正态分布右偏分布重尾分布数据点基本沿着对角线分布,表明样本分布数据点在右上方偏离对角线,呈现向上弯曲数据点在两端偏离对角线,形成形,表明分S与理论正态分布吻合良好少量的随机偏离的模式,表明分布有正偏度(右偏)这在布有重尾特征,极端值出现概率高于正态分是正常的,特别是在样本量较小时这种情收入数据、资产回报等经济数据中常见,可布金融市场回报率常具有此特征,使用分t况下,可以合理使用假设正态分布的统计方能需要对数变换来接近正态性布可能更合适法图是评估数据分布的强大工具,通过比较样本分位数与理论分布分位数来检验拟合程度除了正态图外,还可Q-Q Quantile-Quantile PlotQ-Q创建基于其他理论分布的图,如指数分布、均匀分布等图不仅能判断整体分布匹配度,还能识别具体的偏离区域,为数据转换和模型Q-Q Q-Q选择提供指导分类数据分析单变量分析技术双变量分析技术多变量分析技术频率表与百分比分析列联表(交叉表)分析多维列联表分析•••条形图和饼图可视化卡方独立性检验对应分析•••CA众数和多样性指标计算关联规则挖掘多重对应分析•••MCA类别不平衡检测马赛克图和热图可视化决策树和随机森林•••分类数据分析在市场调研、医学研究和社会科学中占据重要地位与数值数据不同,分类数据需要特殊的分析技术来探索类别分布和关联模式在处理分类数据时,需要注意稀疏类别的处理、有序分类变量的特殊性以及变量编码的影响现代工具提供了丰富的EDA分类数据分析功能,使研究人员能够深入挖掘分类数据中的价值信息列联表分析基本概念列联表(交叉表)展示两个或多个分类变量之间的频率分布,可计算联合频率、行百分比、列百分比和总体百分比分析指标期望频率假设变量独立时的理论频率;标准化残差实际频率与期望频率的标准化差异;边际同质性行或列变量分布是否相同关联度量Phi系数2×2表;Cramers V任意大小;列联系数;Lambda系数非对称关联;Gamma系数序数变量可视化方法马赛克图矩形面积表示频率;气泡图点大小表示频率;热力图颜色深浅表示频率;对应分析图降维显示类别关系列联表分析是探索分类变量关系的基础工具在市场研究中,可用于分析产品偏好与客户特征的关系;在医学研究中,可用于检验治疗与疾病结果的关联;在社会调查中,可用于探讨人口特征与观点的相关性高维列联表需要处理稀疏性问题,可通过合并类别或使用正则化方法来改善分析结果卡方检验检验假设两个分类变量相互独立H₀:计算过程,为观察频率,为期望频率χ²=Σ[O-E²/E]O E解释结果3值小于显著性水平时,拒绝独立性假设p注意事项样本量要求、期望频率限制、事后分析卡方检验是分析分类变量关联的基础工具,通过比较实际观察频率与独立情况下的期望频率来判断变量间是否存在关联它被广泛应用于市场调研、医学研究、社会科学等领域在实际应用中,需注意每个单元格的期望频率不应太小(通常要求大于),否则检验结果可能不可靠,应考虑5精确检验等替代方法Fisher特征工程基础特征选择从原始特征集中筛选最相关、最有价值的特征子集,减少维度和噪声特征提取通过数学变换从原始特征创建新特征,如、等降维方法PCA LDA特征构造利用领域知识创建新特征,如比率、差值、交互项等组合特征特征转换改变特征分布形状或尺度,如对数变换、标准化、离散化等特征编码将非数值特征转换为数值形式,如独热编码、标签编码、频率编码特征工程是连接原始数据和模型构建的桥梁,对模型性能有着决定性影响在阶段,我们通过数据可视化和统计分析来指导特征工程方向,如识EDA别需要转换的偏斜分布、发现可能有价值的交互项等好的特征应具备相关性、独立性、可解释性和分布合理性领域知识在特征工程中尤为重要,常常能创造出比自动方法更有效的特征特征选择方法包装法嵌入法使用预定义的模型性能指标评估特征子在模型训练过程中完成特征选择,如L1集,如递归特征消除、顺序选择算正则化、决策树重要性平衡了RFE Lasso法考虑特征间相互作用,但计算成本过滤法和包装法的优缺点,在复杂模型过滤法高中较为实用集成方法基于统计指标独立评估每个特征,如相结合多种特征选择技术的结果,提高选关系数、卡方值、信息增益等计算效择稳定性和可靠性减少单一方法的局率高,但忽略特征间相互作用适合数限性,适合复杂数据集和关键应用场据预处理和快速筛选景特征选择是降低模型复杂度、提高效率和可解释性的关键步骤在高维数据分析中尤为重要,如基因表达数据、文本分析等需要注意选择的特征应保持原始数据的主要信息,避免过度简化交叉验证对评估特征选择效果至关重要,帮助确定最佳特征子集大小和防止过拟合特征缩放和标准化最小最大缩放标准化稳健缩放-Z-score将特征线性变换到或区间将特征转换为均值为、标准差为的分使用中位数和四分位距替代均值和标准[0,1][-1,1]01布差X_scaled=X-X_min/X_max-X_min X_scaled=X-μ/σX_scaled=X-median/IQR保持原始分布形状,但受异常值影响适用于假设正态分布的算法,如和对异常值具有高度稳健性,适用于含异PCA大适用于需要确切边界的情况,如图对异常值敏感度低于最小最大缩常值的数据集SVM-像处理和神经网络放特征缩放不改变数据的分布形状,但对许多机器学习算法至关重要,特别是基于距离度量和梯度下降的算法不同的缩放方法适用于不同场景最小最大缩放适合已知确切边界的数据;标准化适合可能包含异常值但假设近似正态分布的特征;稳健缩放适合严重偏斜-或含大量异常值的数据在阶段,应通过可视化比较不同缩放方法的效果EDA主成分分析()简介PCA主成分分析是一种线性降维技术,通过正交变换将可能相关的变量转换为线性不相关的变量集Principal ComponentAnalysis,PCA合,这些新变量称为主成分的核心思想是找到数据中的主要变异方向,保留尽可能多的原始信息同时减少数据维度PCA算法步骤包括数据标准化、计算协方差矩阵、求解特征值和特征向量、按特征值大小排序选择主成分、投影数据到新空间每PCA个主成分是原始特征的线性组合,第一主成分捕获最大方差,随后的主成分捕获剩余最大方差并与之前的主成分正交累计解释方差比常用于确定保留的主成分数量在中的应用PCA EDA维度约简将高维数据降至2-3维以便可视化,发现隐藏模式例如,将基因表达数据从数千维降至可视化维度,揭示样本聚类多重共线性处理将相关变量转换为不相关主成分,解决回归分析中的多重共线性问题特别适用于金融和经济学建模,处理高度相关的经济指标异常检测识别在主成分空间中偏离正常模式的观测利用重构误差或Hotellings T²统计量检测异常,广泛用于工业过程监控和欺诈检测特征重要性分析通过加载系数loadings分析原始变量对主成分的贡献,理解数据结构和潜在因素在市场调研中用于识别关键客户价值驱动因素PCA是EDA工具箱中的强大技术,但使用时需注意其局限性仅捕获线性关系;对特征尺度敏感,需要预先标准化;主成分可能难以解释,需要专业知识;不适合处理类别特征在实践中,通常结合其他方法如t-SNE或UMAP来获得更全面的数据理解聚类分析在中的应用EDA客户分群异常检测数据预处理和简化识别具有相似行为和特征的客户群体,用于识别不属于任何主要簇或形成微小簇的观测通过聚类归纳大量观测,用簇中心代表整个精准营销和个性化策略制定例如,电商平点,这些点可能代表异常情况或特殊案例簇的特征,降低数据复杂度这种技术在处台可基于购买历史、浏览行为和人口统计学在网络安全中,聚类分析可识别异常流量模理大规模传感器数据、卫星图像或社交网络特征将用户分为高价值客户、价格敏感客户式;在制造业中,可检测设备异常运行状数据时特别有用,可在保留主要信息的同时和偶尔购买客户等不同群体态显著减少数据量聚类分析是无监督学习的核心技术,在中帮助发现数据的内在结构和模式不同的聚类算法适用于不同形状和密度的数据集,需根据EDA数据特性选择合适算法聚类结果的评估通常需结合统计指标和领域知识,以确保发现的簇具有实际意义和价值聚类K-means随机初始化分配观测更新中心迭代优化随机选择个点作为初始聚类中心将每个观测分配到最近的聚类中心重新计算每个聚类的中心点重复步骤直至收敛K2-3是最流行的聚类算法之一,以其概念简单和计算效率著称它通过最小化各点到其所属聚类中心的平方距离和(即族内方差)来划分数据算法的关K-means键参数是聚类数,通常使用肘部法则、轮廓系数或间隙统计量来确定最佳值K K的优势在于实现简单、计算效率高、对大数据集适用性强;局限性包括对初始中心敏感(可通过等改进方法解决)、假设簇为凸形状、要K-means K-means++求预先指定值、对异常值敏感在实际应用中,常结合其他聚类方法和验证技术一起使用K层次聚类初始化合并最近簇1每个观测作为独立簇计算所有簇对间距离2重复合并更新距离矩阵4直至达到单簇或阈值3重新计算合并后的距离层次聚类是一种通过构建聚类层次结构来对数据进行分组的方法,分为自底向上的凝聚方法(上述步骤描述)和自顶向下的分裂方法其核心优势在于不需要预先指定簇数,并提供数据结构的完整层次视图,通过树状图()直观呈现聚类过程和结果dendrogram距离度量(如欧氏距离、曼哈顿距离)和链接方法(如单链接、完全链接、平均链接、法)的选择显著影响聚类结果单链接倾向创建链状簇;完全链接趋向Ward创建紧凑球形簇;平均链接和法通常提供最平衡结果层次聚类适合中小型数据集,大数据集上计算成本高,可考虑采样或混合方法Ward聚类DBSCAN关键概念优势DBSCAN DBSCAN邻域半径,定义点附近的距无需预先指定簇数量•εEpsilon•离阈值能识别任意形状的簇•形成核心点所需的最小点数•MinPts对噪声具有良好的鲁棒性•核心点邻域内至少有个点的点•εMinPts仅需两个参数和•εMinPts边界点不是核心点但在核心点邻域内的•适合发现密度变化的空间聚类•点DBSCANDensity-Based SpatialClustering噪声点既不是核心点也不是边界点的点•是一种基于密度of Applicationswith Noise的聚类算法,特别适合处理包含噪声和形状不规则簇的数据集它通过连接密度可达的点来形成簇,能自动识别噪声点和异常值在实际应用中,参数选择是的关键挑战值可通过距离图确定,观察最近邻距离的拐点;通常设为维度的倍以上DBSCANεk-k-MinPts2DBSCAN在密度变化显著的数据集上可能表现不佳,此时可考虑或等改进算法该算法广泛应用于空间数据分析、图像分割和异常检测领OPTICS HDBSCAN域假设检验在中的应用EDA分布检验验证数据是否符合特定理论分布(如正态分布),为后续参数统计分析提供依据常用的检验包括Shapiro-Wilk检验、Kolmogorov-Smirnov检验等在金融风险建模和质量控制中尤为重要群体比较检验不同样本群体的统计特性是否存在显著差异,如t检验比较两组均值,ANOVA比较多组均值,Mann-Whitney U检验比较非参数位置在A/B测试和临床试验分析中常用关联检验验证变量之间是否存在统计关联,如Pearson相关检验、卡方独立性检验、Granger因果检验等有助于筛选重要特征,揭示变量关系,指导后续建模方向异常检验基于统计模型识别数据中的离群点和异常模式,如Grubbs检验、Dixon检验、ESD检验等在金融欺诈检测、网络安全和质量保证领域有广泛应用假设检验通过数学统计方法验证关于数据的假设,为数据分析提供更严格的统计基础在EDA中,假设检验帮助研究人员区分随机波动和真实模式,从而避免过度解读数据中的噪声需注意p值陷阱和多重比较问题,合理控制假阳性率,并结合效应量评估结果的实际意义检验t检验类型应用场景假设条件单样本检验比较样本均值与已知总体样本近似正态或样本量足t均值够大独立样本检验比较两个独立组的均值两组独立,近似正态,方t差近似相等配对样本检验比较同一组体前后测量的差值近似正态,观测成对t均值关联检验方差不同的两组比较不要求方差相等,样本近Welchs t似正态多重检验多组两两比较需进行多重比较校正如t Bonferroni检验是比较均值差异的基础统计方法,特别适用于小样本情况进行检验时应关注效应量t t如而非仅关注值,值只表示结果的统计显著性,而效应量反映差异的实际大小Cohens dp p和意义当数据不满足正态性假设时,可考虑使用非参数替代方法,如检Mann-Whitney U验、符号秩检验等Wilcoxon分析ANOVA问题定义多个组的均值是否存在显著差异方差分解总方差拆分为组间方差和组内方差统计量F组间方差与组内方差之比事后检验确定具体哪些组间存在显著差异方差分析是比较三个或更多组均值的统计方法,是检验的推广单因素检验一个分类变量(因素)对连续变量的影Analysis ofVariance,ANOVA tANOVA响;双因素同时考虑两个因素的主效应和交互效应;多因素则处理多个因素的复杂交互的核心是比较组间差异与随机误差的相对ANOVA ANOVAANOVA大小,统计量越大,组间差异越显著F回归分析基础y=yβ=₀β+₀β+₁xβ₁+x₁ε+...+βx+εₙₙ简单线性回归多元线性回归一个自变量预测一个因变量多个自变量预测一个因变量R²决定系数模型解释的因变量方差比例回归分析是中探索变量关系的强大工具,不仅可用于预测建模,也是理解变量间关联结构EDA的方法在阶段,回归分析可以量化变量间关系的强度和方向;识别关键预测因子;检EDA测复杂的非线性关系;控制混淆变量后评估净关联;探索交互效应回归分析的经典假设包括线性关系、残差独立性、同方差性(残差方差恒定)和残差正态性在中,这些假设检验有助于理解数据结构和选择合适的建模策略较复杂的回归形式EDA如多项式回归、分段回归和局部回归可捕捉非线性关系线性回归在中的应用EDA趋势分析变量筛选关系探索量化变量间的线性关系强度识别与目标变量显著相关的特征检测变量间的非线性关系•••识别时间序列数据的趋势成分通过显著性检验筛选重要变量分析交互效应和调节效应•••评估趋势的显著性和斜率应用正则化方法自动选择变控制混淆变量后评估净效应••LASSO•量预测未来趋势延续方向比较不同组别的回归系数差异••评估变量的相对重要性•线性回归在中不仅是建模工具,更是探索数据结构和关系的分析方法通过拟合线性模型并分析结果,可以揭示变量间的复杂关EDA联回归分析结果的可视化,如偏回归图、残差图、影响点分析等,提供了丰富的数据洞察在实际应用中,往往结合其他分析技术如聚类和降维,形成完整的分析流程EDA残差分析残差分析是评估回归模型适当性的关键步骤,通过检查模型预测值与实际值之间的差异(残差)来识别模型问题和改进方向主要的残差分析技术包括残差散点图,检查非线性模式和异方差性;残差图,评估残差的正态性;残差对预测值的图,检查方差恒定性;部分Q-Q残差图,识别个别预测变量的非线性关系残差分析可以发现的常见问题包括非线性关系,表现为残差呈现系统性曲线模式;异方差性,表现为残差扇形分布;自相关,表现为残差的时间或空间模式;离群点和高影响点,表现为异常大的残差或高杠杆值识别这些问题后,可通过变量转换、加入交互项、使用稳健回归或采用非线性模型来改进分析多重共线性检测相关性矩阵方差膨胀因子条件数和条件指数VIF计算预测变量间的相关系数,通常测量由于与其他预测变量相关而导基于设计矩阵的奇异值分解,衡量认为超过
0.7或
0.8的相关系数表明致的回归系数方差增加程度VIF矩阵的条件状况条件指数30表潜在的共线性问题简单直观但无=1/1-R²,其中R²是预测变量作示中度到严重的共线性能识别涉法识别多变量间的复杂共线性为因变量时的决定系数VIF10通及多个变量的复杂共线性模式常表示严重共线性容差ToleranceVIF的倒数,表示一个变量中不能被其他预测变量解释的方差比例容差
0.1表示可能存在共线性问题简单易解释,常与VIF一起报告多重共线性是指预测变量之间存在强相关关系,会导致回归系数估计不稳定,标准误增大,从而影响统计推断在EDA阶段,识别和处理共线性对后续建模至关重要常用的处理方法包括删除高度相关变量、应用主成分回归、岭回归或LASSO等正则化方法、收集更多数据或重新设计变量测量方式时间序列数据分析描述性分析可视化探索、时序统计量计算、异常点识别、数据平稳性检查分解分析将时间序列分解为趋势、季节性和随机成分,识别主要模式相关性分析自相关和偏自相关分析,揭示时序数据的内部依赖结构ACF PACF平稳性变换差分、对数变换等处理,使数据满足建模需求时间序列数据分析关注数据随时间变化的模式和特性,在金融、经济、气象、能源等众多领域有广泛应用在阶段,我们关注时间序列的基本特性如趋势长期方向、季节性周期性变化、EDA周期性非固定周期变化和不规则成分随机波动时间序列可视化的关键是选择合适的时间尺度和聚合方法,以揭示不同粒度的模式趋势和季节性分析趋势分析方法季节性分析方法移动平均使用滑动窗口平滑短期波季节性指数量化不同季节的相对强••动度线性回归拟合线性趋势并检验显著季节性剖面图比较不同周期的模式••性局部加权回归平滑季节性分解、等方•LOESS/LOWESS•STL X-12-ARIMA法滤波分离趋势与•Hodrick-Prescott周期季节性调整消除季节性影响以分析•趋势和季节性分析是理解时间序列基本基础趋势指数平滑加权历史值,权重随时间•模式的关键步骤趋势反映长期变化方指数衰减频谱分析识别主要周期性成分•向,季节性反映固定周期的规律波动两者的识别和量化有助于更准确地预测未来值和检测异常模式,在库存管理、需求预测和资源规划中尤为重要自相关和偏自相关分析自相关函数偏自相关函数白噪声检验ACF PACF测量时间序列与其自身滞后版本间的线性相关测量时间序列与其滞后版本间的直接关系,消使用检验或检验评估时间Ljung-Box Box-Pierce程度图显示不同滞后时间的相关系数,除了中间滞后的影响图显示每个滞后的序列是否为白噪声(无自相关)检验统计量ACF PACF可用于识别季节性模式和移动平均过程的纯相关,排除了较短滞后的间接效应基于多个滞后的自相关平方和,值小于显著性MAPACF p阶数自相关系数的衰减模式也反映了序列的主要用于识别自回归过程的阶数,在水平表明存在显著的时间依赖结构,数据非随AR记忆特性,如指数衰减或振荡衰减模型构建中极为重要机ARIMA自相关和偏自相关分析是时间序列建模的基础,帮助确定模型的适当阶数在阶段,这些分析揭示了时间序列的内部依赖结构,指ARIMA p,d,q EDA导后续的模型选择和特征工程显著的自相关表明数据点间存在依赖关系,违反了许多统计方法假设的独立性,需要特殊处理文本数据的探索性分析文本预处理包括分词、去除停用词、词干提取、词形还原等步骤,将非结构化文本转换为可分析的格式预处理质量直接影响后续分析结果,需根据语言特点和分析目的选择合适方法频率分析计算词汇、短语、词性的出现频率和分布,识别关键术语和主题常用词频逆文档频TF-IDF-率来平衡常见词和独特词的重要性,更准确反映词汇意义共现分析研究词汇同时出现的模式,构建词汇网络图揭示概念关联通过滑动窗口或句子段落边界定/义共现关系,对理解文本结构和主题关联至关重要主题建模使用潜在狄利克雷分配、非负矩阵分解等算法发现文本中的隐含主题这些无监督LDANMF学习方法根据词汇分布将文档聚类,揭示语料库的主题结构文本数据的探索性分析将非结构化文本转化为可量化的模式和见解与传统数据不同,文本数据具有高维度、稀疏性和语义复杂性,需要特殊的分析技术现代文本还包括情感分析、命名实体识别EDA和词向量可视化等高级技术,能深入挖掘文本的情感倾向和语义关系词频分析和词云图词频分析关键指标词云图设计考虑原始词频词汇在文档中出现的次词大小映射基于频率或值•TF•TF-IDF数颜色编码反映主题、情感或其他属性•相对词频词汇频率占总词数的比例•词形状和方向提高视觉吸引力•逆文档频率衡量词汇的普遍性•IDF分组词云按类别或时间分段比较•值平衡词频和独特性的综合度•TF-IDF交互功能允许探索和筛选•量语法分布词性标注统计•POS词频分析和词云图是文本的基础工具,EDA提供了文本内容的直观概览词频分析量化词汇使用模式,而词云图将这些模式转化为视觉呈现,突出显示最重要的词汇和主题在社交媒体分析、市场研究和内容分析中,这些技术能快速识别关键词和热门话题情感分析简介情感分析基本流程情感极性分析情感维度分析情感分析从原始文本出发,经过预处理、特征提最基本的情感分析形式,将文本情感归类为积极、超越简单极性,识别特定情绪类型,如喜悦、愤取、模型应用和后处理,最终生成情感指标预处消极或中性在精细划分中可能包括非常积极到怒、悲伤、恐惧等这种多维情感分析提供更丰富理包括分词、去除停用词等;特征提取可采用词袋非常消极的多级尺度极性分析广泛应用于产品的情感画像,在心理学研究、用户体验分析和品牌模型、词向量等;模型可以是基于词典的规则系统评论分析、市场情绪监测和社交媒体分析,帮助组情感监测中尤为有用,能捕捉文本传达的复杂情感或机器学习算法;后处理则针对结果进行汇总和可织理解公众对特定主题的整体态度状态视化情感分析在中有多种应用,包括识别客户反馈的情感趋势、监测社交媒体情绪波动、评估不同用户群体的情感差异等在分析过程中,需注意语言的复杂EDA性,如反讽、隐喻和文化差异等可能导致误判的因素高级情感分析还包括方面级分析(识别针对特定特征的情感)和意图识别(理解文本背后的用户意图)工具介绍库EDA Python数据处理基础•NumPy高效数值计算库•Pandas数据结构和数据分析工具•SciPy科学计算和统计分析可视化工具•Matplotlib基础绘图库•Seaborn基于Matplotlib的统计绘图•Plotly交互式可视化•Bokeh针对Web的交互式可视化高级分析工具•Scikit-learn机器学习库•statsmodels统计模型和检验•NLTK和spaCy自然语言处理•NetworkX复杂网络分析自动化工具EDA•pandas-profiling自动生成报告•sweetviz可视化比较数据集•D-Tale交互式Pandas数据分析•AutoViz自动可视化数据集Python凭借其丰富的数据科学生态系统成为EDA的首选语言之一Pandas提供了强大的数据处理功能,支持从各种来源导入数据并进行清洗和转换可视化库如Matplotlib和Seaborn能创建各种统计图表,而Plotly和Bokeh则提供交互式可视化能力自动化EDA工具如pandas-profiling能快速生成全面的数据概览报告,大幅提高分析效率工具介绍语言包EDA R数据处理与统计可视化工具R语言原生提供强大的统计分析功能,如base、stats包;dplyr、tidyr等ggplot2包是基于图形语法的强大可视化系统,支持各种复杂图表;lattice包提tidyverse系列包提供现代化的数据操作方法;data.table包提供高性能数据处供条件绘图功能;plotly和highcharter包提供交互式可视化;corrplot专注于相理,特别适合大数据集;zoo、xts包支持时间序列分析;vcd包专注于分类数据关矩阵可视化;ggvis结合ggplot2和交互功能;gganimate支持创建动画图表可视化与分析自动化工具专业领域工具EDADataExplorer包自动创建数据概况和可视化;summarytools提供数据摘要和报sp和sf包用于空间数据分析;tm和quanteda包用于文本挖掘;igraph和network告功能;skimr快速生成数据摘要统计;inspectdf专注于数据帧检查和比较;包用于网络分析;survival包用于生存分析;forecast包用于时间序列预测;GGally扩展ggplot2实现多变量可视化;explore包提供一键探索性分析psych包用于心理测量学分析R语言在统计和数据可视化方面有着深厚的历史根基,提供了丰富的EDA工具生态系统R的函数式编程特性和专业统计软件包使其在学术研究和统计分析中特别受欢迎RStudio作为集成开发环境进一步增强了R的可用性,而R Markdown和Shiny则提供了灵活的报告和交互式应用创建能力,使数据探索和结果分享更加便捷最佳实践和注意事项EDA从问题出发明确分析目标和关键问题,避免无目的的探索迭代深入从全局概览开始,逐步聚焦值得深入的领域保持客观避免确认偏误,让数据引导结论而非相反记录过程详细记录分析步骤、发现和决策理由考虑受众根据目标受众调整可视化和报告复杂度有效的需要技术能力与分析思维的结合在实践中,避免过度简化和过度复杂化同样重要前者可能错过关键洞察,后者可能导致分析瘫痪和资源浪费使用版本控EDA——制管理分析脚本,保持分析的可重复性在团队环境中,定期分享初步发现促进多角度思考和早期反馈总结与展望探索是发现的起点工具与思维并重是理解数据本质的关键环节技术只是手段,分析思维是核心EDA未来发展方向洞察创造价值自动化与人工智能辅助探索从数据中提炼可行的业务见解通过本课程,我们系统学习了探索性数据分析的理论基础、方法技术和实践应用不仅是数据科学工作流中的一个环节,更是连接数据与洞察的桥梁随EDA着数据规模和复杂度的不断增长,技术也在持续演进,自动化工具和可视化方法不断创新,使分析师能更高效地探索和理解数据EDA未来的将更加智能化和交互化,人工智能辅助的数据探索将成为主流,但分析师的领域知识和批判性思维仍是不可替代的希望大家能将所学知识应用到EDA实际工作中,成为数据洞察的能手!。
个人认证
优秀文档
获得点赞 0