还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据挖掘技巧复习课欢迎来到数据挖掘技巧复习课本课程旨在帮助你全面掌握数据挖掘的关键概念、算法和应用技巧我们将系统地回顾数据挖掘的整个流程,从基础知识到高级应用,确保你能够将这些技术应用到实际问题中通过本课程,你将能够理解数据挖掘的核心原理,掌握各种预处理技术,熟悉主要的分类、聚类和关联规则算法,并了解推荐系统、时间序列分析和文本挖掘等高级主题让我们一起探索数据中隐藏的宝贵信息!课程概述课程目标系统掌握数据挖掘的核心概念与方法熟练应用各类算法解决实际问题培养数据分析思维和实践能力学习内容安排十大章节覆盖数据挖掘全流程从基础概念到高级应用全面展开包含理论讲解与实例分析考核方式平时作业占比40%期末项目占比60%额外加分实际案例分析与创新应用第一章数据挖掘基础概念基础核心技术数据挖掘是从大量数据中提取有包括分类、聚类、关联规则和回价值信息和知识的过程它结合归分析等算法,能够从不同角度了统计学、机器学习和数据库技挖掘数据中隐藏的信息结构和知术,帮助识别数据中的模式和关识系应用领域广泛应用于商业智能、风险管理、医疗诊断、社交网络分析等多个领域,为决策提供重要依据什么是数据挖掘?定义与概念与机器学习的区别数据挖掘的重要性数据挖掘是从大量数据中自动发现有用信虽然两者关系密切,但数据挖掘更关注整随着数据量爆炸性增长,传统数据分析方息的过程它通过应用特定算法来提取数个知识发现过程,包括数据清洗、集成和法难以处理复杂数据数据挖掘提供了自据模式,发现知识,并预测未来趋势解释等环节动化发现知识的能力机器学习主要专注于算法开发,是数据挖它帮助企业增强竞争力,发现商机,优化数据挖掘技术帮助我们理解数据之间的复掘中模型构建阶段的关键技术数据挖掘运营,提高产品质量和客户满意度杂关系,揭示隐藏的模式和趋势,从而支使用机器学习方法作为工具持决策过程数据挖掘的应用领域商业智能金融风控购物篮分析发现商品间的关联关系欺诈检测识别异常交易行为客户细分根据消费行为划分客户群体信用评分预测客户偿还能力销售预测帮助零售商优化库存和供应链市场风险预测分析市场波动模式社交网络分析医疗健康社区发现识别紧密联系的用户群体疾病诊断从症状中识别疾病模式意见领袖识别找出有影响力的节点药物研发发现分子结构与疗效关系情感分析分析用户对事件的态度健康管理分析生活习惯与健康状况关联数据挖掘的基本流程问题定义明确业务需求,确定挖掘目标和成功标准数据收集从各种来源获取相关数据,确保数据质量和代表性数据预处理清洗、转换、集成和规约数据,提高数据质量模型构建选择合适的算法,训练和优化数据挖掘模型结果评估与应用验证模型有效性,解释结果并应用于实际业务数据类型与特征结构化数据非结构化数据具有预定义格式和规范的数据,没有预定义模型或组织方式的通常以表格形式存储在关系型数据,如文本文档、图像、视数据库中例如客户信息表、频和音频文件这类数据占据交易记录、传感器读数等这数据总量的80%以上,需要特类数据易于搜索和分析,可直殊处理技术才能进行有效分析接应用大多数数据挖掘算法文本挖掘和自然语言处理是处理此类数据的重要方法半结构化数据介于上述两者之间的数据类型,具有一定的组织结构但不遵循严格的表格形式如、文件、电子邮件等这类数据包含标签或其他XML JSON标记,使其具有自描述特性,便于程序解析但不如结构化数据那样规范第二章数据预处理数据分析与应用高质量的分析结果依赖于下述所有步骤数据规约与降维减少数据量和维度,提高处理效率数据转换与特征工程调整数据格式,增强特征表达能力数据集成与融合整合多源数据,解决冲突数据清洗处理缺失值、噪声和异常数据数据清洗处理缺失值缺失值可能导致分析偏差或算法失效,常见处理方法包括•删除含缺失值的记录(适用于缺失比例小)•均值/中位数/众数填充(保留更多数据)•预测模型填充(如回归或决策树)去除噪声噪声是数据中的随机误差或变异,可通过以下方法减少•平滑处理(如移动平均、二项式平滑)•分箱处理(将连续值分组)•回归方法(拟合数据趋势)异常值检测异常值是显著偏离正常范围的数据点,检测方法包括•统计方法(如Z分数、IQR法则)•基于密度的方法(如LOF算法)•聚类方法(如DBSCAN)数据转换归一化标准化离散化将数据缩放到[0,1]或[-1,1]区间,常用将数据转换为均值为
0、标准差为1的分布,将连续值转换为离散区间或类别,减少数于需要对不同特征进行公平比较的场景使所有特征在相同尺度上据精度但增强抗噪能力公式X=X-μ/σ,其中μ是均值,σ常用方法包括等宽分箱、等频分箱和基于最常用的是Min-Max归一化X=X-是标准差熵的离散化Xmin/Xmax-Xmin适用于假设数据服从正态分布的算法适用于决策树、朴素贝叶斯等对连续值适用于梯度下降算法、神经网络、需要(如PCA)、正则化方法和SVM等处理效果不佳的算法,以及减少过拟合计算距离的算法(如)KNN数据集成多源数据整合将来自不同来源的数据合并到一个一致的数据存储中,可能包括不同数据库、文件、或传感器数据整合过程需要考虑数据结构匹配、主键关API联和数据粒度一致性等问题解决数据冲突当多个数据源包含相同实体的不同值时产生冲突常见解决策略包括取众数平均值、使用最近时间戳的数据、引入可信度权重,或创建新字/段保留所有值以供后续分析去除重复数据重复记录会导致分析偏差和资源浪费识别方法包括完全匹配、基于规则的匹配和模糊匹配去重时需考虑保留哪些信息,可能的策略包括保留最完整记录、合并非冲突信息或保留时间最新的记录数据规约维度规约数量规约减少数据集中的特征数量,消除冗余和减少数据集中的记录数量,同时保持数不相关特征据特性•特征选择直接选择重要特征子集,•抽样技术随机抽样、分层抽样、系如基于相关性分析、信息增益统抽样•特征提取创建新的、数量更少的特•聚类抽样先聚类,再从每个簇中选征,如主成分分析PCA、线性判别取代表性样本分析LDA•直方图分析通过频率分布分析进行•自编码器使用神经网络学习低维表规约示数据压缩技术减少数据表示所需的存储空间•无损压缩如霍夫曼编码,保证信息完全恢复•有损压缩如小波变换,允许一定程度的信息损失•离散傅里叶变换频域分析减少维度第三章分类算法分类算法是监督学习的重要分支,旨在从已标记数据中学习函数,将新数据实例分配到预定义类别不同分类算法各有优缺点和适用场景,选择合适的算法需考虑数据特性、问题类型、计算资源和模型可解释性等因素决策树算法算法算法ID3C
4.5CART基本原理使用信息增益选择最佳特征进基本原理使用信息增益率作为特征选择基本原理构建二叉决策树,使用基尼指行分割,构建多路决策树标准,是ID3的改进版数作为分割标准优势简单直观,易于理解,计算效率高优势能处理连续特征,解决了ID3偏向优势支持回归和分类任务,处理缺失值多值特征的问题,引入了剪枝机制能力强,计算效率高局限性只能处理离散特征,容易过拟合,局限性对噪声敏感,计算复杂度较高局限性只生成二叉树,可能产生较深的偏向于选择取值多的特征树结构,需要处理连续特征的离散化决策树示例信息增益计算计算父节点的熵与选择特征后加权子节点熵之差1信息增益=父节点熵-Σ子节点权重×子节点熵选择产生最大信息增益的特征作为分割点,信息增益表示特征减少的不确定性树的生成过程从根节点开始,选择最佳特征分割数据集2递归地为每个子集创建分支和子节点当达到停止条件(如全部样本属于同一类别、达到最大深度、节点样本数过少)时停止分裂剪枝技术预剪枝在构建过程中提前停止,通过验证集评估是否应继续分裂3后剪枝先构建完整决策树,然后自底向上评估并剪掉增益不显著的分支有效减少过拟合,提高模型泛化能力和效率朴素贝叶斯基本原理条件概率朴素贝叶斯基于贝叶斯定理,计应用贝叶斯公式Py|x=算给定特征条件下类别的后验概[Px|y*Py]/Px,其中率核心假设是特征间条件独立,Py|x是后验概率,Px|y是似即一个特征的出现与其他特征无然性,Py是先验概率,Px是关,这个朴素假设大大简化了证据因子在实际计算中,由于计算,使模型可以应用于高维特特征独立性假设,Px|y=征空间Px₁|y*Px₂|y*...*,这使得计算变得简单Px|yₙ高效拉普拉斯平滑当某个特征值在训练集中未出现时,会导致条件概率为零,进而使整个后验概率为零拉普拉斯平滑通过在计数中加入一个小的正数(通常为)解决这个1问题Pxᵢ|y=countxᵢ,y+α/county+α*|V|,其中|V|是特征可能值的数量朴素贝叶斯实例31000+文档类别特征维度本例中的分类任务涉及三个文档类别科技、体词汇表大小超过千词,每个词作为一个特征维度育和政治85%分类准确率使用朴素贝叶斯在测试集上达到的准确率在文本分类应用中,朴素贝叶斯表现出显著优势它能有效处理高维稀疏数据,计算效率高,且在特征不完全独立的情况下仍能取得良好效果模型学习速度快,只需要少量训练数据就能获得合理的分类性能然而,朴素贝叶斯也存在一些局限性由于特征独立性假设,它无法捕捉特征间的依赖关系在数据分布偏斜时,预测可能偏向主导类别此外,概率估计不总是准确,尤其是在样本量不足的情况下近邻算法K KNN找到最近的个邻居排序距离值K计算测试样本与所有训练样本的距离按距离从小到大排序投票决定类别选择前个邻居K根据多数表决确定测试样本的类别确定最近的K个邻居点算法的核心在于选择合适的距离度量方式最常用的是欧几里得距离,适用于连续特征;曼哈顿距离适合处理城市街区类问题;余弦相似度则KNN适用于文本等高维稀疏数据距离度量的选择应根据数据特性和问题域来确定值的选择至关重要,它直接影响分类结果值过小容易受噪声影响,导致过拟合;值过大则会模糊类别边界,产生欠拟合一般通过交叉验证K K K选择最优值,通常选择奇数以避免投票平局K支持向量机SVM线性可分与核技巧软间隔与正则化多类分类问题SVM在线性可分情况下,寻找最大间隔超实际应用中,数据往往存在噪声和异常值,SVM本质上是二分类算法,处理多类问题平面作为决策边界,最大化不同类别数据完全线性可分难以实现软间隔SVM引入主要有两种策略点到边界的距离松弛变量,允许一些数据点分类错误或落一对多为每个类别训练一个,将其SVM入间隔区域当数据线性不可分时,核函数将原始特征与其他所有类别区分;预测时选择置信度空间映射到更高维度,使数据在高维空间正则化参数C控制模型对误分类样本的惩最高的类别中线性可分常用核函数包括线性核、多罚程度C值大时,模型追求更少的误分一对一为每对类别训练一个,共需SVM项式核、径向基函数核和类,容易过拟合;值小时,允许更多误RBF sigmoidC个分类器;预测时采用投票机NN-1/2核分类,模型更简单但可能欠拟合制确定最终类别神经网络感知机模型神经网络的基本单元,模拟单个神经元工作原理接收多个输入,计算加权和,通过激活函数产生输出单层感知机只能解决线性可分问题,如与门、或门,但无法处理异或问题多层前馈网络由输入层、一个或多个隐藏层和输出层组成每层神经元与下一层全连接,信息单向传播隐藏层使网络能够学习非线性关系,增加层数可提高模型表达能力,但也增加了训练难度和过拟合风险反向传播算法神经网络学习的核心算法正向传播计算当前参数下的预测值和损失;反向传播计算损失函数对各参数的梯度;然后通过梯度下降等优化算法更新参数这个过程不断迭代直到收敛,使网络逐步学习到数据的内在规律集成学习Bagging BoostingRandom ForestBootstrapAggregating的缩写,通通过迭代方式训练一系列弱学习器,每随机森林结合了Bagging思想和决策树过随机有放回抽样生成多个训练集,训次迭代都关注之前模型分类错误的样本算法,是一种强大的集成方法每棵树练多个基础模型,最终结果通过投票或AdaBoost是典型代表,它通过调整样使用随机选择的特征子集和样本子集训平均得出代表算法是随机森林,它结本权重,使后续模型更注重难分类样本;练,减少了模型方差;预测时综合所有合了决策树和Bagging思想,每个树使梯度提升决策树GBDT则通过拟合残树的结果,显著提高准确率和稳定性用部分特征和样本,大大提高了模型的差不断改进模型;XGBoost进一步引入它具有处理高维数据能力强、对噪声不泛化能力和鲁棒性,有效减少了过拟合正则化和更高效的算法实现,成为许多敏感、内置特征重要性评估等优点,广问题数据竞赛的制胜法宝泛应用于各类分类和回归问题分类算法比较算法优点缺点适用场景决策树直观易懂,可解释容易过拟合,不稳特征相互独立,需性强,训练速度快定要可解释性的问题朴素贝叶斯对小样本有效,计特征独立性假设强,文本分类,垃圾邮算简单,支持增量概率估计不准确件过滤,高维度低学习数据量KNN简单易实现,无需计算复杂度高,存低维数据,异常检训练,适应性强储开销大测SVM高维空间表现好,训练慢,参数调优高维数据,文本分理论基础扎实复杂类,图像识别神经网络表达能力强,可处需要大量数据,训图像识别,自然语理复杂问题练耗时,黑盒模型言处理,复杂模式识别随机森林抗过拟合,训练快,模型复杂,可解释高维数据,类别不特征重要性评估性弱平衡,复杂关系第四章聚类算法基于质心的聚类基于层次的聚类基于密度的聚类基于模型的聚类算法围绕代表性中心点通过递归合并或分割数识别高密度区域作为簇,假设数据由特定概率分进行数据分组,最典型据点构建聚类树状结构,能发现任意形状的簇,布生成,通过统计模型的是K-means算法不需预设簇数量,可产对噪声具有良好的鲁棒拟合数据高斯混合模这类方法计算效率高,生任意形状的簇计算性典型算法如型GMM是典型代表,易于实现,但对初始中复杂度较高,适用于中DBSCAN,适合处理非提供概率归属度,但对心点敏感,且倾向于发小规模数据集凸形状的数据分布异常值敏感现球形簇算法K-means初始化随机选择K个数据点作为初始聚类中心也可使用K-means++等优化方法,选择相互距离较远的点作为初始中心分配样本计算每个样本到各聚类中心的距离将样本分配到距离最近的聚类中心所代表的簇更新中心点重新计算每个簇的中心点(各维特征的平均值)生成新的聚类中心,替代原有中心点迭代优化重复分配样本和更新中心点两个步骤直到满足收敛条件中心点变化微小或达到最大迭代次数示例K-means步骤初始化步骤样本分配步骤迭代收敛123在这个二维数据集中,我们随机选择了3个每个数据点被分配到距离最近的中心点所代经过多次迭代后,簇的中心点位置趋于稳定,初始中心点(红、蓝、绿)初始中心点的表的簇图中,点的颜色表示它们所属的簇算法收敛最终的聚类结果将数据点分为三选择对最终结果有较大影响,不同的初始点这一步使用欧几里得距离作为距离度量,计个明确的簇,每个簇内部的点彼此相似,不可能导致不同的聚类结果K-means++通算每个点到各中心点的距离,并分配到最近同簇之间的点相异K-means的目标函数过选择相距较远的点作为初始中心,可以提的中心点是最小化各点到其簇中心的距离平方和高算法性能层次聚类自底向上方法自顶向下方法距离度量选择也称为凝聚层次聚类Agglomerative也称为分裂层次聚类Divisive簇间距离计算方法直接影响聚类结果,最常用的层,计算复杂度Hierarchical ClusteringHierarchical Clustering单链接最近点距•Single Linkage次聚类方法高,实际应用较少离,容易形成链状簇算法步骤算法步骤全链接最远•Complete Linkage点距离,倾向于形成紧凑的簇•将每个数据点视为一个独立的簇•初始将所有数据点视为一个大簇平均链接所有•Average Linkage•计算所有簇对之间的距离•选择最佳分裂方式将簇分为两个子簇点对的平均距离,较为平衡•合并距离最近的两个簇方法最小化组内方差,产生大•Ward•递归地分裂每个子簇•更新簇间距离小相近的簇•直到每个簇只包含一个数据点•重复步骤3-4直到所有点合并为一个簇算法DBSCAN密度可达性概念参数选择DBSCAN基于密度的空间聚类算法DBSCAN需要两个关键参数ε邻域基于三个关键概念直接密度可达、半径和MinPts最小点数参数选密度可达和密度相连如果点p的ε-择影响聚类质量ε过大可能合并不同邻域内至少有MinPts个点,则称p为簇,过小则可能产生过多小簇;核心点若q在p的ε-邻域内且p是核MinPts过大可能导致边缘点被视为心点,则q从p直接密度可达若存在噪声,过小则不能有效过滤噪声实点链p₁,...,p使得pᵢ₊₁从pᵢ直接践中,可通过k-距离图辅助参数选择,ₙ密度可达,则称点p从p₁密度可达找到k-距离曲线的拐点作为ε值ₙ密度相连则是密度可达的对称关系MinPts通常设为维度的2倍优缺点分析优势无需预设簇数;能发现任意形状的簇;自然处理噪声点;对数据排序不敏感缺点对高维数据效果较差,因为高维空间中距离计算变得不直观;处理不同密度的簇时存在困难;参数设置需要专业知识;对大数据集计算复杂度高,基本的实现时间复杂度为On²,虽然使用空间索引可优化至On·log n高斯混合模型GMM算法模型选择与的比较EM K-means期望最大化确定中高斯分布的数量即簇数是相比,具有如下特点Expectation-GMMKK-means GMMMaximization算法是GMM参数估计的关键问题,常用方法包括软聚类提供概率归属度而非硬分配•核心方法,通过迭代两个步骤优化参数贝叶斯信息准则平衡模型复杂度BIC与拟合度,选择最小的值BIC K形状灵活可建模椭圆形簇,而非仅•步期望步骤估计每个数据点属于各E限球形簇赤池信息准则类似但对模型AIC BIC高斯分布的概率责任值概率模型提供不确定性量化复杂度惩罚较轻•步最大化步骤基于责任值更新各高M复杂度高训练时间和参数数量更多•交叉验证通过划分数据评估不同值的K斯分布的参数均值、协方差、权重泛化性能敏感性对初始值和异常值更敏感•这两步交替进行,直到模型参数收敛或达到最大迭代次数聚类算法评估轮廓系数调整兰德指数综合考虑簇内凝聚度和簇间分离度的指标,值域对兰德指数的校正版本,考虑了随机聚类的影响,为[-1,1],越接近1表示聚类质量越高适用于有真实标签的情况对于数据点i,计算计算步骤•ai i与同簇其他点的平均距离内聚度•统计点对在聚类和真实分组中的一致/不一致情况•bi i与最近的非同簇所有点的平均距离分离度•计算兰德指数一致点对数/总点对数•si=bi-ai/maxai,bi•通过随机模型校正,得到调整兰德指数轮廓系数是所有数据点si的平均值值域为[-1,1],0表示随机聚类,1表示完全匹配互信息基于信息论的评估指标,测量聚类结果与真实标签之间的相互依赖程度标准化互信息NMI计算•计算聚类结果和真实标签的信息熵HY和HC•计算互信息MIY,C•NMI=2*MIY,C/HY+HC值域为[0,1],1表示完全匹配第五章关联规则挖掘业务洞察与应用商品推荐、交叉销售、商品布局优化规则评估与筛选通过支持度、置信度、提升度等指标评价规则关联规则生成从频繁项集中产生满足最小置信度的规则频繁项集挖掘使用、等算法发现频繁项集Apriori FP-Growth关联规则基本概念支持度置信度提升度项集在总交易中出现的频条件概率PY|X,衡量规衡量X与Y的相关性,判断率,衡量规则的普遍性则的可靠性是正相关还是负相关supportX=countX confidenceX→Y=liftX→Y=/N,其中N是总交易数supportX∪Y/confidenceX→Y/supportX supportYsupportX→Y=supportX∪Y==countX∪Y/=supportX∪Y/∪countX Y/N countXsupportX*supportY支持度阈值帮助筛选出常置信度高表示X出现时Y很见模式,过滤掉罕见组合可能也出现,规则更可靠lift1表示正相关,X的出现增加了出现的可能性;Y表示负相关;lift1lift=表示和相互独立1X Y算法Apriori算法原理算法基于频繁项集的所有子集也必须是频繁的这一关键原理(也称为Apriori性质),利用这一性质可以显著减少候选项集的生成和测试如果一个Apriori项集是非频繁的,则它的所有超集也一定是非频繁的,这允许算法在搜索空间中进行有效的剪枝候选集生成算法通过逐层迭代的方式生成候选频繁项集首先找出所有频繁项集,然后1利用这些频繁项集生成候选项集在生成项候选集时,只考虑那些由两12k+1个共享个元素的频繁项集合并而成的项集这种方法大大减少了需要测k-1k试的候选项集数量剪枝策略使用两步剪枝策略第一步是生成候选集时,如果某个项集的Apriori k任一子集不是频繁的,则该项集可以立即剪枝;第二步是通过扫描k-1k事务数据库,计算每个候选项集的支持度,删除那些支持度低于阈值的候选项集这两步剪枝策略显著提高了算法效率算法示例Apriori步骤准备数据步骤挖掘频繁项集步骤生成关联规则123收集超市交易数据,每条交易记录包含顾客设定最小支持度为40%即商品组合至少在从频繁项集生成关联规则,并计算置信度购买的所有商品示例数据集包含条交易条交易中出现首先统计所有单个商品的例如,对于频繁项集面包牛奶,可生成52{,}记录,商品包括面包、牛奶、啤酒、尿布和支持度,筛选出频繁1项集;然后基于频繁1规则面包→牛奶和牛奶→面包设最鸡蛋等需要将数据转换为适合Apriori算项集生成候选2项集,计算支持度并筛选出小置信度为60%,如果规则尿布→啤酒法处理的格式,每个交易表示为商品集合频繁2项集;继续迭代直到无法生成更多频的置信度为75%,表示购买尿布的顾客中有繁项集75%同时购买了啤酒,这条规则将被保留算法FP-Growth树构建频繁模式提取与的比较FP Apriori树是一种紧凑的数据结构,用于存储事采用分治策略递归地挖掘频相比有显著优势FP FP-Growth FP-Growth Apriori务数据库中的频繁模式信息构建步骤繁模式只需扫描数据库两次,而需多•Apriori•构建项头表,链接树中相同项的节点次扫描•扫描数据库,确定每个项的支持度无需生成候选项集,避免组合爆炸问••删除非频繁项,按支持度降序重排项•对每个项,提取条件模式基(前缀路题目径)使用紧凑数据结构,大幅减少内存占••创建FP树根节点,标记为null•构建条件FP树,递归挖掘用•对每个重排后的事务,将项插入树中•将当前项与条件树中的频繁模式组合•对长频繁模式和大型数据库性能更优•相同前缀路径共享节点,节点记录计•不断递归直到条件树为空或只有单路•适合稀疏和密集数据,而Apriori更适数径合稀疏数据序列模式挖掘算法算法1GSP2PrefixSpan广义序列模式Generalized前缀投影算法通过递归构造投影数据Sequential Pattern算法是库来高效挖掘序列模式对于每个频Apriori思想在序列数据中的扩展繁项,它创建一个以该项为前缀的条它通过多次数据库扫描,采用候选生件投影数据库,然后递归地挖掘更长成-测试的方式,逐级发现频繁序列模式PrefixSpan避免了候选生成,模式GSP遵循Apriori的单调性原数据库投影机制大大减少搜索空间,则,任何非频繁序列的超序列都是非是一种更高效的序列模式挖掘方法,频繁的虽然思路简单,但生成大量特别适合长序列或大型数据库候选序列会导致效率问题应用场景3序列模式挖掘广泛应用于多个领域在电子商务中分析客户购买序列,预测下一次可能购买的商品;在网页访问分析中发现用户浏览路径,优化网站结构;在生物信息学中识别DNA或蛋白质序列模式;在金融领域检测股票市场交易模式;在医疗健康跟踪患者治疗过程和疾病发展规律第六章异常检测异常检测是识别数据集中偏离正常行为模式的观测值的过程这些观测值通常称为异常值、离群点或异常,它们可能表示系统错误、传感器故障、人为操作失误,或在某些情况下代表重要的新发现或商业机会不同类型的异常检测方法适用于不同数据特性和应用场景异常检测概述定义与应用挑战与难点常见方法分类异常检测是指识别与大多数数据显著不同异常检测面临的主要挑战包括根据检测策略,异常检测方法可分为的观测值这些异常可能代表正常行为边界难以精确定义监督方法需要标记的正常与异常样••金融欺诈交易本•正常模式可能随时间演变•网络安全入侵半监督方法仅使用正常样本训练•异常与噪声难以区分••医疗健康异常无监督方法无需任何标记数据•标记数据获取困难且成本高••制造质量问题•高维数据的维度灾难•按技术类型分为统计方法、基于距离/•传感器故障不同应用域需要特定的异常定义密度/聚类的方法、机器学习方法等•科学发现中的新现象•统计方法参数方法非参数方法、箱线图Z-score假设数据服从特定概率分布如正态分布,估计分不对数据分布做强假设,通过估计概率密度或统计简单有效的单变量异常检测方法布参数后识别异常特性检测异常Z-score Z=x-μ/σ,|Z|3通常被视为异•高斯模型假设数据服从正态分布,计算每个•直方图方法将数据划分为桶,低频桶中的点常点的概率密度视为异常箱线图IQR法则•混合高斯模型使用多个高斯分布的加权组合•核密度估计使用核函数平滑估计概率密度•计算四分位数Q
1、Q2中位数、Q3•K最近邻分析点与其邻居的距离关系•计算四分位距IQR=Q3-Q1•回归模型建立回归关系,分析残差识别异常优点是灵活适应各种数据分布;缺点是计算开销大,•异常界限[Q1-
1.5*IQR,Q3+
1.5*IQR]难以处理高维数据•超出界限的点视为异常优点是理论基础扎实,易于解释;缺点是分布假设可能不符合实际数据特性基于距离的方法计算距离排序距离值测量数据点之间的距离或相似度根据某种距离度量标准排列数据点优化参数识别异常调整阈值或K值以提高检测准确率将远离大多数点的数据标记为异常K-近邻距离是最直观的方法,计算数据点到其第K个最近邻的距离,距离较大的点被视为异常这种方法简单有效,但计算复杂度高,且难以处理变密度数据局部离群因子LOF通过比较数据点的局部密度与其邻居的局部密度来检测异常如果一个点的局部密度显著低于其邻居,则该点可能是异常LOF能够处理不同密度区域的异常,但计算开销大,且参数K的选择影响检测结果DBSCAN变体利用密度可达性概念,将无法归入任何簇的点标记为异常这种方法能够发现任意形状的簇,并自然地处理噪声,但参数设置需要专业知识,且在高维空间中效果可能下降基于密度的方法算法算法OPTICS DENCLUE有序点识别聚类结构是的扩展,能够处理变基于密度的聚类使用核密度估计OPTICS DBSCANDENsity-based CLUstEring密度数据它不直接生成聚类结果,而是创建一个点的排序,帮技术,将数据点视为影响函数的中心,通过这些函数的叠加构建助理解数据的聚类结构整体密度函数OPTICS的核心概念包括关键步骤包括•核心距离使点成为核心点所需的最小半径•使用高斯或其他核函数估计每个点的影响•可达距离从一个核心点到其他点的距离度量•结合所有点的影响函数,形成整体密度函数•可达性图展示点的密度可达关系•寻找密度函数的局部最大值(密度吸引子)•将点分配到最近的密度吸引子通过分析可达性图的山谷和峰值,可以识别出密集区域和稀疏区域,进而发现异常点•密度远低于阈值的区域中的点被视为异常能够处理任意形状的簇和噪声,且数学基础扎实,但DENCLUE计算复杂度高基于聚类的方法小簇检测这种方法基于一个假设正常数据点属于大型密集簇,而异常点形成非常小的簇或独立存在首先使用聚类算法(如K-means、DBSCAN或层次聚类)将数据分组,然后分析簇的大小和密度特性小于特定阈值大小的簇被标记为异常簇,这些簇中的所有点都被视为异常这种方法简单高效,但选择合适的聚类算法和确定异常簇的阈值较为困难聚类局部异常因子-based这种方法结合了聚类和局部异常检测的思想首先,使用聚类算法将数据点分组;然后,对于每个簇,计算其内部数据点的局部异常因子这种方法不仅考虑数据点与簇的关系,还分析点在簇内的分布情况对每个簇使用不同的异常检测参数,可以更好地适应不同密度和形状的数据区域Cluster-Based LocalOutlier FactorCBLOF是一种典型实现,它考虑点到最近簇的距离和簇的大小基于聚类的异常评分这类方法为每个数据点分配异常评分,而不是二元的异常/正常标签评分通常基于点与其所属簇中心的距离、点与最近簇中心的距离比率,或点在簇中的相对位置等因素异常评分提供了更细粒度的异常度量,便于设置灵活的阈值或对异常进行排序这种方法的优势在于可提供异常检测的置信度,帮助分析师优先处理最可能的异常,但计算复杂度较高且需要更多的参数调整第七章推荐系统混合推荐组合多种推荐方法,扬长避短协同过滤基于用户行为和偏好的相似性内容基础推荐基于项目特征和用户偏好的匹配基于知识的推荐利用领域知识和规则推理推荐系统概述应用场景冷启动问题推荐系统已成为现代信息过滤和个性化冷启动是推荐系统面临的主要挑战,主服务的核心技术,广泛应用于多个领域要包括三种情况新用户冷启动(没有电子商务平台利用它推荐相关商品,提用户历史行为数据)、新物品冷启动高销售转化率;视频和音乐流媒体服务(新加入系统的物品没有交互数据)和通过它提供个性化内容;新闻和社交媒新系统冷启动(整个系统缺乏足够的交体使用它过滤和排序信息流;旅游网站互数据)常见解决方案包括请用户应用它推荐目的地和酒店;在线教育平填写兴趣问卷;利用用户人口统计学特台则借助它推荐适合学习者水平的课程征;基于内容的推荐方法;引入专家知识;社交网络信息借鉴;主动学习策略等评价指标推荐系统的评价涉及多个维度准确性指标包括均方根误差RMSE、平均绝对误差MAE、精确率、召回率和F1值;覆盖率衡量推荐系统能够覆盖的物品比例;多样性测量推荐列表中物品的差异程度;新颖性评估推荐物品对用户的惊喜度;可解释性考察系统提供推荐理由的能力;实时性关注系统响应速度;商业指标如点击率CTR和转化率也是关键考量协同过滤基于用户的协同过滤基于物品的协同过滤矩阵分解方法原理假设相似用户有相似偏好,推荐相似原理假设相似物品受到相似评价,推荐与原理将用户-物品评分矩阵分解为低维潜在用户喜欢但目标用户未接触的物品用户已喜欢物品相似的其他物品因子矩阵,捕捉用户和物品的潜在特征关键步骤关键步骤常见方法•计算用户间相似度余弦、皮尔逊相关系•计算物品间相似度•奇异值分解SVD数等•找出与用户已评分物品最相似的物品•非负矩阵分解NMF•找出与目标用户最相似的K个用户•基于用户对相似物品的评分预测未评分物•隐语义模型LFM•基于相似用户的评分预测目标用户对未评品评分交替最小二乘法•ALS分物品的评分•推荐预测评分最高的物品优点能处理稀疏矩阵,降低维度,捕捉隐•推荐预测评分最高的物品优点物品相似度相对稳定,计算效率更高;含信息;扩展性好;缺点解释性较差,需优点简单直观,不需要物品内容信息;缺适用于物品远少于用户的场景如亚马逊要调整参数点用户数量大时计算量大,稀疏矩阵问题内容基础推荐TF-IDF词频-逆文档频率是内容特征提取的经典方法它由两部分组成TF词频衡量词在文档中出现的频率,计算公式TF=词在文档中出现次数/文档中词总数IDF逆文档频率衡量词的重要性,计算公式IDF=log总文档数/包含该词的文档数TF-IDF=TF*IDF,这个值高表示词在当前文档中频繁出现但在其他文档中较少出现,具有较强区分性余弦相似度用于衡量两个向量间的相似性,在内容推荐中常用于比较物品或用户特征向量公式cosθ=A·B/||A||*||B||其中A·B是向量点积,||A||和||B||是向量范数余弦值范围从-1到1,越接近1表示越相似在文本分析中,由于权重通常非负,所以取值范围为0到1这种方法可以有效处理高维稀疏数据,不受向量长度影响,特别适合文本相似度计算主题模型通过无监督学习发现文本中隐含主题的统计模型,主要有潜在语义分析LSA使用奇异值分解降维,捕捉词-文档矩阵中的隐含语义关系概率潜在语义分析PLSA引入概率框架,将文档表示为主题概率分布潜在狄利克雷分配LDA增加狄利克雷先验,更完整的生成式概率模型,可推断文档主题分布和主题词分布这些模型帮助理解内容深层语义,提高推荐质量混合推荐方法加权混合特征组合最直接的混合方法,将不同推荐算法的结果按一定权将不同推荐方法产生的特征合并,作为单一推荐模型重组合的输入工作原理工作原理•各推荐器独立生成推荐分数•协同过滤提取用户-物品交互特征•使用加权函数组合分数score=w₁·score₁•内容分析提取物品属性特征+w₂·score₂+...•将所有特征合并为统一向量•权重可以固定或根据用户/物品特性动态调整•使用机器学习模型如随机森林、深度学习学习最终推荐函数优点实现简单,易于调整各算法贡献;缺点需要不同算法输出分数在相同尺度上优点可捕捉特征间复杂交互;缺点需要强大的模型和更多数据级联混合采用多阶段推荐策略,各推荐器依次精炼结果工作原理•第一阶段推荐器生成候选集•第二阶段推荐器对候选集进行重排序或筛选•可以有多个阶段,每阶段使用不同算法例如内容推荐器先生成广泛候选集,协同过滤再根据用户偏好精细排序优点计算效率高,可结合多种算法优势;缺点前期错误会影响后续结果第八章时间序列分析时间序列分析是对按时间顺序收集的数据点进行分析的方法,广泛应用于经济预测、销售分析、股票市场分析、气象学、信号处理等领域时间序列数据的独特性在于观测值之间存在时间依赖关系,这使得分析方法需要特别考虑数据的时序特性有效的时间序列分析能够帮助我们理解历史模式、预测未来趋势、发现异常事件时间序列特征趋势季节性周期性和随机性时间序列的长期变化方向,反映数据的长指时间序列在固定时间周期内(如每天、周期性指非固定间隔的波动,通常持续时期增长或下降模式每周、每月或每年)重复出现的模式间较长,如经济繁荣与萧条周期趋势可以是线性的(稳定增长或下降),与季节性不同,周期性的长度和幅度不规也可以是非线性的(加速或减速变化)季节性变化通常由外部因素驱动,如气候则,难以预测,通常受更复杂的经济或系变化、假日、工作日/周末循环等统因素影响在分析中,我们通常使用移动平均或回归方法来识别和提取时间序列的趋势成分季节性可以通过观察自相关函数或傅里叶随机性(噪声)是时间序列中不规则的、分析来识别,通常使用季节差分或季节分不可预测的波动,代表了无法由模型解释解方法处理的变化趋势分析对于长期决策和战略规划至关重要,如销售预测、人口增长分析等理解季节性对于短期规划和资源分配非常高随机性使预测变得困难,需要使用平滑重要,如零售业的节日库存管理技术或更复杂的随机过程模型处理时间序列预处理缺失值处理异常值检测数据平滑时间序列中的缺失值会打断时间序列中的异常值会扭曲平滑技术用于减少噪声,突数据连续性,影响模型性能分析结果,影响模型准确性出时间序列的主要特征常用处理方法包括检测方法包括•统计方法Z-分数、修•简单移动平均计算固•前向填充使用缺失值正Z-分数、离群点因子定窗口内的平均值前的最后一个有效值•基于预测使用预测模•加权移动平均赋予不•线性插值基于相邻有型,识别与预测值显著同时间点不同权重效值线性估计偏离的点•指数平滑给予近期数•季节性调整插值考虑•分解方法分离趋势、据更高权重季节模式的插值季节性后检测残差中的•LOESS平滑局部加权异常•基于模型的填充使用回归平滑ARIMA等模型预测缺•基于密度局部密度异•小波变换多分辨率分失值常检测析,保留信号特征同时去除噪声时间序列预测模型移动平均法简单直观的预测方法,使用过去固定窗口期内的数据点平均值作为预测值适用于无明显趋势和季节性的短期预测•简单移动平均SMA所有观测值权重相等•加权移动平均WMA近期观测值权重更高优点计算简单,易于实现;缺点无法捕捉趋势和季节性模式指数平滑法对历史数据应用递减的权重,越近期的数据权重越高•简单指数平滑SES适用于无趋势无季节性数据•Holt线性趋势处理带趋势的时间序列•Holt-Winters季节性同时处理趋势和季节性优点易于更新,能适应数据变化;缺点参数选择可能困难模型ARIMA自回归综合移动平均模型,结合自回归AR、差分I和移动平均MA组件ARIMAp,d,q参数•p自回归项数,表示当前值与过去值的相关性•d差分次数,使时间序列平稳化•q移动平均项数,表示当前值与过去预测误差的关系季节性ARIMASARIMA进一步扩展处理季节性数据优点理论完善,适应性强;缺点需要平稳数据,参数确定复杂第九章文本挖掘高级文本分析情感分析、主题模型、文本分类文本表示词袋模型、、词嵌入TF-IDF文本预处理分词、去停用词、词形还原文本收集4爬虫、、数据库导出API文本预处理分词分词是文本预处理的基础步骤,将文本切分为有意义的基本单位(词语或短语)中文分词尤为重要,因为中文文本没有明显的词语边界常用的中文分词方法包括基于字典的最大匹配法(正向/逆向),统计方法如隐马尔可夫模型HMM和条件随机场CRF,以及近年来基于深度学习的分词方法常用工具包括jieba、THULAC、NLPIR等分词质量直接影响后续分析的准确性停用词去除停用词是文本中频繁出现但对分析意义不大的词,如的、了、是等虚词,标点符号,以及一些高频但无特定语义的词去除停用词可以减少数据维度,提高计算效率,并专注于更有意义的内容停用词表的选择应根据具体任务调整,例如在情感分析中,否定词不、没有虽为常见虚词但意义重大,不应被删除有时还需要针对特定领域定制停用词表词形还原词形还原旨在将不同形态的词转换为其基本形式,便于统一分析中文中主要包括同义词合并(如开心和高兴)、繁简转换、全角半角转换、大小写统一等虽然中文没有英文那样的词形变化(如单复数、时态),但仍需处理一词多义、多词一义等现象词形还原有助于减少维度,聚合相似语义,提高后续分析效果常用工具有中文同义词词林、HowNet等资源辅助实现文本表示词袋模型TF-IDF Word2Vec最基本的文本表示方法,将文档表示为词对词袋模型的改进,考虑词在文档中的重基于神经网络的词嵌入方法,将词映射到汇表中各词出现次数的向量要性低维连续向量空间,保留语义关系工作原理TF词频词在文档中出现频率,计算公两种训练模型式为词在文档中出现次数tft,d=t d•创建词汇表(所有文档中出现的唯一词•CBOW连续词袋使用上下文预测文档中词总数/d集合)目标词逆文档频率衡量词的普遍重要性,•每个文档表示为词汇表大小的向量IDF•Skip-gram使用目标词预测上下文计算公式为总文档数包idft=log/•向量中每个元素表示对应词在文档中的训练后的词向量具有惊人的语义特性,如含词的文档数t出现次数王男女后-+≈,值越高表示词对文TF-IDF=TF*IDF优点简单直观;缺点忽略词序和语义,优点捕捉语义关系,低维稠密表示;文档越重要维度高且稀疏档表示可通过词向量平均等方法获得优点减轻了常见词的权重,突出特征词;缺点仍忽略词序和上下文主题模型LSA PLSA潜在语义分析Latent Semantic概率潜在语义分析Probabilistic LSAAnalysis是最早的主题模型之一,基于在LSA基础上引入概率框架,将文档生成奇异值分解SVD技术LSA将文档-词建模为概率过程PLSA假设文档包含多矩阵分解为三个矩阵的乘积,通过降维保个隐含主题,每个主题由词的概率分布表留主要语义信息这种方法能够发现词与示模型通过最大似然估计和期望最大化词之间的潜在关联,克服词袋模型中的同EM算法学习主题分布PLSA相比义词问题(不同词表达相同概念)和多义LSA有更坚实的统计基础,能够给出主题、词问题(同一词有多种含义)LSA简单文档和词之间关系的概率解释,但仍存在高效,但缺乏理论解释,且难以确定最佳过拟合风险,且缺乏生成新文档的机制主题数量LDA潜在狄利克雷分配Latent DirichletAllocation是目前最流行的主题模型LDA在PLSA基础上增加了狄利克雷先验分布,形成完整的贝叶斯框架模型假设每个文档是主题的混合,每个主题是词的概率分布生成过程先从狄利克雷分布采样得到文档-主题分布,再从多项分布采样得到主题-词分布LDA能够有效避免过拟合,支持新文档推断,提供直观的主题解释,广泛应用于文本聚类、信息检索和推荐系统等领域情感分析词典方法机器学习方法基于预定义情感词典和规则的情感分析方法使用标注数据训练分类器进行情感识别工作流程常用步骤•建立或获取情感词典,词典中每个词有情感极性正面•准备带情感标签的训练数据/负面和强度•特征提取词袋模型、TF-IDF、n-gram等•对文本进行分词和词性标注•训练分类器朴素贝叶斯、SVM、决策树等•匹配情感词典,计算情感得分•使用训练好的模型预测新文本情感•考虑否定词、程度副词等修饰成分对情感的影响优点性能好,可适应特定领域;缺点需要大量标注数据,•汇总得分判断整体情感倾向特征工程复杂优点不需要标注数据,可解释性强;缺点创建词典耗时,对新词和行业术语覆盖不足深度学习方法利用神经网络自动学习文本特征和情感表示主要模型•卷积神经网络CNN捕捉局部语义特征•循环神经网络RNN/LSTM/GRU处理序列依赖关系•注意力机制关注重要词语和上下文•预训练语言模型BERT/GPT迁移学习提高性能优点自动特征学习,处理复杂语义;缺点计算资源需求大,需要大量数据,解释性差第十章数据可视化可视化选择交互设计色彩运用选择合适的可视化类型是数据呈现的关键现代数据可视化注重交互性,使用户能够主色彩是可视化的重要元素,需要遵循基本原数据类型决定了适用的图表分类数据适合动探索数据常见交互功能包括筛选(根则选择合适的色彩映射(分类数据使用离条形图、饼图;时间序列数据适合折线图、据条件显示数据子集)、缩放(观察不同粒散色彩,连续数据使用渐变色);确保色彩面积图;相关性分析适合散点图、热图;地度的数据)、钻取(从概述深入到细节)、对比度适当,增强可读性;考虑色盲友好设理数据适合地图、气泡图目标用途也很重排序(重新组织数据视图)、工具提示(鼠计,避免仅用红绿区分;控制色彩数量,避要比较数据用条形图,显示趋势用折线图,标悬停显示详情)以及视图联动(多图表协免过度使用导致视觉混乱色彩还可以编码展示分布用直方图,呈现部分与整体关系用同更新)好的交互设计能增强数据探索体数据的额外维度,如使用色彩饱和度表示数饼图或树状图验,揭示更深层的洞察据确定性可视化基础数据类型与图表选择色彩运用不同数据类型适合不同可视化方式色彩是数据编码的重要维度•分类数据条形图、饼图、雷达图•定性色彩区分不同类别(蓝、红、绿...)•数值数据直方图、盒须图、点图•定量色彩表示数值大小(浅到深)•时间序列折线图、面积图、日历热图•关注可访问性考虑色盲用户•多变量关系散点图、气泡图、平行坐标图1•对比度确保文本与背景区分度高•层次数据树状图、旭日图、网络图•一致性保持色彩映射的一致性注释与上下文交互设计帮助用户理解可视化内容交互增强用户探索数据的能力•明确标题和轴标签•过滤与查询允许用户筛选感兴趣数据•提供数据来源和背景信息•缩放与导航观察不同细节层次•合理使用图例解释编码•排序与重组不同方式整理数据•突出显示重要见解•详情即时查看悬停获取更多信息•添加解释性文本指导解读•动画转换展示数据变化常用可视化工具Matplotlib SeabornPlotlyPython数据可视化的基础库,基于Matplotlib构建的高级统计强大的交互式可视化库,同时支几乎所有其他Python可视化库绘图库,专注于数据探索和统计持Python、R和JavaScript都构建在它之上提供了对图表可视化提供了简洁的API创建Plotly创建的图表可以保存为各个元素的精细控制,可以创建美观统计图表,内置多种调色板HTML文件,支持缩放、平移、出版物质量的静态图表语法灵和样式主题Seaborn特别擅长数据筛选等交互功能其特色在活但相对复杂,适合有编程基础处理数据框架,轻松创建复杂的于丰富的交互性能、3D图表支持、的用户Matplotlib的优势在于统计图形如热图、密度图、成对金融图表模板和地理空间可视化高度可定制性和广泛支持,缺点关系图等其预设的样式美观,Plotly的图表可直接集成到是学习曲线陡峭,默认样式较为适合快速生成探索性分析图表,Dash框架中创建数据分析应用朴素,创建交互式图表能力有限但自定义灵活性不如Matplotlib缺点是库体积较大,简单任务上可能显得过于复杂Tableau商业智能和数据可视化专业工具,以拖放界面著称,几乎不需要编程知识Tableau强调视觉分析和商业洞察,支持连接多种数据源,创建交互式仪表板它的设计注重数据故事讲述,提供强大的地理可视化和商业报表功能作为商业软件,Tableau提供专业技术支持,但成本较高,对大规模自动化分析任务的编程支持有限高维数据可视化主成分分析PCA t-SNEPCA是一种线性降维技术,通过正交变换t-分布随机邻域嵌入t-SNE是一种非线将可能相关的变量转换为线性不相关的变性降维技术,专为高维数据可视化设计量集合它寻找数据方差最大的方向(主它通过保持数据点间的局部相似性,将高成分),并将数据投影到这些方向上维数据映射到低维空间t-SNE的核心思PCA计算高效,易于理解,保留了数据的想是在高维和低维中使概率分布相似,特全局结构,但无法处理非线性关系它特别擅长保留聚类结构,揭示数据的局部模别适合处理噪声数据,因为低方差的主成式它的优势在于优美直观的可视化效果,分通常对应噪声,可以被舍弃在可视化尤其适合展示聚类和分离模式;缺点是计中,通常选取前2-3个主成分,将高维数算复杂度高,结果受超参数影响大,且不据映射到2D或3D空间展示保留全局结构,不适合用于进一步分析UMAP统一流形近似和投影UMAP是最新的降维技术之一,基于流形学习和拓扑数据分析UMAP在保持局部和全局结构方面取得了平衡,比t-SNE运行更快,且能更好地保持某些全局关系它构建数据的高维拓扑表示,然后寻找低维空间中最佳的近似表示UMAP具有坚实的数学基础,支持监督降维,并且可扩展到大型数据集它越来越成为探索性数据分析和机器学习可视化的首选工具,尤其在基因组学和单细胞分析领域应用广泛课程总结1015+核心章节关键算法系统覆盖数据挖掘全流程从分类、聚类到高级文本分析100+实用技巧直接应用于实际数据分析场景通过本课程,我们全面回顾了数据挖掘的核心概念、方法和技术从数据预处理的基础工作到复杂的模型构建,从经典算法到前沿技术,系统性地构建了数据挖掘的知识体系数据挖掘作为数据科学的核心,其重要性随着数据规模的增长而日益凸显未来,数据挖掘将继续朝着几个方向发展自动化机器学习使复杂模型构建变得更加简单;可解释AI增强模型透明度;联邦学习和隐私保护挖掘技术应对隐私合规要求;实时分析技术适应流数据挖掘需求;多模态数据融合方法整合文本、图像、视频等不同类型数据在课程的最后,我们鼓励大家积极实践,将所学知识应用到实际问题中,不断提升数据分析能力如有任何问题,欢迎在QA环节提出,我们将一一解答祝愿大家在数据挖掘的旅程中取得成功!。
个人认证
优秀文档
获得点赞 0