还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据挖掘技巧复习课件欢迎参加数据挖掘技巧复习课程本课程旨在帮助学生系统地掌握现代数据挖掘的核心概念、常用算法及实际应用技术通过本课程的学习,您将能够处理各类复杂数据,发现隐藏在数据背后的模式和知识,并将这些发现应用到实际问题中课程内容涵盖从基础理论到前沿技术的全方位知识体系,包括数据预处理、分类、聚类、关联规则挖掘、回归分析、异常检测等经典技术,以及文本挖掘、挖掘和大数据挖掘等应用领域Web课程概述课程目标内容安排12通过系统学习,使学生掌握数课程分为十二章,涵盖数据挖据挖掘的基本概念、理论和方掘基础知识、数据预处理、分法,能够运用数据挖掘技术解类技术、聚类分析、关联规则决实际问题培养学生的数据、回归分析、异常检测、时间分析能力和创新思维,为后续序列分析、文本挖掘、挖Web深入研究和实际工作奠定基础掘、大数据挖掘技术以及前沿技术与伦理问题考核方式3考核采用多元化评价方式,包括平时作业()、项目实践(30%30%)和期末考试()平时作业主要检验基础知识掌握情况,项目40%实践重在应用能力考核,期末考试综合评价理论知识的掌握程度第一章数据挖掘概述什么是数据挖掘数据挖掘的应用领域数据挖掘的发展历程数据挖掘是从大量数据中提取隐含的数据挖掘已广泛应用于商业智能、金从世纪年代初期的简单统计分析
2090、先前未知的、潜在有用的信息和知融分析、医疗健康、社交网络、电子,到如今融合深度学习的复杂模型,识的过程它是一个多学科交叉领域商务、科学研究等众多领域它帮助数据挖掘经历了数据库驱动阶段、机,结合了统计学、机器学习、数据库企业制定策略、预测趋势、改善服务器学习融合阶段和大数据时代三个主技术和模式识别等多种技术质量和提高决策效率要发展阶段,技术不断革新数据挖掘的基本任务分类聚类关联规则预测分类是预测性数据挖掘任务,其聚类是一种描述性数据挖掘任务关联规则挖掘旨在发现数据集中预测任务旨在根据历史数据估计目标是学习一个映射函数,将数,目的是将数据对象分组,使得项目之间的关联关系,表示为如未来值或未知值,包括回归(预据实例分配到预定义的类别标签同一组内的对象相似度最大,不果发生,则也可能发生这样测连续值)和时间序列预测应A B中常见应用包括垃圾邮件过滤同组间的对象相似度最小常用的规则广泛用于购物篮分析、用于股票价格预测、天气预报、、情感分析、疾病诊断等分类于客户细分、异常检测、图像分交叉销售、产品推荐等商业场景销售预测等领域常用的预测方算法包括决策树、朴素贝叶斯、割等场景代表算法有和是常用算法有线性回归、模型等K-means Apriori FP-Growth ARIMA支持向量机等、等法DBSCAN数据挖掘的一般流程问题定义首先明确业务目标和数据挖掘目标,确定期望解决的问题类型和成功标准这一阶段需要充分理解业务领域知识,与领域专家密切沟通,将业务问题转化为数据挖掘问题数据准备包括数据收集、数据清洗、数据集成、数据变换和数据归约这是整个挖掘过程中最耗时但也最关键的环节,高质量的数据是成功挖掘的基础数据探索通过统计分析和可视化技术对数据进行初步探索,了解数据分布特征、属性间关系以及潜在的模式,为后续建模提供指导建模选择适当的挖掘技术和算法构建模型,包括参数设置和模型训练通常需要尝试多种算法并比较其效果,找出最适合当前问题的方法模型评估使用适当的评估指标评价模型性能,验证模型是否达到业务目标若模型性能不理想,可能需要返回前面步骤重新调整模型部署将成功的模型集成到业务决策流程中,生成报告或实现自动化预测系统,并进行持续监控与维护,确保模型长期有效第二章数据预处理数据归约减少数据量但保持完整性1数据变换2转换为适合挖掘的形式数据集成3合并多源数据数据清洗4处理不完整与不一致数据数据预处理是数据挖掘过程中至关重要的步骤,占据了整个挖掘过程约的工作量高质量的数据预处理能显著提高挖掘结果的质量和可靠性60-70%数据清洗处理缺失值、噪声和不一致数据;数据集成将多个数据源合并;数据变换将数据转换为适合挖掘的形式;数据归约通过降维或样本归约减少数据量但保持完整性和代表性良好的预处理策略需要基于数据特征和挖掘目标灵活选择数据清洗技术缺失值处理噪声数据处理数据集中的缺失值是常见问题,主噪声是数据中的随机错误或变异,要处理方法包括删除含缺失值的处理方法有分箱法,将连续数据记录,适用于缺失率低且数据量大分段平滑;回归分析,用回归函数的情况;填充缺失值,可使用均值拟合数据;聚类,识别和移除离群、中位数、众数或基于模型预测值点;使用无监督或有监督学习方法填充;将缺失视为特殊值,作为一,如异常检测算法发现并处理异常个单独类别处理不同场景应选择值正确处理噪声可提高模型稳定合适策略性不一致数据处理数据不一致通常源于数据集成或用户输入错误,包括编码不一致、单位不一致、重复记录等处理方法包括定义并应用一致的编码规则;统一度量单位;去除冗余或重复记录;使用领域知识校正逻辑错误确保数据一致性是获得可靠挖掘结果的基础数据集成方法冗余属性检测2发现并处理重复属性实体识别1识别不同来源的相同实体数据值冲突检测与解决处理数据源间的不一致3数据集成将多个数据源合并为一致的数据存储实体识别是数据集成的首要任务,通过元数据分析或相关性分析识别不同来源的相同实体,常用技术包括记录链接和实体解析冗余属性检测通过相关性分析识别派生属性或冗余属性对于数值属性,可使用相关分析检测相关度;对于名义属性,可使用卡方检验或其他统计方法计算关联程度高度相关的属性可能存在冗余数据值冲突处理涉及解决同一实体在不同源中的不一致表示可通过元数据信息(如时间戳选择最新数据)或统计方法(如取均值、中位数)解决冲突复杂情况下可能需要人工干预或专家知识数据变换技术概念分层生成构建属性值的分层关系离散化将连续值转换为区间标签规范化调整数据至相同尺度数据变换将原始数据转换为更适合挖掘的形式规范化是最常用的变换方法,将属性数据按比例缩放到特定范围,常见的有最小最大规范化(线性-变换到区间)、标准化(转换为均值、标准差的分布)和小数定标规范化[0,1]Z-score01离散化将连续属性值转换为离散的区间标签,简化了数据并增强了可解释性方法包括等宽分箱、等频分箱、基于聚类的分箱和基于熵的离散化不同的离散化策略适用于不同的数据分布特征概念分层生成建立属性值的分层关系,使数据可在不同抽象层次上考察可通过规则、数据分布分析或特征关系自动生成概念层次,为多层次数据挖掘提供支持数据归约策略维规约数量规约数据压缩通过特征选择或特征提取减少数据维度通过抽样减少记录数量简单随机抽样将数据转换为占用更少空间的表示形式特征选择保留最相关的原始属性,包从原始数据集随机选择样本;分层抽样无损压缩完全保留原始信息,如基于括过滤法、包装法和嵌入法;特征提取保持类别比例;渐进抽样逐步增加样本位图索引的方法;有损压缩允许部分信创建新的低维特征,包括主成分分析直至结果稳定;聚类抽样先聚类后从每息损失,如小波变换、傅里叶变换和主、奇异值分解和流形学习个簇选择代表性样本合适的抽样策略成分分析等在海量数据场景下,压缩PCA SVD等维规约解决了维度灾难问题能保持数据代表性同时提高处理效率技术能显著减少存储和计算开销第三章分类技术(上)决策树1决策树是一种树形结构分类器,通过特征的逐步划分将数据分类其优势在于模型直观可解释,能自动进行特征选择、和是ID3C
4.5CART朴素贝叶斯经典的决策树算法,分别使用信息增益、增益率和基尼系数作为特征选2择标准朴素贝叶斯基于贝叶斯定理,假设特征间条件独立虽然独立性假设在实际中常被违反,但模型仍表现良好,特别是在文本分类领域优点是计算高效、参数少,适用于高维数据和较小训练集算法KNN3最近邻算法是一种基于实例的懒惰学习方法,通过计算测试样本与训K练样本的距离,将其分类为个最近邻中出现最多的类别无需训K KNN练,直接利用训练数据进行预测,但预测时计算成本高,且对值选择K敏感决策树算法19891993算法算法ID3C
4.5由提出,基于信息增益选是的改进版,使用增益率而非信息增ID3Ross QuinlanC
4.5ID3择最优特征建树针对离散属性效果好,但益选择特征,解决了对多值属性的偏好ID3不处理连续值,不包含剪枝机制,对缺失值它能处理连续值和离散值,有剪枝机制,允处理能力弱,且信息增益偏向取值较多的属许使用缺失值,支持规则生成,但计算复杂性度较高1984算法CART产生二叉树,使用基尼系数选择最优CART特征和分裂点它支持连续和离散值,通过代价复杂度剪枝生成最优子树,能处理缺失值适用于分类和回归任务,在预测CART性能和计算效率上表现均衡决策树的构建过程特征选择特征选择是决策树构建的关键步骤,直接影响树的结构和性能常用的特征选择度量有信息增益(基于信息熵减少量),选择使样本类别纯度提高最多的特征;增益率(信息增益除以特征熵),避免对多值特征的偏好;基尼系数(衡量集合纯度),选择能最小化样本不确定性的特征树的生成树的生成通常采用递归方式选择最优特征作为节点;将数据集按该特征划分为子集;递归构建子树直至达到停止条件停止条件包括所有样本属于同一类别;没有剩余特征可用;节点中样本数少于阈值自顶向下的贪心构建方法虽高效,但可能导致局部最优解树的剪枝剪枝是避免过拟合的重要技术,分为预剪枝和后剪枝预剪枝在生成过程中提前停止,避免不显著分裂,但可能导致欠拟合;后剪枝先生成完整树,再自底向上评估和裁剪子树,常用方法包括错误率降低剪枝、悲观错误剪枝和代价复杂度剪枝后剪枝通常效果更好但计算成本高朴素贝叶斯分类器基本原理条件独立性假设拉普拉斯平滑朴素贝叶斯基于贝叶斯定理计算后验概率朴素贝叶斯的朴素体现在假设所有特征条件独立在计算条件概率时,如果某个特征值在某类Pxᵢ|c,其中是给定特征向,即这种假中从未出现,会导致概率为零,进而使整个连乘积Pc|x=Px|cPc/Px Pc|x Px|c=Px₁|c×Px₂|c×...×Pxₙ|c量时样本属于类别的概率,是类别下观设大大简化了计算,使得模型能高效处理高维数据为零拉普拉斯平滑通过添加一个小的正数(通常x cPx|c c察到特征向量的概率,是类别的先验概率,虽然实际应用中特征间常存在相关性,但实践表为)到所有计数中解决这个问题x Pcc1Pxᵢ是特征向量的概率分类决策选择使后验概明模型在许多场景中仍然有效,特别是在文本分类,其中是特Px x|c=countxᵢ,c+1/countc+|Vᵢ||Vᵢ|率最大的类别,通常忽略分母因为它对所有类和医学诊断等领域征的可能取值数这种平滑技术确保了模型的稳Px i别都相同健性算法KNN近邻算法是一种基于实例的分类方法,核心思想是物以类聚相似的实例应该属于相似的类别其工作原理是存储所有带标签K——的训练实例;对新实例,计算它与所有训练实例的距离;选择个最近的邻居;将新实例分类为这个邻居中多数类别K K值的选择至关重要过小,模型容易受噪声影响;过大,可能引入来自其他类的样本通常通过交叉验证确定最优值,也可考K K KK虑使用加权投票(距离越近权重越大)改进算法常用距离度量包括欧氏距离、曼哈顿距离、闵可夫斯基距离和余弦相似度等,应根据数据特征选择合适的距离函数第四章分类技术(下)支持向量机()神经网络SVM支持向量机是一种强大的分类器,神经网络由大量相互连接的人工神通过寻找能最大化类别间间隔的超经元组成,能模拟人脑学习复杂模平面进行分类对于线性不可分数式从简单的感知机发展到深层网据,使用核技巧将数据映射到络,神经网络在图像识别、自然语SVM高维空间对小样本学习效果言处理等领域表现卓越其优势是SVM好,泛化能力强,但参数调优复杂建模能力强、适应性高,但训练需,计算开销大,对大规模数据处理要大量数据、计算资源,且模型解挑战较大释性较差集成学习集成学习通过组合多个基础模型提高分类性能主要方法包括(并行Bagging训练多个独立模型如随机森林)、(序列训练,如、Boosting AdaBoost)和(多层模型堆叠)集成方法通常能有效降低方差或偏XGBoost Stacking差,提高模型稳定性和准确性,但增加了模型复杂度和计算成本支持向量机基础软间隔SVM现实数据常包含噪声或异常点,使得数据线性不可分软间隔允许部分样本错误分类或落入SVM核技巧间隔内,引入松弛变量和惩罚参数平衡间隔最C线性可分SVM大化与错误惩罚C值大时,模型倾向于减少错对于线性不可分数据,核技巧将样本隐式映射到线性可分SVM处理完全可通过超平面分离的数据分点;C值小时,更注重间隔最大化,泛化能力高维特征空间,使其在新空间中线性可分常用,目标是寻找具有最大间隔的分离超平面通过可能更强核函数包括线性核、多项式核、高斯径向基函数拉格朗日乘子法转化为对偶问题求解,支持向量核和核核函数选择和参数设置RBF Sigmoid是距离分类边界最近的样本点,仅这些点参与确对性能影响显著,通常需要通过交叉验证选SVM定决策边界,提供了良好的稀疏性择最优配置213神经网络入门感知机1感知机是神经网络的基本单元,由于年提出它模拟单个Frank Rosenblatt1957神经元,接收多个输入信号,加权求和后通过激活函数产生输出感知机能解决线性可分问题,如、逻辑,但无法处理等线性不可分问题,这一局限催AND ORXOR生了多层神经网络的发展多层前馈网络2多层前馈网络由输入层、一个或多个隐藏层和输出层组成,层间神经元全连接,信号单向传播隐藏层使网络能学习复杂的非线性映射关系,理论上具有通用函数逼近能力典型的激活函数包括、和,不同函数有各自优缺点和Sigmoid TanhReLU适用场景反向传播算法3反向传播是训练神经网络的核心算法,通过梯度下降最小化预测值与真实值间的误差算法包括前向传播计算输出,反向传播误差梯度,并更新网络权重学习率、批量大小、权重初始化和正则化等超参数对训练效果影响重大为解决梯度消失/爆炸等问题,衍生出多种优化算法如、等Adam RMSprop集成学习方法Bagging BoostingRandom Forest(是一种序列集成方法,新学随机森林结合了和决策树,Bootstrap AggregatingBagging BoostingBagging)是一种并行集成方法,通过从原始习器重点关注前一学习器表现不佳的通过在每次分裂时随机选择特征子集数据集有放回采样构建多个训练集,样本是经典算法,通过,构建多样化的树模型它继承了决AdaBoost分别训练基学习器,最终通过投票或调整样本权重迭代训练;策树的高可解释性,同时通过平均多Gradient平均合并结果主要降低方通过拟合残差改进模型;棵树的预测降低方差,提高泛化能力Bagging Boosting差,减轻过拟合,提高模型稳定性和等现代实现增随机森林计算效率高,易于并行化XGBoost LightGBM随机森林是的典型代表,它加了正则化和并行计算,显著提升性,对缺失值和异常值鲁棒,能给出特Bagging在每个节点上随机选择特征子集,进能主要降低偏差,能处理征重要性评分,是实践中最受欢迎的Boosting一步增强了多样性复杂决策边界,但可能增加过拟合风集成方法之一险分类器性能评估混淆矩阵准确率、召回率、值曲线与F1ROC AUC混淆矩阵是评估分类器性能的基础工具,展准确率,表示预测曲线描绘了不同阈值下真正例率Precision=TP/TP+FP ROC示预测类别与实际类别的对应关系在二分为正的样本中真正为正的比例;召回率与假正例率TPR=Recall FPR=FP/FP+TN类问题中,它包含四个元素真正例、,表示实际为正的样本的关系曲线越靠近左上角,分类器性能越TP Recall=TP/TP+FN假正例、真负例和假负例混中被正确预测的比例这两个指标通常存在好是曲线下的面积,范围在FP TNFN AUCROC[0,1]淆矩阵提供了全面的分类结果视图,是计算权衡关系值是准确率和召回率的调和平之间,越接近表示分类器性能越好不F11AUC其他评估指标的基础多分类问题使用矩均,受类别不平衡影响,适合评估排序质量和概n×n阵,其中为类别数率预测准确性,是比较不同模型的重要指标n F1=2×Precision×Recall/Precision+Recall,在正负样本不平衡时比简单准确率更有意义第五章聚类分析算法层次聚类1K-means2是最流行的划分聚类算法层次聚类通过构建聚类层次结构,K-means,通过迭代优化将数据划分为个簇可分为凝聚式(自底向上)和分裂K,每次迭代重新计算簇中心并更新式(自顶向下)两种凝聚式从单样本所属的簇算法简单高效,易个样本开始逐步合并,而分裂式从于实现和扩展,计算复杂度较低,整体开始逐步分裂结果通常用树但对初始中心点敏感,只适合发现状图表示,便于可视化和分析层凸形簇,且需要预先指定簇数次聚类不需要预先指定簇数,能发K现任意形状的簇,但计算复杂度较高算法3DBSCAN是一种基于密度的聚类算法,根据邻域密度将数据点分为核心点、边界DBSCAN点和噪声点它能自动确定簇数,发现任意形状的簇,并能识别噪声点与K-相比,对数据分布要求更低,对异常值更鲁棒,但对参数设置较means DBSCAN敏感,且处理高维数据时效果可能下降聚类K-means算法步骤算法执行过程包括随机选择个数据点作为初始聚类中心;将每个K-means1K2数据点分配到距离最近的聚类中心所在的簇;重新计算每个簇的中心点(通常为3均值);重复步骤和直至簇中心点不再显著变化或达到最大迭代次数算法保423证收敛到局部最优解,但可能不是全局最优初始中心点选择初始中心点选择对最终聚类结果影响显著常用策略包括随机选择个K-means K样本作为初始中心;多次运行取最佳结果;算法,通过加权概率选择K-means++相互距离较远的点作为初始中心,提高结果质量和收敛速度;分层采样,先对数据聚类后从子簇中选取初始点合适的初始化能提高收敛速度并避免陷入次优解算法优缺点优点是概念简单,实现容易,计算效率高(时间复杂度接近线性),适K-means合处理大规模数据,且容易与其他算法结合主要缺点包括需要预先指定值;K对初始中心点选择敏感;只适合凸形簇,难以发现任意形状的簇;对噪声和异常值敏感;使用欧氏距离,不适合离散属性或类别数据;难以处理不同大小和密度的簇层次聚类方法分裂式层次聚类2自顶向下逐步分裂凝聚式层次聚类1自底向上逐步合并距离度量选择影响合并或分裂决策3凝聚式层次聚类从将每个样本视为一个簇开始,迭代合并最相似的簇对,直到所有样本合并为一个簇或满足停止条件其一般步骤是计算所有样本对AHC之间的距离矩阵;将每个样本视为一个簇;合并距离最近的两个簇;更新距离矩阵;重复直至达到预定簇数或距离阈值分裂式层次聚类与凝聚式相反,从将所有样本视为一个簇开始,递归地将簇分裂为更小的簇在实践中使用较少,因为初始分裂决策复杂且计算密集距离度量的选择直接影响聚类结果常用的簇间距离度量包括单链接最小距离,适合发现非椭圆形簇但对噪声敏感;完全链接最大距离,产生紧凑簇但对异常值敏感;平均链接,综合考虑所有点对距离;方法,基于方差最小化,通常产生大小相似的簇不同应用场景应选择合适的距离度量Ward密度聚类DBSCAN核心点边界点噪声点DBSCAN基于密度的空间聚类应用噪声是一种流行的密度聚类算法,核心思想是在高密度区域形成簇,低密度区域作为簇的分隔或噪声点算法基于两个关键参数εEps定义邻域半径,MinPts定义成为核心点所需的最小邻居数DBSCAN将数据点分为三类核心点,其ε-邻域内至少有MinPts个点;边界点,不是核心点但在某核心点邻域内;噪声点,既不是核心点也不是边界点算法通过扩展核心点的密度可达关系形成簇,一个簇包含一个核心点及其所有密度可达的点与K-means相比,DBSCAN最大优势是能发现任意形状的簇,不需要预先指定簇数,且对噪声具有良好的鲁棒性但参数选择困难,处理不同密度的簇效果欠佳,对高维数据可能表现不佳(受维度灾难影响),且计算复杂度相对较高OPTICS和HDBSCAN等算法是对DBSCAN的进一步改进聚类有效性评估内部评估指标外部评估指标相对评估指标内部评估指标基于聚类结果本身的特外部评估指标将聚类结果与已知的类相对评估指标比较不同聚类算法或同性评估质量,不需要外部标准常用别标签或参考划分比较主要指标包一算法不同参数设置的结果这类评指标包括轮廓系数括兰德指数和调整兰估通常涉及运行多次聚类,改变参数Silhouette RandIndex,衡量样本与自身所在簇德指数,基于点对分配的一致性或初始条件,然后选择最佳结果常Coefficient ARI的相似度相对于其他簇的相似度;;互信息和标准化互信息,用方法包括聚类稳定性分析,评估MI NMI指数,衡量簇内相似衡量聚类结果与真实类别的信息共享不同初始化条件下结果的一致性;Davies-Bouldin度与簇间差异性;;指数,类似于精评估,通过重采样数据集Calinski-Harabasz Fowlkes-Mallows Bootstrap指数,基于簇内方差与簇间方差比率确率和召回率的几何平均;多次聚类;模型选择技术,如肘部法Jaccard;指数,衡量簇的分离程度这系数,基于簇与类的重叠度外部指则、间隙统计量和等信息准Dunn AIC/BIC些指标通常用于比较不同值或参数标适用于有真实标签的数据集评估则,帮助确定最优簇数或参数配置K设置的聚类结果第六章关联规则挖掘关联规则生成1从频繁项集派生有意义的规则频繁项集生成2发现满足最小支持度的项集兴趣度度量3评估规则的重要性和有用性关联规则挖掘是发现项目间关联的典型数据挖掘任务,最初用于市场购物篮分析形式上,关联规则表示为,意味着包含项集的交易也倾向于包X→Y X含项集规则由前件和后件组成,其中∅Y X Y X∩Y=关联规则挖掘过程通常分两步首先找出满足最小支持度阈值的所有频繁项集;然后基于频繁项集生成满足最小置信度阈值的规则支持度衡support量规则的普遍性,置信度衡量规则的可靠性,提升度则评估项集间的相关程度confidence lift虽然是最经典的关联规则挖掘算法,但其效率问题促使等改进算法的出现关联规则挖掘不仅适用于传统购物篮分析,还广泛应用于AprioriFP-Growth推荐系统、网页点击模式分析、生物信息学等多个领域算法Apriori算法原理算法是发现频繁项集的经典方法,基于频繁项集的所有子集也必须是频Apriori繁的这一关键性质(即原理)该原理的反面是如果某个项集是非频繁Apriori的,则它的所有超集也是非频繁的,这提供了有效的剪枝策略,大大减少了需要探索的候选项集数量候选集生成与剪枝算法通过逐层搜索策略工作首先找出所有频繁项集;然后利用Apriori1-k-1项集生成项候选集;扫描数据库计算候选集支持度;保留满足最小支持度的k项集作为频繁项集;重复过程直到无法生成更多频繁项集候选集生成采用k-自连接操作,而剪枝则利用原理删除包含非频繁子集的候选项Apriori算法优化基本算法的主要瓶颈是多次扫描数据库和产生大量候选集常见优Apriori化包括散列技术,使用散列表过滤候选集;事务压缩,删除不包含频繁项的事务;划分算法,将数据集分区并行处理;抽样技术,在数据子集上挖掘;动态项集计数,减少数据库扫描次数这些技术显著提高了算法性能,特别是对大型数据集算法FP-Growth树构建条件树性能优势FP FP算法通过紧凑的树频繁模式树通过递归构建条件模式基和条件与相比具有显著优势只FP-Growth FPFP-Growth FP-Growth Apriori结构压缩事务数据库树构建过程包括树挖掘频繁模式对每个频繁项(从底部需两次数据库扫描,避免了多次扫描FP FPApriori首先扫描数据库找出频繁项集及其支持度;开始),找出其条件模式基(包含该项的前的开销;无需生成候选集,解决了的1-Apriori根据支持度降序排列频繁项;第二次扫描数缀路径集合);构建条件树;递归挖掘条组合爆炸问题;采用分治策略,将大问题分FP据库,针对每个事务,删除非频繁项,按支件树获取所有频繁模式整个过程是深度解为更小的子问题;使用压缩数据结构,减FP持度降序重排剩余项,并插入树树节点优先的递归模式增长过程,无需产生候选集少内存需求实验表明,特别适FP FP-Growth包含项标识和计数,相同前缀的事务共享树,直接从压缩数据结构中提取频繁模式合处理低支持度阈值和长频繁模式的大型数路径,大大压缩了存储空间据集,性能可比快一个数量级Apriori关联规则评价指标支持度置信度提升度支持度衡量规置信度测提升度评估与的Support ConfidenceLift X Y则在数据集中的普遍性量规则的可靠性或确定实际相关程度,克服了,定义为包含规则中所性,定义为条件概率置信度的局限有项目的事务比例ConfidenceX→Y=LiftX→Y=PY|X/SupportX→Y=PY|X=PY=∪包含和的∪PX Y=XYSupportX Y/ConfidenceX→Y/事务数总事务数高它表示包提升度/SupportX SupportY1支持度表示规则适用于含的事务中同时包含表示正相关,表示独XY=1大部分数据支持度阈的比例高置信度意味立,表示负相关它1值用于筛选频繁项集,着强关联性,但不考虑克服了仅使用支持度和Y过低会产生过多规则,本身的流行度,可能导置信度可能发现误导性过高可能错过有价值但致发现看似强相关但实规则的问题,是评估规不常见的模式际无关的规则则实用性的重要指标关联规则的应用购物篮分析交叉销售商品推荐购物篮分析是关联规则的经典应用,分析顾交叉销售基于已购商品向客户推荐相关商品电子商务平台广泛应用关联规则构建推荐系客同时购买的商品组合通过识别频繁共现,是关联规则的重要商业应用从历史交易统,个性化用户购物体验基于关联规则的的商品,零售商可优化商品布局(相关商品数据中发现的关联模式能指导销售人员制定推荐通常采用购买了此商品的用户也购买了放在附近或分开促进顾客穿行)、设计捆绑推荐策略,如购买电脑的客户可能需要防病形式与协同过滤等方法相比,关联规则...促销活动、制定交叉销售策略例如发现尿毒软件金融机构利用关联规则分析客户购推荐计算简单,可解释性强,能处理冷启动布啤酒这样的非直觉规则,能提供独特的买不同金融产品的模式,推荐信用卡、保险问题许多平台结合多种算法创建混合推荐→营销洞察此类分析帮助零售商提高销售额或投资产品,电信公司则用于设计服务套餐系统,如同时使用关联规则和基于Amazon、优化库存管理和改善顾客体验有效的交叉销售增加客户价值并提高忠诚内容的方法,提高推荐准确性和多样性度第七章回归分析回归分析是一种预测连续目标变量的建模技术,也是数据挖掘中重要的预测性分析方法线性回归是最基础的模型,假设因变量与自变量之间存在线性关系,通过最小二乘法估计参数尽管简单,线性回归对许多实际问题仍有良好效果逻辑回归虽名为回归,实际是一种分类方法,特别适合二分类问题它使用形的函数将线性组合结果映射到区间,表示属于S Sigmoid[0,1]正类的概率模型通过最大化对数似然函数估计参数,常用于风险评估、医疗诊断和市场营销多项式回归通过引入高阶项扩展了线性回归,能拟合非线性关系模型复杂度随多项式阶数增加,具有更强的表达能力,但也更容易过拟合有效使用回归模型需要合理的特征选择、参数调优和交叉验证等技术,确保模型泛化性线性回归模型单变量线性回归单变量线性回归描述一个自变量与因变量间的线性关系,表示为y=β₀+β₁x+ε,其中是因变量,是自变量,是截距,是斜率,是误差项模型假设y xβ₀β₁ε误差项服从均值为的正态分布,且误差项之间相互独立单变量线性回归适用于0探究两个变量间的简单关系,如房屋面积与价格、广告支出与销售额等多变量线性回归多变量线性回归扩展了单变量模型,考虑多个自变量对因变量的影响,表示为y=每个系数表示在其他变量保持不变时,变化β₀+β₁x₁+β₂x₂+...+βₙxₙ+εβᵢxᵢ一个单位对的影响多变量模型能捕捉更复杂的关系,但需注意自变量间的多重y共线性问题,可通过检测并通过特征选择或正则化解决VIF最小二乘法最小二乘法是估计线性回归参数的标准方法,目标是最小化残差平方和OLS∑yᵢ对单变量回归,有闭式解,;对多变量回-ŷᵢ²β₁=Covx,y/Varxβ₀=ȳ-β₁x̄归,矩阵形式为估计在高斯马尔可夫条件下是最佳线性无偏β=XX⁻¹XY OLS-估计实际应用中,需关注模型诊断,如残差分析和异方差性检验,确保BLUE假设成立逻辑回归函数对数似然函数梯度下降优化Sigmoid逻辑回归使用函数(也称为逻辑回归通过最大化对数似然函数估由于逻辑回归的似然函数没有闭式解Sigmoid逻辑函数)将线性组合结果映射到计参数,不同于线性回归的最小二乘,通常采用梯度下降等迭代优化算法区间,表示为法对于二分类问题,对数似然函数求解最优参数梯度下降通过沿似然[0,1]σz=1/1+e^-,其中为函数梯度方向迭代更新参数z z=β₀+β₁x₁+...+βₙxₙLβ=∑[yᵢlogpxᵢ+1-yᵢβ^t+1函数输出可解释为样本属于正类的概,其中是样本属于∇,其中是学习log1-pxᵢ]pxᵢxᵢ=β^t+ηLβ^tη率函数具有形曲正类的预测概率这等价于最小化交率实践中,常用变种如随机梯度下PY=1|X SigmoidS线特征,在中心点斜率最大,两端趋叉熵损失,从信息论角度衡量预测概降和小批量梯度下降提高效率SGD于平坦,体现了概率变化的非线性特率分布与真实分布的差异为防止过拟合,通常加入或正L1L2性则化项,形成或逻辑回归Lasso Ridge多项式回归模型表达过拟合问题12多项式回归通过引入原始特征的高阶多项式阶数增加会提高模型复杂度和项扩展线性模型,表达式为拟合能力,但容易导致过拟合高阶y=β₀+尽管包含多项式可能完美拟合训练数据,但在β₁x+β₂x²+...+βₙxⁿ+ε非线性项,它仍是参数的线性模型,新数据上表现不佳过拟合的征兆包可用普通最小二乘法求解多项式回括系数值异常大;相邻数据点间预归能拟合复杂的非线性关系,如抛物测值剧烈波动;训练误差远小于验证线或形曲线,适用于明显非线性但又误差防止过拟合的方法有选择合S不需要复杂非线性模型的情况适的多项式阶数;使用正则化技术;增加训练样本;采用交叉验证选择最佳模型正则化方法3正则化通过向目标函数加入惩罚项控制模型复杂度回归(正则化)添加系Ridge L2数平方和惩罚,能缩小系数但不会使其精确为;回归(正则化)添加∑βᵢ²0Lasso L1系数绝对值和惩罚,倾向于产生稀疏解,实现特征选择;弹性网络结合两种正∑|βᵢ|则化的优点正则化超参数通过交叉验证选择,平衡拟合度和模型复杂度λ回归模型评估线性回归多项式回归逻辑回归均方误差MSE是回归模型最常用的评估指标,计算为预测值与真实值差异的平方和平均值MSE=1/n∑yᵢ-ŷᵢ²MSE对大误差敏感,惩罚较大偏差相关变体包括均方根误差RMSE和平均绝对误差MAE,RMSE与MSE单位一致,更易解释;MAE对异常值较不敏感决定系数R²衡量模型解释的因变量方差比例,取值范围[0,1],越接近1表示拟合越好R²=1-SSR/SST,其中SSR是残差平方和,SST是总离差平方和R²有时过于乐观,可用调整R²解决,它考虑了模型复杂度R²ₐᵈⱼ=1-[1-R²n-1/n-p-1],其中n是样本数,p是特征数交叉验证是评估模型泛化能力的经典方法,特别是K折交叉验证,将数据分为K份,轮流用K-1份训练,1份验证这种方法利用全部数据,减轻了样本划分的偶然性影响对时间序列数据,应使用时间序列交叉验证,尊重数据时间顺序,避免使用未来数据预测过去第八章异常检测基于距离的方法基于距离的方法假设正常数据点彼此接近,而异常点远离大多数其他点异常检测计算点到其第近KNN k邻的距离作为异常分数;(局部离群因子)比较LOF点的局部密度与邻居的密度,识别相对稀疏区域中的统计方法点;(基于角度的离群度)利用向量角度解决ABOD统计方法基于数据分布特性识别异常参数方法2高维空间中距离计算的问题这类方法对数据分布假假设数据服从特定分布(如正态分布),将偏离设较少,但计算成本高分布期望值超过阈值的观测视为异常;非参数方1法如直方图和核密度估计不假设特定分布形式,基于密度的方法而是直接从数据估计密度统计方法易于理解和基于密度的方法查找低密度区域中的点作为异常实现,但可能无法处理高维数据或捕捉复杂异常3可同时进行聚类和异常检测,将不属于任何DBSCAN模式簇的点标记为噪声;局部离群因子比较点的密度与邻居的密度,适合识别不同密度区域中的异常;孤立森林通过随机构建决策树,利用异常点通常更易被隔离的特性,高效处理高维数据这类方法能发现局部异常和全局异常,但参数设置较复杂统计异常检测参数方法非参数方法参数方法假设数据生成过程遵循特定统非参数方法不假设数据服从特定分布,计分布,如正态分布基于正态分布的而是直接从观测数据估计分布直方图方法计算分数,通常将方法将数据空间划分为若干区间,统计Z-z=x-μ/σ的观测(超过均值个标准差)视每个区间内点的数量,认为落在低频区|z|33为潜在异常多元高斯分布模型使用马间的点是异常核密度估计通过在KDE氏距离,计算数据点到分布中心的统计每个数据点放置核函数并求和,构造平距离,适用于相关特征混合模型(如滑密度函数,将密度低于阈值的区域中)则用多个分布组件建模复杂数据的点标识为异常这类方法适用于单一GMM参数方法计算高效,适用于分布已知或多模态分布数据,但可能需要更多样的数据本才能准确估计分布优缺点分析统计方法的主要优点是概念简单,实现容易,计算效率高,结果具有良好的统计解释性参数方法特别适合领域知识丰富、数据分布已知的场景然而,统计方法也存在明显局限参数方法依赖分布假设,若实际分布偏离假设可能导致高误报率;大多数方法难以处理高维数据(维度灾难);通常只能检测全局异常而非上下文异常;对多变量间复杂交互关系的建模能力有限基于距离的异常检测距离算法算法K-LOF ABOD距离法基于样本到其第个最近邻的距离作为局部离群因子算法比较点的局部密度与其基于角度的离群度算法使用点对之间的K-k LOFABOD异常分数计算所有点的距离,将具有最大邻居的局部密度,有效发现相对密度异常角度方差,而非传统距离,评估点的异常程度k-k-LOF距离的点视为潜在异常该方法实现简单,适用值接近表示点与周围具有相似密度;显著大于在高维空间中,距离度量变得不可靠距离集中现11于全局异常检测,但受值选择影响大较大的表示潜在异常的关键优势是能检测局部异象,而角度变化仍能有效区分正常点和异常点k kLOF使方法更稳健但可能忽略小的异常簇;较小的常,即在全局看似正常但在局部上下文中异常的计算点到所有点对形成的角度方差,正常k ABOD增加对局部异常的敏感性但易受噪声影响距点它适用于包含不同密度区域的数据集,但计点周围点对分布均匀,角度方差大;异常点多处K-离还支持更复杂的变体,如考虑个最近邻平均算复杂度高,且密度估计参数设置较难于边缘,角度方差小对抗维度灾难效果k On²ABOD距离的方法显著,但计算复杂度较高,通常需要近似算法如提高效率FastABOD基于密度的异常检测变体孤立森林DBSCANDBSCAN聚类算法的副产品是识别噪声点,这些点自然可视为异常许多DBSCAN变体专为异孤立森林Isolation Forest采用完全不同的密度概念,假设异常点更易被孤立算法构建随常检测设计,如OPTICS算法提供了更灵活的密度定义,能发现多密度环境中的异常;LOCI基机决策树集合,每棵树随机选择特征和分裂点,直到隔离所有点异常点通常需要较少的分裂于局部相关性积分使用多尺度局部密度估计,自动确定适当的邻域大小;DBSCAN-RDOS结步骤被孤立,因此平均路径长度较短孤立森林的主要优点是计算高效线性时间和空间复杂度合相对密度,提高了检测能力这些算法相对原始DBSCAN,对参数设置的敏感性降低,异常,适合大规模高维数据,不需要距离计算,对异常类型假设最少它已成为实践中最受欢迎的检测能力增强异常检测算法之一,特别是处理大规模数据时123局部异常因子局部异常因子LOF是最著名的基于密度的异常检测算法,利用局部可达密度概念评估点的异常程度LOF的核心思想是比较点的密度与其邻居的平均密度与大多数方法不同,LOF提供异常程度的度量而非二元分类,允许更细致的异常排序LOF最大优势是能检测不同密度区域中的异常,如发现高密度区域中的孔洞或低密度区域中的桥接点,这是基于距离或全局统计方法无法实现的异常检测应用10%15%金融欺诈检测网络入侵检测金融行业使用异常检测识别可疑交易和欺诈行为信用网络安全领域使用异常检测识别潜在攻击和入侵网络卡欺诈检测系统分析交易金额、地点、频率等特征,标流量分析系统监控流量模式,发现攻击、端口扫描DoS记偏离用户正常消费模式的交易;反洗钱系统检测异常等异常活动;用户行为分析系统建立用户正常行为基线资金流动模式;保险欺诈检测识别可疑理赔模式这些,检测账户异常访问模式;系统日志分析识别异常登录系统通常结合多种技术,如统计方法识别金额异常,基尝试或权限提升操作与基于签名的系统不同,基于异于规则的系统捕捉特定欺诈模式,以及机器学习模型捕常的入侵检测能发现未知威胁零日攻击,但面临误报捉复杂模式,实现实时或批量监控率较高的挑战,通常需与专家知识系统结合使用20%医疗诊断医疗领域应用异常检测辅助疾病诊断和健康监测医学图像分析使用异常检测识别、或光片中的异常CT MRIX组织;患者监护系统监控生命体征,及时发现危险状况;电子病历分析识别异常实验室结果或药物相互作用风险医疗异常检测系统需特别注重高召回率不漏过真异常,同时面临数据高维、样本不平衡和解释性要求等挑战健康监测可穿戴设备的普及为个性化异常检测提供了新机会第九章时间序列分析时间序列特征趋势分析预测方法时间序列数据是按时间顺序记录的观趋势分析是识别和量化时间序列长期时间序列预测方法丰富多样经典方测序列,具有独特特征趋势表示长变化方向的过程常用方法包括移法包括移动平均模型,基于误MA期变化方向;季节性指周期性波动模动平均法,通过计算窗口内观测值的差项的加权;自回归模型,基于AR式;周期性是不固定长度的波动;随均值平滑短期波动;指数平滑法,对过去观测值的加权;模型,结ARIMA机性代表不可预测的波动时间序列观测值加权,近期观测获得更大权重合自回归、差分和移动平均;指数平通常具有自相关性,即当前值与过去;回归分析,建立时间与观测值的函滑法族,如单指数平滑、线性趋Holt值相关分析前需检查序列的平稳性数关系趋势分析帮助理解基本变化势方法和季节性方法Holt-Winters(均值、方差不随时间变化)和周期方向,是预测的基础,通常需要去除现代方法包括深度学习模型如、RNN性,不同特征需不同分析方法季节性影响后进行和,适合处理长期LSTM Transformer依赖和非线性关系选择合适方法需考虑数据特性、预测周期和计算资源时间序列分解趋势成分趋势成分反映时间序列的长期变化方向,如持续上升、下降或保持稳定提取趋势的方法包括移动平均法,计算连续观测值的平均,窗口大小影响平滑程度;局部回归LOESS,通过局部加权回归拟合趋势;多项式拟合,用不同阶多项式拟合整体趋势;Hodrick-滤波,平衡趋势平滑性与对数据的拟合程度趋势分析对经济预测、销售预测和Prescott资源规划尤其重要季节性成分季节性成分是在固定周期内重复出现的模式,如每日、每周、每月或每年的周期性波动季节性可通过多种方法识别季节性指数,计算特定季节观测值与平均水平的比率;傅立叶分析,将时间序列分解为不同频率的正弦波组合;季节性差分,计算与上一周期相同时点的差值正确识别和调整季节性对准确预测和异常检测至关重要,特别是在零售、旅游和能源需求等行业随机成分随机成分(也称残差或噪声)是移除趋势和季节性后剩余的不规则变化理想情况下,随机成分应呈现白噪声特性无自相关性、均值为零、方差恒定分析随机成分有助于检验分解质量,良好分解后残差应无明显模式;识别异常点,显著偏离预期的残差指示潜在异常;发现隐藏模式,残差中的弱自相关可能暗示额外的未捕获周期残差分析常用方法包括自相关函数、偏自相关函数和图等ACF PACFQ-Q时间序列预测模型移动平均法指数平滑法模型ARIMA移动平均法是最简单的时间序列预测方法,通过计指数平滑法通过对历史观测进行指数加权预测未来自回归集成移动平均模型是最流行的统计ARIMA算过去个观测值的平均值预测未来值简单移动值单指数平滑适用于无趋势无季节性数据,使用时间序列模型,由三部分组成自回归项,n ARp平均对窗口内所有观测赋予相同权重;加权单一平滑参数;双指数平滑引入第二个参数表示当前值与个滞后观测值的线性组合;差分SMAαHoltβp Id移动平均允许不同权重,通常赋予近期观测处理趋势;三指数平滑增加第三个参项,进行次差分使序列平稳;移动平均项WMA Holt-Winters dMAq更高权重;指数移动平均是的特例,数处理季节性指数平滑优势在于计算效率高、,表示当前值与个滞后误差项的线性组合模型EMA WMAγq权重呈指数衰减移动平均法适用于低噪声、较稳实现简单、自适应性强(近期变化影响更大),广记为,参数通过和分析或ARIMAp,d,q ACFPACF定的时间序列,优点是实现简单、计算高效,缺点泛应用于短期预测,特别是存货控制和销售预测信息准则选择特别适合线性关AIC/BIC ARIMA是无法捕捉趋势和季节性模式相比移动平均,它能更有效利用所有历史数据,平系和短期预测,可扩展为处理季节性,或SARIMA滑参数可通过优化选择纳入外部变量相比简单方法,ARIMAX ARIMA能更准确捕捉时间依赖性,但需要平稳数据且难以处理非线性关系时间序列挖掘任务模式发现聚类12时间序列模式发现是识别数据中重复出现的结时间序列聚类将相似的序列分组,用于发现数构、规则或异常的过程常见任务包括趋势据中的自然分组或作为其他挖掘任务的预处理分析,识别长期变化方向;季节性检测,发现步骤挑战在于处理序列长度不
一、采样率不周期性模式;异常检测,识别偏离正常模式的同、噪声和相位偏移等问题常用方法包括观测;变化点检测,发现序列统计特性突变的基于形状的聚类,聚焦于序列模式相似性;基时刻;模式匹配,搜索与查询模式相似的子序于特征的聚类,先提取统计特征再应用传统聚列这些任务通常需要序列相似性度量,如动类算法;基于模型的聚类,通过拟合模型参数态时间规整、欧氏距离或相关系数,以比较序列;基于深度学习的聚类,使用自编码DTW及降维技术如离散傅里叶变换或主成分器等技术学习序列表示时间序列聚类广泛应DFT分析用于传感器数据分析、用户行为分类和异常检PCA测等分类3时间序列分类是根据序列特征将其分配到预定义类别的任务应用包括手势识别、心电图分析、语音识别等主要挑战是提取区分不同类别的有效特征常用方法有基于特征的分类,从序列提取统计量后使用传统分类器;基于距离的方法,如与结合;基于词典的方法,如,将序1-NN DTWSAX-VSM列转换为符号表示;基于深度学习的方法,如、和,能自动学习层次特征表示时序CNN RNNLSTM分类模型评估需特别注意数据划分,通常采用时间上连续的验证集而非随机抽样第十章文本挖掘文本预处理文本预处理将非结构化文本转换为适合分析的形式主要步骤包括分词,将文本分割为单词或短语;去停用词,删除常见但信息量少的单词(如的、是、和);词形还原,将词语转换为基本形式,如词干提取或词形还原;标准化,处理大小写、标stemming lemmatization点、数字等这些步骤对后续分析质量至关重要,且需根据语言特性调整,中文分词特别具有挑战性,需使用专门算法特征提取特征提取将处理后的文本转换为数值表示,供机器学习算法使用基础方法包括词袋模型,仅考虑词频;,平衡词频与文档频率的倒数,突出具有区分性的词;BOW TF-IDF N-,捕捉短语和上下文;主题模型如,提取潜在语义主题近年来,、gram LDAWord2Vec和等词嵌入技术能捕捉词语间的语义关系,大大提高了文本表示的质量,成为GloVe BERT现代文本挖掘的基础文本分类与聚类文本分类将文档分配到预定义类别,应用于垃圾邮件过滤、情感分析、新闻分类等经典算法包括朴素贝叶斯、和;现代方法则以、和为主SVM KNNCNN RNNTransformer文本聚类将相似文档分组,用于主题发现、文档组织和异常检测,常用、层次K-means聚类和主题模型两种任务都面临高维度、稀疏性和噪声等挑战,需结合降维、特征选择和先进表示学习方法文本预处理技术去停用词2移除低信息词语分词1切分文本为基本单元词形还原转换为词语基本形式3分词是文本分析的第一步,尤其对中文等无明显词界的语言更为关键中文分词方法包括基于字典的方法,如最大匹配法;基于统计的方法,利用词频和共现概率;基于深度学习的方法,如模型现代中文分词工具如、和结合多种技术,能处理未登录词和歧义切分BiLSTM-CRF jiebaTHULAC HanLP去停用词移除高频但低信息量的词,如的、了、和等虚词这些词占用大量特征空间却对分类贡献不大停用词表可以是通用表,也可以是领域特定表有时保留部分停用词对某些任务(如情感分析中的否定词)很重要,需根据具体应用调整词形还原将变形词转为基本形式,提高特征一致性中文主要处理同义词、近义词、繁简转换等,而非英文的词形变化字符级别的正则化也很重要,包括大小写统
一、标点处理、数字标准化等深度学习的兴起使得某些预处理步骤变得不那么必要,但对资源有限或特定任务,良好的预处理仍能显著提升性能文本特征提取语义表达能力计算复杂度应用普及度TF-IDF词频-逆文档频率是基于统计的特征提取方法,平衡词语频率与区分能力TF词频衡量词在文档中出现的频率,IDF逆文档频率衡量词的普遍性,罕见词获得更高权重公式为TF-IDFt,d=TFt,d×IDFt,其中IDFt=logN/DFt,N是总文档数,DFt是包含词t的文档数TF-IDF适合关键词提取、文档相似度计算和文本分类,但无法捕捉词序和语义关系Word2Vec使用神经网络将词映射到低维向量空间,保留语义关系它基于分布假设上下文相似的词语义相似主要模型有CBOW用上下文预测目标词和Skip-gram用目标词预测上下文词向量具有惊人的语义特性,如国王-男人+女人≈王后中文Word2Vec需先分词,且通常需大规模语料训练词向量可直接使用或作为深度模型的输入,显著提升文本分析性能BERTBidirectional EncoderRepresentations fromTransformers使用Transformer构架生成上下文相关的词表示与静态词向量不同,BERT为词在不同上下文生成不同表示,能处理多义词和复杂语义关系预训练加微调范式使其在各种文本任务上表现卓越中文BERT使用字符级输入,避免分词错误尽管计算成本高,但在许多任务上已成为标准方法文本分类方法朴素贝叶斯SVM朴素贝叶斯是文本分类的经典算法,基于贝支持向量机通过寻找最大间隔超平面SVM叶斯定理和特征条件独立假设虽然独立性分离不同类别文本,适合高维稀疏数据线假设在文本中显然不成立词序和语法关系被性在文本分类中表现尤为出色,通常与SVM忽略,但模型在实践中仍然有效主要变体特征结合使用的优点是处理高TF-IDF SVM包括多项式模型适合词频特征、伯努利模维数据能力强,不受维度灾难影响;能有效型适合词存在特征和高斯模型适合连续特处理稀疏特征;对过拟合有较强抵抗力;理征朴素贝叶斯训练快速,内存需求低,对论基础扎实缺点包括参数调优复杂,计算小数据集有效,且易于实现和解释,但对特成本相对较高,天然只支持二分类多分类需征工程敏感,无法捕捉复杂特征交互额外策略,且解释性不如朴素贝叶斯直观深度学习方法深度学习彻底改变了文本分类领域善于捕捉局部语义特征和关键短语;CNN RNN/LSTM/GRU捕捉长距离依赖和序列信息;基于自注意力机制处理并行序列,是当前最先进方法Transformer等预训练模型通过海量文本学习通用语言表示,再通过微调适应特定任务,显著提升性BERT能深度学习方法的优势是自动特征学习能力强,性能上限高,但需要大量训练数据,计算资源消耗大,且解释性较差文本聚类技术层次聚类主题模型K-means是最常用的文本聚类算法,将层次聚类通过迭代合并最相似的文档主题模型如潜在狄利克雷分配从K-means/LDA文档表示为向量空间中的点,基于欧氏簇自底向上或分裂现有簇自顶向下文档集合中发现潜在主题,每个主题是距离或余弦相似度分组应用于文本时构建聚类层次与相比,层次词的概率分布,每个文档是主题的概率K-means通常与或词嵌入结合,使用余弦聚类不需预先指定簇数,产生的树状结混合与传统聚类不同,主题模型允许TF-IDF相似度度量文档相似性的优构有助于探索数据不同粒度的分组聚文档属于多个主题,更符合现实情况K-means点是实现简单,计算效率高,适合大规类结果可用树状图直观展示,便于理解基于生成式模型,假设文档由主题LDA模文档集;缺点包括需预先指定簇数文档集合结构凝聚式层次聚类在文本混合生成,每个主题再生成词语主题K,结果依赖初始中心点选择,且仅能发领域应用广泛,但传统实现的时间复杂模型优势在于可解释性强,结果直观易现球形簇常用的变体如度为,限制了大规模应用懂,能发现语义关系;不足是参数设置Bisecting K-On²logn和针对文本、等算法通过近似技术提复杂,收敛慢,且难以有效处理短文本means SphericalK-means BIRCHCURE数据特点进行了优化,提高了聚类质量高效率,使层次聚类适用于较大文档集非负矩阵分解是另一种流行的NMF主题建模方法,计算更高效且结果通常更稳定第十一章挖掘Web使用挖掘Web用户行为分析与个性化1结构挖掘Web2链接关系与网页重要性内容挖掘Web3文本、图像和多媒体分析挖掘是应用数据挖掘技术分析数据的过程,涵盖三个主要领域内容挖掘、结构挖掘和使用挖掘随着互联网的爆炸性增长,Web Web Web Web Web挖掘已成为理解网络信息和用户行为的关键技术Web内容挖掘专注于网页内容分析,包括文本、图像、视频等常见应用有信息抽取、主题发现、情感分析和多媒体内容理解结构挖掘关注网页Web Web间的链接关系,分析网站拓扑结构和网页重要性,和是经典算法PageRank HITS使用挖掘分析用户与网站的交互数据,包括点击流分析、用户建模和个性化推荐这三个领域密切相关,现代应用如搜索引擎、社交网络和电WebWeb子商务平台通常整合多种挖掘技术,提供智能化服务体验Web内容挖掘Web网页分类网页聚类信息抽取网页分类将网页分配到预定义网页聚类将相似网页分组,用信息抽取从非结构化或半Web类别,如主题、语言或质量级于搜索结果组织、网站结构发结构化网页中提取结构化数据别与普通文档不同,网页包现和内容去重网页聚类方法,如商品价格、公司信息、联含结构、超链接和多媒除了处理常规文本特征外,通系方式等主要技术包括包HTML体内容,分类需考虑这些额外常利用网页特有信息层装器归纳,从样例中学习抽取URL信息特征提取通常结合文本次结构、网站拓扑关系、规则;基于树的抽取,DOM内容正文、标题、标结构相似性等传统算利用网页结构特征;视觉布局HTML HTML签信息元标签、标题层级和法如、层次聚类仍分析,考虑网页视觉表现;深K-means链接信息锚文本、链接文本广泛使用,但越来越多地结合度学习方法,如BiLSTM-CRF网页分类广泛应用于搜索引网页特定相似性度量搜索结和用于命名实体识别BERT擎索引、内容过滤、垂直搜索果聚类如系统是一个信息抽取支持知识图谱构建、Carrot²和广告定位深度学习模型如重要应用,它动态将搜索结果比价系统、问答系统等应用结合已成为当前网组织成有意义的主题群组,提网页结构多样性和动态变化是BERT CNN页分类的主流方法升用户导航效率主要挑战,要求抽取系统具有足够的鲁棒性和自适应能力结构挖掘Web链接分析1链接分析研究网页间的超链接关系,将视为有向图,网页为节点,超链接为边通过分析链Web接结构,可以发现网站拓扑、社区结构和重要页面常见的链接分析指标包括入度(指向该页面的链接数)、出度(该页面指向其他页面的链接数)、中心性和连通性链接分析支持搜索引擎排序、网站结构优化、垃圾链接检测等应用随着社交网络兴起,链接分析技术也扩展到社交关系网络分析中算法2PageRank是创始人开发的经典链接分析算法,以递归方式计算网页重要性重要页面PageRank Google的链接具有更高权重算法将随机冲浪者模型与马尔可夫链理论结合,通过迭代计算直至收敛公式为,其中是阻尼因子,是链接到的页面PageRank PRA=1-d+d∑PRTi/CTi dTi A,是的出链数量尽管现代搜索引擎使用数百个因素排序,仍是其核心组件之CTi TiPageRank一,也是网络分析中重要性度量的基础算法算法3HITS超链接诱导主题搜索算法由提出,将网页分为权威页和枢纽页HITSKleinberg Authority权威页提供高质量信息,枢纽页指向多个好的权威页在查询时计算,而非预计算Hub HITS,采用主题相关的子图分析算法通过互相增强的迭代更新,指向Authorityp=∑Hubq qp;,指向特别适合发现特定主题专家页面,但对于链接轰炸Hubp=∑Authorityq pq HITS和主题漂移问题较敏感与相比,提供更丰富的链接语义,但计算成本更高,稳PageRank HITS定性较低使用挖掘Web用户行为分析个性化推荐会话识别使用挖掘分析用户与网站的交互数据,揭示浏个性化推荐系统基于用户历史行为和偏好,向用户提会话识别是使用挖掘的基础步骤,将连续点击WebWeb览模式和行为偏好数据来源主要包括服务器日志、供定制化内容或产品建议主要技术包括协同过滤流数据分割为有意义的访问会话常用方法包括基客户端数据(如跟踪)和代理服务器记录,基于相似用户或物品的偏好推断;基于内容的推荐于时间的方法,如分钟无活动视为会话结束;基JavaScript30点击流分析是核心技术,通过分析页面访问序列、,匹配用户偏好与物品特征;混合方法,结合多种技于导航的方法,通过页面引用关系识别逻辑访问路径停留时间和导航路径,识别用户兴趣和网站设计问题术优势使用数据为推荐系统提供宝贵信号;基于内容的方法,考虑页面语义相关性准确的会Web常见任务包括会话识别,将点击流分割为独立访浏览历史反映兴趣范围;停留时间指示内容相关性;话识别面临多重挑战代理服务器缓存、共享地址IP问会话;路径分析,发现常见导航模式;用户分类,点击序列揭示购买意图推荐系统已成为电子商务、、缺失页面(如浏览器后退按钮)和机器人访问等根据行为将用户分组;转化漏斗分析,识别用户流失内容网站和社交媒体的核心功能,有效提升用户参与现代会话识别通常结合多种技术,如跟踪、cookie点这些分析帮助优化网站结构、改进用户体验和增度和商业价值推荐算法需不断平衡准确性、多样性用户代理分析和启发式规则,提高准确性会话数据加转化率、新颖性和计算效率是后续分析的基础,影响用户建模、路径分析和转化率计算的质量第十二章大数据挖掘技术分布式计算框架流数据挖掘12随着数据量爆炸增长,传统数据挖掘技流数据挖掘处理连续生成的数据流,如术无法有效处理甚至级数据分传感器读数、网络流量和社交媒体信息TB PB布式计算框架通过将计算和存储任务分与传统挖掘不同,流挖掘面临一次性散到多台机器的集群上,实现横向扩展处理、有限存储和概念漂移等挑战常模型提供简单的并行编用的流挖掘技术包括滑动窗口模型、保MapReduce程范式;生态系统包含文持概要结构(如和Hadoop HDFSCount-Min Sketch件系统和丰富的工具集;通过内过滤器)、增量学习算法和概念Spark Bloom存计算显著提升性能,尤其适合迭代算漂移检测流挖掘在网络监控、金融交法;则专为流处理设计,提供低延易分析和物联网应用中发挥关键作用Flink迟实时分析能力图挖掘3图挖掘关注具有复杂关系网络的数据社交网络、知识图谱、分子结构和交通网络都是典型图数据主要任务包括社区发现(识别紧密连接的节点群组)、中心性分析(找出重要节点)、链接预测(预测可能形成的新关系)和图表示学习(将节点映射到向量空间)图神经网络等深度学习技术正彻底改变图挖掘领域,提供了处理图结构数据的强大工具分布式计算框架Hadoop SparkFlink是最流行的开源分布式计算框架,基于是下一代分布式计算框架,通过内存计算是专为流处理设计的分布式计算框架,提供Hadoop SparkFlink的论文实现核心克服了的性能瓶颈核心抽象是弹性分真正的流式计算模型(而非微批处理)的Google MapReduceHadoop HadoopFlink组件包括分布式文件系统和计布式数据集,支持内存中数据共享,大幅核心特性包括事件时间处理,正确处理乱序和HDFS MapReduceRDD算引擎提供高容错性,将数据分块存储减少磁盘提供统一计算引擎,包括延迟数据;精确一次语义,保证结果准确性;状HDFS I/O Spark在多台服务器上,支持级数据处理;结构化数据、流态管理,支持有状态计算;低延迟高吞吐,毫秒PB SparkSQLSpark Streaming将复杂任务分解为可并行执行的处理、机器学习和图计算模块级响应;窗口操作,灵活处理时间和计数窗口MapReduceMLlibGraphX和两个阶段,使程序员无需关注底相比,对迭代算法(如机器学除流处理外,也支持批处理,将批视为有界Map ReduceHadoop SparkFlink层分布式细节生态系统包括习)性能提升可达倍,已成为大数据分析的流的特例在实时分析、复杂事件处理和持Hadoop HiveSQL100Flink查询、数据流处理、数据首选平台支持、、和续等场景下表现卓越,适合要求低延迟的应PigHBaseNoSQL SparkScala JavaPython ETL库等多种工具,构成完整的大数据解决方案等多种编程语言,降低了学习门槛用R流数据挖掘算法滑动窗口模型概念漂移检测在线学习算法滑动窗口是处理无限数据流的基础模型概念漂移是指数据流中统计属性随时间在线学习算法能逐个处理数据实例并即,将连续数据分割为有限大小的窗口进变化的现象,如用户偏好变化或传感器时更新模型,非常适合流数据环境流行处理主要类型包括基于时间的窗老化检测技术分为三类统计方法,行算法包括随机梯度下降,每次SGD口,包含特定时间段内的元素;基于计监控数据分布变化(如算法使用错见到新样本即更新参数;在线朴素贝叶DDM数的窗口,包含固定数量的元素;滑动误率和标准差);基于窗口的方法,比斯,增量更新概率估计;树,Hoeffding窗口,基于滑动步长平滑移动;跳跃窗较不同时间窗口的模型性能(如基于统计边界逐步构建决策树;超ADWIN VFDT口,不重叠的连续窗口;会话窗口,基根据统计差异自适应调整窗口大小);高速决策树,在有限样本上做出置信度于活动间隔分组滑动窗口模型平衡了集成方法,维护多个基模型并监控它们高的分裂决策相比批处理算法,在线计算效率和结果准确性,适用于趋势分的相对表现有效的漂移检测既要敏感学习优势在于内存需求低(无需存储全析、异常检测和模式识别等任务不同(不错过真实变化)又要稳定(不过度部数据)、适应性强(能跟随概念漂移窗口策略适合不同应用需求实时监控响应噪声),通常结合领域知识和多重调整)和延迟低(实时更新结果)实偏好小窗口低延迟,复杂分析可能需要指标提高准确性检测到漂移后,系统践中常结合窗口技术和遗忘机制,平衡更大窗口捕捉长期模式应触发模型更新,保持预测准确性历史数据与新数据的影响图挖掘技术社区发现链接预测图表示学习社区发现(或社区检测)旨在识别图中节点紧密连接的子链接预测试图预测图中可能形成的新连接或发现缺失的现图表示学习(图嵌入)将图中节点、边或子图映射到低维群体,这些子群体内部连接密集而与外部连接稀疏经典有连接主要方法包括基于相似性的方法,计算节点对向量空间,同时保留图的结构和语义信息主要方法包括算法包括基于模块度的方法,如算法和的拓扑相似度(如共同邻居数、系数、矩阵分解方法,如拉普拉斯特征映射和;随机游Louvain CNMJaccard Adamic-LINE算法,通过优化模块度指标迭代合并社区;谱聚类方法,指数);基于路径的方法,考虑节点间路径(如走方法,如和,通过生成节点序列Adar DeepWalknode2vec利用图拉普拉斯矩阵的特征向量进行划分;标签传播算法指数、);概率模型,如贝叶斯模型和随然后应用类技术;神经网络方法,特别是图神Katz SimRankword2vec,通过邻居间标签传递形成共识;基于随机游走的方法,机块模型;基于嵌入的方法,将节点映射到向量空间后计经网络如、和,通过消息传GNN GCNGraphSAGE GAT如,使用信息论原理压缩随机游走描述社区发算相似度;监督学习方法,将链接预测视为二分类问题递学习节点表示图表示学习得到的向量可用于下游任务Infomap现广泛应用于社交网络分析、蛋白质互作网络研究和推荐链接预测在社交网络推荐、知识图谱补全、蛋白质互作预如分类、聚类和链接预测,克服了传统图算法的计算复杂系统等领域,帮助理解复杂网络的组织结构测和犯罪网络分析等领域具有重要应用性和特征工程难题这一领域正快速发展,结合自监督学习和预训练等技术不断提升性能数据挖掘伦理与隐私数据收集伦理隐私保护技术12数据收集是挖掘过程的首要环节,也是伦理考隐私保护技术使数据在保护个人隐私的同时仍量的关键点关键原则包括知情同意,确保能挖掘有价值的模式主要方法包括数据匿数据主体了解数据收集目的和使用方式;目的名化,如匿名性和多样性,通过泛化和抑k-l-限制,仅收集必要数据且不超出原始目的使用制防止个体识别;差分隐私,通过添加精确控;透明度,公开数据处理流程和隐私政策;儿制的噪声保护个体信息;安全多方计算,允许童和弱势群体特殊保护违反这些原则不仅面多方在不共享原始数据的情况下共同计算;同临法律风险(如欧盟、中国个人信息保态加密,支持对加密数据直接进行运算;联邦GDPR护法等法规的处罚),还可能损害公众信任学习,保持数据本地化同时实现分布式模型训责任数据收集应平衡商业利益与个人权益,采练这些技术需根据应用场景、数据敏感性和用隐私设计和伦理审查机制计算需求灵活选择,同时权衡隐私保护和数据效用间的平衡公平性与偏见问题3算法偏见是数据挖掘面临的严峻挑战,可能导致歧视和不公平结果偏见来源多样训练数据中的历史偏见;特征选择或工程中的偏好;算法设计中的假设;评估指标的不均衡考量检测和减轻偏见的方法分为三类预处理方法,调整训练数据平衡性;算法内部修正,修改学习过程促进公平;后处理方法,调整算法输出结果公平性度量标准包括统计平等(不同群体获得相同正面结果比例)、机会平等(符合条件的个体获得同等机会)和个体公平(相似个体获得相似结果)关键是将公平性作为设计目标,而非事后考虑数据挖掘前沿技术深度学习已成为数据挖掘的核心驱动力,在图像识别、自然语言处理和推荐系统等领域实现突破近年来,自监督学习和预训练模型如、成为热点,通BERT GPT过大规模无标记数据预训练后微调,显著提升各领域性能图神经网络则为图结构数据挖掘提供了强大工具,能有效处理社交网络、分子结构等复杂关系数据GNN联邦学习是解决数据孤岛问题的创新方案,允许多方在不共享原始数据的情况下协作训练模型它将模型训练带到数据所在位置,而非相反,保护数据隐私同时利用分散数据的价值联邦学习已在金融、医疗和智能终端等领域展现巨大潜力,成为跨机构数据协作的重要范式然而,通信开销、异构数据和安全性仍是需要持续研究的挑战可解释人工智能致力于使复杂模型的决策过程透明化、可理解随着模型复杂性增加,黑盒性质已成为采用障碍,特别是在医疗诊断、金融风控等高风险领域XAI、、注意力机制和决策树蒸馏等技术为解释模型决策提供了途径可解释性不仅有助于建立用户信任,还能发现模型缺陷、改进算法性能,是负责任LIME SHAPAI的重要组成部分课程总结与展望实践建议2如何将所学应用到实际项目知识点回顾1贯穿课程全局和核心概念未来发展趋势数据挖掘技术的演进方向3本课程系统探讨了数据挖掘的理论基础、核心算法和实际应用从数据预处理到分类、聚类、关联规则和回归分析等基础技术,再到文本挖掘、挖掘和大数据挖掘等应Web用领域,我们构建了完整的知识体系重点掌握每类算法的基本原理、优缺点和适用场景,是选择合适技术解决实际问题的基础将数据挖掘应用到实际项目中,建议遵循以下步骤首先明确业务问题和目标,将其转化为数据挖掘任务;收集高质量数据并进行充分的预处理和探索性分析;尝试多种算法并进行比较,不要局限于单一方法;重视模型评估和验证,确保结果可靠;最后,将结果转化为可操作的见解或部署到实际系统中项目实践中要平衡技术复杂性与业务需求,简单有效的解决方案往往优于复杂但难以维护的方案数据挖掘未来将朝着几个方向发展多模态数据挖掘,整合文本、图像、视频等异构数据;自动化机器学习,降低专业门槛;隐私保护挖掘,在保护个人数据的AutoML同时挖掘价值;实时流处理,适应物联网时代的即时分析需求;可解释,提高模型透明度和可信度边缘计算与云计算结合的分布式挖掘架构也将成为趋势作为数据科AI学的核心技术,数据挖掘将继续在人工智能和大数据时代发挥关键作用。
个人认证
优秀文档
获得点赞 0