还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
机器学习聚类分析原理、方法与应用课程背景与学习目标课程背景学习目标随着数据科学的迅猛发展,聚类分析作为一种重要的非监督学习方•理解聚类分析的基本概念和原理法,在各个领域都发挥着关键作用本次课程旨在满足广大数据科•掌握各种聚类算法的实现步骤和优缺点学爱好者和从业人员对聚类分析知识的需求,帮助大家系统地掌握•能够选择合适的聚类算法解决实际问题聚类分析的理论与实践技能,从而更好地应对实际工作中的挑战•熟悉聚类分析在各个领域的应用案例什么是聚类分析?概念定义核心思想聚类分析是一种将数据集划分为若聚类分析的核心思想是“物以类干个簇的非监督学习方法,使得聚,即相似的数据点应该被划分“””同一簇内的数据点彼此相似,而不到同一个簇中这种相似性通常通同簇之间的数据点差异较大聚类过距离度量来衡量,例如欧几里得分析无需预先设定类别标签,而是距离、曼哈顿距离等通过数据自身的特征进行自动分类应用场景聚类分析在机器学习中的重要性数据探索与预处理特征工程12聚类分析可以帮助我们探索数聚类分析可以将数据点划分为据的内在结构,发现隐藏的模不同的簇,每个簇可以被视为式和关系在数据预处理阶段,一种新的特征这些特征可以可以利用聚类分析识别异常值用于训练其他机器学习模型,或噪声数据,为后续的建模分提高模型的预测性能例如,析提供更准确的数据基础可以将客户所属的客户群体作为推荐系统的输入特征无监督学习聚类算法的基本分类划分聚类层次聚类密度聚类将数据集划分为互不重叠的通过构建层次化的聚类结构基于数据点的密度来划分簇,例如K-means算法每来组织数据,例如自下而上簇,例如DBSCAN算法能个数据点只能属于一个簇的凝聚聚类和自上而下的分够发现任意形状的簇,对噪裂聚类数据点可以属于多声数据不敏感个层次的簇模型聚类假设数据是由若干个概率分布混合而成,通过估计概率分布的参数来进行聚类,例如高斯混合模型聚类分析的关键挑战距离度量选择不同的距离度量方法对聚类结果有很大的影响选择合适的距离度量方法需要根据数据的特征和应用场景进行综合考虑值选择K对于等需要预先指定簇数量的算法,如何选择合适的值是一K-means K个关键问题常用的方法包括肘部法则、轮廓系数等高维数据聚类在高维数据中,数据点之间的距离往往变得难以区分,导致聚类效果不佳常用的解决方法包括降维技术、特征选择等噪声数据处理噪声数据会对聚类结果产生干扰,需要进行有效的噪声数据处理常用的方法包括异常值检测、数据清洗等距离度量的基本概念重要性距离度量是聚类分析的基础,不同的距离2度量方法对聚类结果有很大的影响选择合适的距离度量方法是进行有效聚类分析定义的关键1距离度量是用于衡量数据点之间相似程度的指标距离越小,数据点越相似;距离越大,数据点越不相似常用方法常用的距离度量方法包括欧几里得距离、曼哈顿距离、余弦相似度等每种方法都3有其适用场景和优缺点常见距离计算方法距离度量方公式适用场景优点缺点法欧几里得距√∑xi-数值型数据简单易懂,对量纲敏感,离yi^2计算速度快对噪声敏感曼哈顿距离∑|xi-yi|数值型数据对量纲不敏忽略了数据感,计算速点之间的角度快度关系余弦相似度∑xi*yi/文本数据,对量纲不敏对数据点的√∑xi^2*高维数据感,考虑了绝对值不敏√∑yi^2数据点之间感的角度关系欧几里得距离定义公式欧几里得距离是指在维空间中两个点之间的真实距离,也称为对于两个维向量和,其欧几m L2m x=x1,x2,...,xm y=y1,y2,...,ym范数它是最常用的距离度量方法之一,适用于数值型数据里得距离计算公式为dx,y=√∑xi-yi^2,其中i=1,2,...,m欧几里得距离的优点是简单易懂,计算速度快但缺点是对量纲敏感,如果数据的各个维度量纲不同,需要进行标准化处理此外,欧几里得距离对噪声敏感,如果数据中存在噪声,可能会影响聚类结果曼哈顿距离定义公式曼哈顿距离是指在标准坐标系中两个点在各个轴上的绝对值总和,对于两个m维向量x=x1,x2,...,xm和y=y1,y2,...,ym,其曼哈也称为范数它是一种常用的距离度量方法,适用于数值型数据顿距离计算公式为,其中L1dx,y=∑|xi-yi|i=1,2,...,m曼哈顿距离的优点是对量纲不敏感,无需进行标准化处理此外,曼哈顿距离计算速度快但缺点是忽略了数据点之间的角度关系,只考虑了各个轴上的距离余弦相似度定义公式余弦相似度是指两个向量之间的夹角余弦值,用于衡量向量之间的对于两个m维向量x=x1,x2,...,xm和y=y1,y2,...,ym,其余弦方向相似度余弦相似度越接近,表示向量越相似;余弦相似度相似度计算公式为,其1cosx,y=∑xi*yi/√∑xi^2*√∑yi^2越接近,表示向量越不相似;余弦相似度为,表示向量正交中-10i=1,2,...,m余弦相似度的优点是对量纲不敏感,无需进行标准化处理此外,余弦相似度考虑了数据点之间的角度关系,适用于文本数据、高维数据等但缺点是对数据点的绝对值不敏感,只关注方向算法原理K-means算法思想目标函数12算法是一种迭代的划算法的目标是最小化K-means K-means分聚类算法,其基本思想是簇内平方误差和(SSE),即首先随机选择个数据点作为初,其中表K SSE=∑∑||xi-μj||^2xi始簇中心,然后将每个数据点示第i个数据点,μj表示第j个簇划分到距离其最近的簇中心所的中心在的簇中,接着重新计算每个簇的中心,重复以上步骤,直到簇中心不再发生变化或达到最大迭代次数算法特点3算法的优点是简单易懂,计算速度快但缺点是对初始簇中心敏K-means感,容易陷入局部最优解;需要预先指定簇数量;对噪声敏感,对非凸K形状的簇聚类效果不佳聚类步骤详解K-means选择值K1确定要聚类的簇数量常用的方法包括肘部法则、轮廓系K数等初始化簇中心2随机选择个数据点作为初始簇中心也可以使用其他方法K初始化簇中心,例如算法K-means++分配数据点3将每个数据点划分到距离其最近的簇中心所在的簇中常用的距离度量方法包括欧几里得距离、曼哈顿距离等更新簇中心4重新计算每个簇的中心,通常使用簇内所有数据点的均值作为新的簇中心迭代5重复步骤和步骤,直到簇中心不再发生变化或达到最大34迭代次数算法的优缺点K-means优点缺点•简单易懂,算法原理清晰明了•对初始簇中心敏感,容易陷入局部最优解•计算速度快,适用于大规模数据集•需要预先指定簇数量K,选择合适的K值比较困难•可解释性强,聚类结果易于理解•对噪声敏感,噪声数据会影响聚类结果•对非凸形状的簇聚类效果不佳,只能发现球状簇选择值的方法K肘部法则轮廓系数通过绘制簇内平方误差和(SSE)轮廓系数综合考虑了簇的凝聚度和与K值的关系图,寻找“肘部”,即分离度,其值越大,聚类效果越好下降速度明显变缓的点该点可以通过计算不同值对应的轮廓SSE K对应的值被认为是较好的选择系数,选择轮廓系数最大的值K K统计量Gap统计量比较了实际聚类结果与随机生成的参考数据的聚类结果,选择Gap统计量最大的值该方法能够更准确地估计簇数量Gap K层次聚类算法介绍定义分类层次聚类是一种通过构建层次化的聚类结构来组织数据的聚类方法层次聚类算法可以分为自下而上的凝聚聚类和自上而下的分裂聚类它不需要预先指定簇数量K,能够发现不同层次的聚类结果凝聚聚类从每个数据点作为一个簇开始,逐步合并簇,直到所有数据点都属于同一个簇;分裂聚类从所有数据点属于同一个簇开始,逐步分裂簇,直到每个数据点都成为一个簇自下而上的聚类方法初始化合并更新迭代将每个数据点作为一个簇找到距离最近的两个簇,将它更新簇之间的距离,常用的方重复步骤2和步骤3,直到所有们合并成一个新的簇法包括单链接、全链接、平均数据点都属于同一个簇链接等自上而下的聚类方法初始化将所有数据点作为一个簇分裂选择一个簇,将其分裂成两个新的簇常用的方法包括二分K-等means迭代重复步骤,直到每个数据点都成为一个簇2系统聚类法原理定义步骤系统聚类法是一种常用的层次聚类方法,其基本思想是首先将每•计算数据点之间的距离矩阵个数据点作为一个簇,然后逐步合并距离最近的簇,直到所有数据•将每个数据点作为一个簇点都属于同一个簇在合并簇的过程中,会生成一个层次化的聚类•找到距离最近的两个簇,将它们合并成一个新的簇结构,可以用树状图表示•更新簇之间的距离矩阵,常用的方法包括单链接、全链接、平均链接等•重复步骤3和步骤4,直到所有数据点都属于同一个簇聚类树状图解读定义解读聚类树状图是一种用于可视化层次聚类结果的树形图树状图的每•树状图的底部代表每个数据点作为一个簇个节点代表一个簇,节点的高度代表簇之间的距离通过观察树状•树状图的高度代表簇之间的距离,高度越高,簇之间的距离越图,可以了解数据的聚类结构,选择合适的簇数量大•可以通过在树状图上选择一个高度阈值,将树状图切割成若干个簇聚类算法DBSCAN定义核心概念DBSCAN(Density-Based SpatialClustering ofApplications with•核心点在半径Eps内包含至少MinPts个数据点的点)是一种基于密度的聚类算法,其基本思想是将密度相连Noise•边界点在半径Eps内包含的数据点少于MinPts个,但位于核的数据点划分到同一个簇中算法能够发现任意形状的簇,DBSCAN心点的邻域内的点对噪声数据不敏感•噪声点既不是核心点也不是边界点的点基于密度的聚类方法基本思想优点12基于密度的聚类方法将簇定义•能够发现任意形状的簇为密度相连的数据点集合,能•对噪声数据不敏感够发现任意形状的簇,对噪声•不需要预先指定簇数量K数据不敏感常用的算法包括、等DBSCAN OPTICS缺点3•需要设置密度阈值,选择合适的密度阈值比较困难•对参数敏感,不同的参数设置会影响聚类结果•对高维数据聚类效果不佳算法流程DBSCAN扫描数据集从数据集中随机选择一个未被访问的数据点判断核心点如果该数据点是核心点,则创建一个新的簇,并将该数据点加入到该簇中扩展簇找到该核心点邻域内的所有数据点,并将它们加入到该簇中如果邻域内存在其他核心点,则递归地扩展簇重复重复步骤,直到所有数据点都被访问过1-3高斯混合模型聚类定义核心思想高斯混合模型(,)是一种概率聚的核心思想是每个数据点都以一定的概率属于某个高斯分Gaussian MixtureModel GMMGMM类方法,它假设数据是由若干个高斯分布混合而成GMM通过估布通过最大化似然函数,可以估计每个高斯分布的参数,从而实计每个高斯分布的参数(均值、方差、混合系数)来进行聚类现聚类概率聚类方法基本思想优点缺点123概率聚类方法假设数据是由若干个概•能够给出数据点属于每个簇的概•计算复杂度高,适用于小规模数率分布混合而成,通过估计概率分布率据集的参数来进行聚类常用的算法包括•能够处理数据的不确定性•对初始参数敏感,容易陷入局部高斯混合模型、潜在狄利克雷分配等最优解•具有良好的可解释性•需要假设数据的概率分布,如果假设不成立,则聚类效果不佳期望最大化算法步骤E计算每个数据点属于每个簇的概率,即期望值步骤M根据步骤计算出的概率,重新估计每个簇的参数,即最大化似然E函数迭代重复步骤和步骤,直到参数不再发生变化或达到最大迭代次数E M期望最大化()算法是一种用于估计含有隐变量的概率模型参数的迭代算法EM在中,数据点所属的簇可以看作是隐变量算法通过不断迭代步骤和GMM EME M步骤,最终估计出每个高斯分布的参数,从而实现聚类层次聚类的距离定义单链接全链接将簇间距离定义为两个簇中最近的将簇间距离定义为两个簇中最远的两个数据点之间的距离两个数据点之间的距离平均链接将簇间距离定义为两个簇中所有数据点之间的平均距离单链接聚类定义特点单链接聚类(Single LinkageClustering)是一种层次聚类方法,•能够发现非凸形状的簇其基本思想是将簇间距离定义为两个簇中最近的两个数据点之间•容易受到噪声数据的影响的距离单链接聚类容易受到噪声数据的影响,容易产生链式效“•容易产生“链式效应”应”全链接聚类定义特点全链接聚类(Complete LinkageClustering)是一种层次聚类方法,•对噪声数据不敏感其基本思想是将簇间距离定义为两个簇中最远的两个数据点之间•能够发现紧凑的簇的距离全链接聚类对噪声数据不敏感,能够发现紧凑的簇•对非凸形状的簇聚类效果不佳聚类算法的评估指标轮廓系数指数指数Davies-Bouldin Calinski-Harabasz综合考虑了簇的凝聚度和分离度,其值越大,评估簇的平均相似度,其值越小,聚类效果评估簇的凝聚度和分离度,其值越大,聚类聚类效果越好越好效果越好轮廓系数定义计算方法轮廓系数(Silhouette Coefficient)是一种用于评估聚类效果的指•对于每个数据点,计算其与簇内其他数据点的平均距离a标,其值介于和之间轮廓系数越大,聚类效果越好轮廓系-11•对于每个数据点,计算其与最近的簇的平均距离b数综合考虑了簇的凝聚度和分离度•计算该数据点的轮廓系数s=b-a/maxa,b•计算所有数据点的平均轮廓系数,作为聚类结果的轮廓系数剪影分析定义解读剪影分析(Silhouette Analysis)是一种用于可视化聚类结果的方•剪影图的横坐标是轮廓系数,纵坐标是数据点法,它通过绘制每个数据点的轮廓系数来评估聚类效果剪影图可•轮廓系数越接近1,表示数据点与簇内其他数据点越相似,与以帮助我们了解每个簇的凝聚度和分离度,识别聚类效果不佳的数簇外数据点越不相似,聚类效果越好据点•如果剪影图中存在轮廓系数为负的数据点,则表示该数据点被错误地划分到了错误的簇中聚类结果可视化技术散点图平行坐标图t-SNE适用于二维或三维数据,适用于高维数据,将每一种降维算法,可以将可以直接将数据点绘制个维度绘制成一条垂直高维数据降维到二维或在坐标系中,不同的簇的坐标轴,数据点在每三维空间中,然后使用使用不同的颜色或形状个坐标轴上的取值用一散点图进行可视化t-进行区分条线段连接起来,不同SNE能够有效地保留数的簇使用不同的颜色进据的局部结构,使得聚行区分类结果更加清晰降维方法PCA定义步骤主成分分析(Principal ComponentAnalysis,PCA)是一种常用•对数据进行标准化处理的降维方法,其基本思想是将高维数据投影到低维空间中,使得•计算数据的协方差矩阵数据在低维空间中的方差最大化能够有效地提取数据的主要PCA•计算协方差矩阵的特征值和特征向量特征,去除冗余信息•选择最大的K个特征值对应的特征向量,构成投影矩阵•将数据投影到低维空间中降维方法t-SNE定义特点t-分布邻域嵌入(t-distributed StochasticNeighbor Embedding,•能够有效地保留数据的局部结构)是一种用于降维的可视化方法,特别适合于高维数据的可t-SNE•能够发现数据的非线性结构视化它通过将高维数据映射到低维空间(通常是二维或三维),•计算复杂度高,适用于小规模数据集并尽可能保留数据点之间的相似性,从而实现数据的可视化聚类分析在推荐系统中的应用用户聚类1将用户按照购买行为、浏览记录、人口统计特征等划分为不同的用户群体为不同的用户群体推荐不同的商品或服务商品聚类2将商品按照属性、类别、价格等划分为不同的商品群体为用户推荐与其购买过的商品属于同一商品群体的其他商品混合推荐3结合用户聚类和商品聚类,为不同的用户群体推荐不同的商品群体例如,为年轻女性用户推荐时尚服装聚类分析在市场细分中的应用客户细分市场定位将客户按照人口统计特征、购买行了解不同客户群体的需求和偏好,为、消费偏好等划分为不同的客户为产品或服务找到合适的市场定位群体为不同的客户群体制定不同例如,针对高端客户群体推出高品的营销策略质的产品营销活动优化针对不同的客户群体开展不同的营销活动,提高营销活动的有效性例如,为年轻用户群体开展社交媒体营销活动客户画像与聚类客户画像聚类分析客户画像是描述目标客户群体的特征和行为的模型通过客户画像,聚类分析可以用于构建客户画像通过将客户按照特征进行聚类,可以更深入地了解客户的需求和偏好,从而制定更有效的营销策略可以发现不同的客户群体,并为每个客户群体构建客户画像例如,可以将客户按照年龄、性别、收入、购买行为等进行聚类,然后为每个客户群体描述其特征和行为聚类分析在生物信息学中的应用基因表达数据分析蛋白质结构预测12将基因按照表达模式进行聚类,将蛋白质按照结构特征进行聚发现具有相似功能的基因识类,预测蛋白质的功能发现别与特定疾病相关的基因新的药物靶点微生物群落分析3将微生物按照基因组成进行聚类,了解微生物群落的结构和功能研究微生物与健康的关系基因表达数据聚类定义应用基因表达数据聚类是指将基因按照在不同条件下的表达模式进行聚•发现新的基因功能类,从而发现具有相似功能的基因基因表达数据聚类是生物信息•识别与特定疾病相关的基因学研究中的重要方法之一•预测药物的疗效图像分割与聚类定义聚类图像分割是指将图像划分为若干个具有特定语义的区域图像分割聚类分析可以用于图像分割通过将图像中的像素按照颜色、纹理是计算机视觉领域的重要研究方向之一等特征进行聚类,可以将图像划分为不同的区域常用的聚类算法包括、等K-means DBSCAN文本聚类技术文本表示距离度量聚类算法将文本转换为向量表示,常用的方法包选择合适的距离度量方法,常用的方法选择合适的聚类算法,常用的算法包括括词袋模型、TF-IDF、词嵌入等包括余弦相似度、欧几里得距离等K-means、DBSCAN等社交网络分析社区发现用户行为分析将社交网络中的用户划分为不同的社区,发现具有相似兴趣或共同分析用户的社交行为,例如关注、转发、评论等,了解用户的兴趣关系的用户群体常用的算法包括Louvain算法、Girvan-Newman和偏好为用户推荐感兴趣的内容或用户算法等异常检测与聚类异常检测聚类异常检测是指识别数据集中与其他数据点显著不同的数据点异常聚类分析可以用于异常检测将数据点划分为不同的簇,然后将远检测在金融风控、网络安全等领域具有重要应用价值离簇中心的数据点识别为异常点常用的方法包括基于距离的异常检测、基于密度的异常检测等聚类算法的挑战与局限性高维数据1在高维数据中,数据点之间的距离往往变得难以区分,导致聚类效果不佳噪声数据2噪声数据会对聚类结果产生干扰,需要进行有效的噪声数据处理参数选择3不同的聚类算法需要设置不同的参数,选择合适的参数比较困难评估指标4如何选择合适的评估指标来评估聚类效果是一个挑战高维数据聚类问题维度灾难特征选择在高维空间中,数据点的分布变得稀疏,距离计算变得没有意义,选择与聚类目标相关的特征,去除冗余特征,降低数据维度常用导致聚类效果不佳常用的解决方法包括降维技术、特征选择等的方法包括过滤法、包装法、嵌入法等噪声数据处理异常值检测数据清洗数据平滑识别数据集中与其他数据点显著不同的处理数据中的缺失值、重复值、错误值使用平滑技术来减少数据中的噪声,例数据点,并将它们删除或替换等如移动平均、指数平滑等聚类算法的计算复杂度层次聚类K-means DBSCAN时间复杂度为,其中是数据点时间复杂度为,其中是数据点数量时间复杂度为,其中是数据点数量On*k*t n On^2nOn^3n数量,k是簇数量,t是迭代次数适用于适用于小规模数据集适用于小规模数据集大规模数据集半监督聚类方法定义方法半监督聚类是指在聚类过程中利用少量已知的类别信息来指导聚类•约束聚类利用数据点之间的must-link和cannot-link约束来指过程,从而提高聚类效果半监督聚类介于无监督聚类和监督分类导聚类过程之间•种子聚类利用少量已知的类别标签作为种子,来引导聚类过程增量式聚类算法定义应用增量式聚类是指能够处理动态变化的数据集的聚类算法当有新的•在线推荐系统数据点加入或删除时,增量式聚类算法不需要重新计算所有数据点•实时异常检测的聚类结果,而是只需要更新受影响的数据点的聚类结果•动态社交网络分析聚类算法的工程实践数据预处理算法选择进行数据清洗、数据转换、特征选根据数据的特征和应用场景,选择择等预处理操作,提高聚类效果合适的聚类算法参数调优使用交叉验证等方法进行参数调优,提高聚类效果聚类实战Python数据准备算法实现结果评估使用Pandas库读取数据,并进行数据清洗使用Scikit-learn库实现K-means、使用轮廓系数等指标评估聚类效果,并进和预处理DBSCAN等聚类算法行可视化展示聚类工具Scikit-learn1K-means实现聚类算法sklearn.cluster.KMeans K-means2DBSCAN实现聚类算法sklearn.cluster.DBSCAN DBSCAN层次聚类3实现层次聚类算法sklearn.cluster.AgglomerativeClustering高斯混合模型4实现高斯混合模型聚类算法sklearn.mixture.GaussianMixture实时聚类系统设计数据采集数据处理聚类计算结果展示使用Kafka等消息队列采集实使用Spark Streaming等流处使用增量式聚类算法进行实时使用可视化工具实时展示聚类时数据理框架进行数据清洗和预处理聚类计算结果聚类算法的未来发展趋势深度学习大数据人工智能深度学习与聚类相结合,大数据环境下,如何高人工智能技术的发展将能够自动学习数据的特效地进行聚类分析是一推动聚类算法在更多领征,提高聚类效果个重要的研究方向域的应用深度学习与聚类自编码器深度聚类使用自编码器学习数据的低维表示,然后使用聚类算法对低维表示将深度学习模型与聚类算法相结合,共同学习数据的特征和聚类结进行聚类果常用的方法包括DEC、DCN等人工智能聚类新进展图神经网络对比学习12图神经网络在社交网络分析、对比学习通过学习数据点之间知识图谱等领域取得了显著进的相似性和差异性,可以提高展,可以用于对图结构数据进聚类算法的鲁棒性和泛化能力行聚类联邦学习3联邦学习可以在保护用户隐私的前提下,进行分布式聚类分析结语与总结本次课程我们深入探讨了机器学习中的聚类分析技术,从基本概念到常用算法,再到实际应用,希望能够帮助大家系统地掌握聚类分析的理论与实践技能聚类分析作为一种重要的非监督学习方法,在各个领域都发挥着关键作用随着人工智能技术的不断发展,聚类分析将迎来更广阔的应用前景课程关键知识点回顾聚类分析的基本概念和原理各种聚类算法的实现步骤和优缺点12如何选择合适的聚类算法解决实际问题聚类分析在各个领域的应用案例34环节QA感谢大家的参与!现在进入环节,欢迎大家提出关于聚类分析的任何问题,QA我会尽力为大家解答希望本次课程能够对大家有所帮助,谢谢!。
个人认证
优秀文档
获得点赞 0