还剩27页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
挖课简类数据掘件化版聚分析本课件将简要介绍数据挖掘中重要的聚类分析技术,旨在帮助你快速掌握其原理和应用么类什是聚分析义标定目聚类分析是一种无监督学习方法,它将数据对象划分成多个组,使将数据划分成有意义的组,发现数据中隐藏的结构和模式,为后续得组内对象相似度较高,组间对象相似度较低的分析和决策提供基础类应场聚分析的用景户细图客分像分割将客户群分成不同的组,以便根据不同组的特征制定个性化的营将图像中的不同区域划分成不同的组,以便更好地理解图像内容销策略类检测文档分异常将文档分成不同的组,以便更好地管理和检索文档将异常数据从正常数据中区分出来,以便更好地理解数据分布和发现潜在的问题类骤聚分析的基本步数据准备1选择聚类算法2确定聚类参数3执行聚类分析4评价聚类结果5结果可视化和解释6类类聚算法的分划分聚类层次聚类密度聚类模型聚类K-Means算法原理初始化1随机选择K个数据点作为初始聚类中心分配2计算每个数据点到K个聚类中心的距离,将每个数据点分配到距离最近的聚类中心所在的组更新3重新计算每个组的中心点,即计算组内所有数据点的均值迭代4重复步骤2和3,直到聚类中心不再变化K-Means算法流程输入1数据集合,聚类中心数量K初始化2随机选择K个数据点作为初始聚类中心分配3计算每个数据点到K个聚类中心的距离,将每个数据点分配到距离最近的聚类中心所在的组更新4重新计算每个组的中心点,即计算组内所有数据点的均值迭代5重复步骤3和4,直到聚类中心不再变化输出6最终的聚类结果优K-Means算法缺点优点缺点•易于理解和实现•需要预先设定聚类中心数量K•计算速度快•对初始聚类中心的选取敏感•适用于大数据集•不适合处理非球形数据层类次聚算法原理12凝聚式分裂式从每个数据点作为一个单独的组开始,逐步合并距离最近的组,直从所有数据点属于同一个组开始,逐步将组分成两个子组,直到每到所有数据点都属于同一个组个数据点都是一个单独的组层类次聚算法流程凝聚式分裂式计算数据点之间的距离,合并距离最近的两个组,重复此步骤,直将所有数据点视为一个组,然后将其分裂成两个子组,重复此步骤到所有数据点都属于同一个组,直到每个数据点都是一个单独的组层类优次聚算法缺点优点缺点•不需要预先设定聚类中心数量•计算量较大,特别是对于大数据集•可以生成聚类层次结构,便于分析•对噪声数据敏感DBSCAN算法原理核心点1如果一个数据点在其半径范围内有足够多的数据点,则该数据点为核心点边界点2如果一个数据点在其半径范围内没有足够多的数据点,但它距离某个核心点足够近,则该数据点为边界点噪声点3既不是核心点,也不是边界点的点为噪声点DBSCAN算法流程输入1数据集合,半径参数,最小点数参数识别核心点2根据半径参数和最小点数参数,识别数据集合中的核心点构建聚类3从一个核心点开始,递归地访问所有与它相连的核心点和边界点,直到所有与它相连的点都被访问过识别噪声点4未被分配到任何聚类的点为噪声点输出5最终的聚类结果优DBSCAN算法缺点优点缺点•不需要预先设定聚类中心数量•对半径参数和最小点数参数敏感•可以识别非球形数据•不适合处理高维数据•对噪声数据鲁棒性较强类评标聚算法的价指轮廓系数Dunn指数Calinski-Harabasz指数Davies-Bouldin指数轮廓系数义定1轮廓系数是用来评估聚类结果质量的一个指标,取值范围为[-1,1]义含2轮廓系数越大,表示聚类结果越好轮计过廓系数算程骤步11计算每个数据点到其所属簇内所有其他点的平均距离,记为a骤步22计算每个数据点到其他簇内所有点的平均距离,取最小值,记为b骤步33计算轮廓系数s=b-a/maxa,b轮释廓系数解10s接近1s接近0表示数据点与其所属簇的相似度很高表示数据点与其所属簇的相似度与其,与其他簇的相似度很低,聚类结果他簇的相似度差不多,聚类结果不好很好-1s接近-1表示数据点与其所属簇的相似度很低,与其他簇的相似度很高,聚类结果很差类选择聚算法的类规对数据型数据模数据分布噪声的容忍度例如,数值型数据、文本数据例如,小数据集、中等数据集例如,球形数据、非球形数据例如,对噪声数据敏感的算法、图像数据等、大数据集等、高维数据等、对噪声数据鲁棒性强的算法等预处数据理的重要性类错误类节计时间提高聚效果避免的聚省算数据预处理可以提高聚类算法的性能,数据预处理可以避免由于数据质量问题数据预处理可以简化数据,减少计算时得到更好的聚类结果导致的错误聚类结果间,提高算法效率标数据准化方法Z-score标准化Min-Max标准化Decimal scaling标准化值处缺失理方法删换除法替法删除包含缺失值的数据点或特征用均值、中位数、众数等方法替换缺失值预测法利用其他特征预测缺失值选择术特征技12过滤式包裹式根据特征本身的特性进行选择,例如将特征选择视为一个搜索问题,根据方差分析、信息增益等模型性能进行选择3嵌入式将特征选择集成到模型训练过程中,例如L1正则化维术数据降技线别主成分分析(PCA)性判分析(LDA)将原始数据投影到低维空间,保留数据的主要信息将数据投影到低维空间,使不同类别的样本尽可能分离类结视聚果可化类结释聚果分析与解类分析聚中心分析簇内数据分析每个簇的中心点,了解每个簇分析每个簇内数据的分布,了解每的特征个簇的内部结构间关分析簇系分析不同簇之间的关系,了解数据的整体结构类实际业务应聚算法在中的用户细产诈检测客分品推荐欺将客户群分成不同的组,以便根据不同组的根据用户购买历史和行为,推荐可能感兴趣识别异常交易行为,防止欺诈行为发生特征制定个性化的营销策略的产品类发趋势聚算法的未来展高维数据聚类流数据聚类分布式聚类课总结本程本课件简要介绍了聚类分析的基本概念、常用算法和应用场景,希望能够帮助你更好地理解和应用聚类分析技术。
个人认证
优秀文档
获得点赞 0