还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
机器学习聚类分析无监督学习的核心方法发现数据中隐藏的结构和模式什么是聚类分析?定义特点无监督学习方法无需预先标记数据自动将相似对象分组基于内在相似性划分与分类区别无需训练集无预定义类别聚类分析的发展与应用发展历程图像处理文本分析市场细分始于世纪年代图像分割与识别文档自动分类客户群体划分2060本课程结构与重点理论基础数学原理与概念算法学习主流聚类算法详解实践应用实现与案例分析Python效果评估聚类结果评价方法聚类分析中的基本概念样本特征空间相似性度量需要分类的个体样本的多维属性集合样本间的距离计算如顾客、文档、图像每维代表一个特征决定聚类的关键因素数据类型与预处理数值型数据连续值、有序值分类型数据无序标签、名义变量标准化消除量纲影响归一化映射到特定区间聚类的类型聚类分析基于相似性的数据分组按分配方式2硬聚类软聚类vs按算法结构3层次聚类分割聚类vs基本步骤与流程数据准备特征选择与预处理算法选择确定聚类方法与距离度量参数设置聚类数量或其他参数K结果评估聚类质量评价与可视化聚类分析的数学基础向量空间模型欧式距离曼哈顿距离余弦相似度样本表示为维向量直线距离,最常用坐标轴平行距离之向量夹角的余弦值n和距离计算方法详解距离类型公式简述适用场景欧氏距离各维差值的平方和开方连续数值、低维度曼哈顿距离各维差值绝对值之和网格型数据、稀疏数据余弦相似度向量点积除以模长乘积文本、高维数据明氏距离一般化的距离度量特定权重分配聚类数目的决定肘部法则统计量Gap轮廓系数误差与聚类数的转折点与随机分布对比聚类紧密度与分离度度量聚类结果的表现形式聚类中心标签输出散点图可视化各簇的中心点坐标样本所属簇的编号直观展示分组效果层次树状图显示样本间的关系层级均值()算法介绍K K-Means基本定义基础思想基于均值的迭代划分相似样本分到同一簇最小化组内距离平方和最小化簇内方差典型应用市场分割图像压缩异常检测均值算法流程与步骤K初始化分配随机选择个中心点样本划分至最近中心点K迭代更新重复分配与更新直至收敛重新计算簇中心均值算法案例(数值型数据)K均值算法的优缺点K优势缺点•计算效率高•需预先指定K值易于理解与实现对噪声敏感••可扩展性好只适合凸形簇••结果解释直观结果依赖初始点选择••可能陷入局部最优•均值算法的改进K初始化K-means++智能选择初始中心点Mini-Batch K-means小批量数据加速训练加权K-means特征重要性差异考量核K-means处理非线性边界固定的选取方法K3-1015%常用值范围拐点衡量K大多数应用适合的聚类数肘部法则中误差降低比例
0.7+轮廓系数目标良好聚类结果的指标值谱聚类()简介Spectral Clustering算法原理核心思想适用场景基于图论与矩阵分解降维后再聚类非凸形簇利用样本间的相似性图基于特征向量的空间变换复杂数据分布网络数据分析谱聚类算法实现步骤构建相似度矩阵计算样本间的相似性生成拉普拉斯矩阵计算图拉普拉斯算子特征分解计算拉普拉斯矩阵的特征向量降维映射利用前k个特征向量构建新空间标准聚类在新空间中应用K-means谱聚类应用案例同心圆数据螺旋形数据月牙形数据失效,谱聚类成功非线性分布的聚类效果复杂边界的精确划分K-means密度聚类简介DBSCAN基本原理基于密度的非参数聚类主要优势无需预设簇数特色功能自动识别噪声点适用数据任意形状的簇算法流程DBSCAN核心点密度可达边界点邻域内点数通过核心点连接的点邻域内有核心点但自ε≥MinPts链身非核心噪声点既非核心点也非边界点参数选择与影响DBSCAN聚类数量噪声点比例聚类效果演示DBSCAN层次聚类概述凝聚型分裂型算法框架自下而上合并自上而下分割无需预设K从单点开始从整体开始产生层次结构逐步合并最相似点逐步分割差异大的组可切割在任意层层次聚类的距离与链接单链接全链接平均链接链接Ward最近点间距离最远点间距离所有点对平均距离最小方差增量层次聚类案例详解切割选择水平线切割确定簇数不同高度产生不同粒度距离陡增处为最佳切点树状图解读纵轴表示距离或相异度横轴表示样本或簇高斯混合模型()及算法GMM EM模型假设数据来自多个高斯分布混合软聚类思想样本属于各簇的概率分布算法EM期望步骤与最大化步骤迭代收敛目标最大化数据的对数似然算法核心要点GMM均值向量协方差矩阵12各高斯分布的中心描述分布形状和方向参数估计混合系数43通过算法迭代优化各组分的权重EM聚类实例与均值对比GMM K均值结果结果概率密度K GMM假设簇为球形适应椭圆形分布提供概率信息GMM聚类算法比较与选择算法优点缺点适用场景均值简单高效需预设大数据,凸K K形簇任意形状,密度不均难非凸形簇,DBSCAN检测噪声处理有噪声层次聚类层次结构,计算复杂度小数据集,无需高需层次关系K概率模型,计算复杂,混合分布,GMM软聚类局部最优重叠簇其他常见聚类算法均值漂移算法基于核密度估计自动确定聚类数自组织映射神经网络聚类保持拓扑结构模糊均值C样本属于多个簇隶属度在到之间01特殊类型聚类算法基于网格聚类将空间分割为网格单元适合高维数据处理基于模型聚类假设数据由模型生成寻找最优模型参数大规模数据算法子采样,增量学习并行计算优化高维数据聚类子空间聚类技术处理维度灾难聚类效果评价指标概述外部指标需要真实标签内部指标无需真实标签相对指标比较不同聚类结果内部评价指标详解0-1轮廓系数样本内聚性与分离性→0DB指数Davies-Bouldin指数越小越好→0Dunn指数簇间最小距离与簇内最大距离比↓SSE簇内样本到中心距离平方和外部评价指标与真实标签理想值随机聚类值聚类可视化方法降维PCA线性降维方法保留最大方差方向t-SNE UMAP非线性降维流形学习降维保留局部结构兼顾全局与局部结构聚类稳定性分析数据扰动测试参数扰动测试12添加噪声样本改变聚类参数重采样测试一致性检验34多次采样对比结果计算结果相似度聚类中的异常点检测识别方法优势DBSCAN距离簇中心远的点自动标记噪声点孤立森林局部异常因子基于随机划分空间基于局部密度比较聚类案例图像分割原始图像均值分割不同值效果K K颜色空间颜色聚类结果颜色简化程度对比RGB聚类案例文本数据分析文本预处理分词,去停用词特征表示TF-IDF或词嵌入降维PCA或LSA降维聚类K均值或层次聚类主题提取基于频率或特征重要性聚类案例市场细分人口统计数据行为特征年龄,性别,收入购买频率,偏好12心理特征43地理位置生活方式,价值观区域,城市类型聚类中的特征选择过滤法基于方差或相关性降维法、等PCA t-SNE加权法不同特征赋予权重聚类结果解释性与可用性客户细分针对性营销策略推荐系统基于相似用户推荐异常检测发现欺诈行为层次结构发现发现数据内在组织实战实现均值Python K代码实现结果可视化from sklearn.cluster importKMeans import matplotlib.pyplot aspltimport numpyas np#绘制数据点#创建样本数据plt.scatterX[:,0],X[:,1],X=np.array[[1,2],[1,4],c=labels,[1,0],[4,2],cmap=viridis[4,4],[4,0]]#绘制聚类中心#初始化K均值模型plt.scattercenters[:,0],kmeans=KMeansn_clusters=2centers[:,1],c=red,#训练模型marker=X,kmeans.fitX s=200#获取聚类标签plt.showlabels=kmeans.labels_#获取聚类中心centers=kmeans.cluster_centers_实战代码实践DBSCANDBSCAN实现参数调优from sklearn.cluster importDBSCAN#获取噪声点import numpyas npnoise_points=X[labels==-1]importmatplotlib.pyplot asplt#获取簇的数量#创建样本数据n_clusters=lenX=np.random.rand100,2setlabels-1if-1inlabels else0#创建DBSCAN模型dbscan=DBSCAN printf簇的数量:{n_clusters}eps=
0.15,printf噪声点数量:min_samples=5{lennoise_points}#训练模型labels=dbscan.fit_predictX聚类分析常见难点与对策难点具体问题应对策略维度灾难高维空间距离失效降维,特征选择参数选择值,邻域半径等难网格搜索,可视化K确定评估非凸形状传统算法假设球形,谱聚类DBSCAN分布可扩展性大数据集计算开销采样,增量学习,大分布式不均衡聚类簇大小相差悬殊密度敏感算法,自适应参数聚类分析前沿深度聚类与自监督方法深度嵌入聚类DEC联合学习特征表示与聚类端到端优化自编码器聚类学习低维表示在潜空间进行聚类对比学习聚类自监督特征学习增强表示区分性生成模型与聚类VAE、GAN与聚类结合生成与分类共同优化总结与答疑环节学习回顾算法原理与应用场景实践要点代码实现与调优技巧拓展方向深度聚类与高维数据处理互动答疑解答常见问题。
个人认证
优秀文档
获得点赞 0