还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
机器学习与数据挖掘文本分类与聚类课件通过机器学习算法发现文本数据价值,掌握分类与聚类核心技术绪论文本数据的价值与挑战数据构成增长挑战非结构化数据占据以上数据增长速度惊人80%价值挖掘信息爆炸下的价值发现课程结构与学习目标理解基本概念掌握关键理论算法原理掌握核心算法机制应用实践实现典型模型文本挖掘的定义与发展历程1起步阶段年代初步探索19902理论成熟年代算法突破20003产业应用年代大规模落地20104智能革新深度学习全面应用应用场景与行业案例预览推荐系统内容过滤个性化内容推送垃圾信息自动识别舆情分析智能检索社交媒体情感监测语义理解查询优化文本数据的表示原理向量转换特征提取文本转化为数值特征向量文本分割识别关键词汇与模式将文档拆分为句子、词语词袋模型与TF-IDF词频特征逆文档频率TF-IDF统计词语在文档中出现次数惩罚常见词,突出区分性词汇结合两项指标词频文档总词数总文档数包含该词文档数TF=/IDF=log/TF-IDF=TF×IDF词向量与Word2Vec分布式表示革命词语映射到高维空间向量模型Skip-gram预测目标词周围词语模型CBOW用周围词预测目标词语义捕捉相似词在向量空间接近文本预处理流程分词将文本切分为单词或标记去停用词移除常见无意义词语词形还原词干提取或词形还原标准化大小写统一与特殊符号处理特征工程与降维方法信息增益基于熵的特征选择方法卡方检验统计方法评估特征相关性主成分分析降维保留主要信息PCA潜在语义分析挖掘词语间隐含关系LSA文本分类定义与背景预测目标自动分配正确标签训练数据带标签样本集有监督学习模型从已知标签中学习常见文本分类任务主题分类情感分析垃圾邮件检测确定文档所属判断态度倾向类别过滤不良信息作者识别判断文本创作者分类问题的数学建模输入形式输出形式损失函数文档表示为特征向量类别标签∈衡量预测与真实标签差距d xy{c₁,c₂,...,cₖ}概率分布x=[x₁,x₂,...,xₙ]Py|x Ly,fx朴素贝叶斯分类器原理后验概率∝Pc|d Pc×Pd|c先验概率类别文档数总文档数Pc=c/条件概率Pd|c=Pw₁,w₂..wₙ|c条件独立假设4Pd|c=Pw₁|c×Pw₂|c×...×Pwₙ|c朴素贝叶斯优缺点优点缺点计算效率高特征独立性假设强••小样本也能训练对零概率敏感••易于实现倾向于高频类别••可处理多分类问题表达能力有限••近邻()分类器k kNN距离计算排序选择计算测试样本与所有训练样本距离选取最近的个邻居k值优化投票决策k通过交叉验证选择最佳多数表决确定类别k支持向量机()及核方SVM法间隔最大化寻找最优分隔超平面支持向量影响决策边界的关键样本核函数解决非线性可分问题正则化参数值平衡间隔与错分C决策树与随机森林决策树特征条件分支结构随机特征选择每次分裂考虑部分特征多树集成组合多棵树提高性能神经网络与深度学习在文本分类中的应用词嵌入特征表示Word embedding循环神经网络捕捉序列信息RNN/LSTM卷积神经网络捕获局部特征CNN注意力机制关注关键信息Transformer模型选择与调优方法模型比较1不同算法效果对比超参数网格搜索2系统遍历参数组合交叉验证3评估模型稳定性集成方法4组合多个模型提升效果文本分类流程全景演示数据收集获取标注文本数据集数据清洗预处理与特征提取数据分割训练集与测试集划分模型训练选择算法训练分类器评估优化测试结果分析与模型改进实践案例新闻主题分类数据集介绍分类标签设置新闻文章集合,多源头多领域政治•经济•科技•体育•文化•模型选择对比、朴素贝叶斯与深度学习方法SVM结果展示与性能对比文本聚类定义与背景无监督学习与分类对比无需标记数据自动发现结构分类已知类别,预测标签基于内在相似性分组聚类未知类别,发现结构典型聚类应用场景文档组织主题发现信息检索辅助自动归档与结构化识别文档集中隐含主题改善搜索结果分组展示用户画像基于兴趣特征分组聚类问题的形式化定义数学定义约束条件将数据集划分为子集完备性覆盖所有数据点D•{C₁,C₂,...,Cₖ}互斥性点仅属一个簇•优化目标簇内相似度高,簇间相似度低均值()聚类算法k k-means初始化分配1随机选择个聚类中心将每个点分配到最近中心k2迭代更新重复直至收敛或达到迭代次数重新计算各簇中心点层次聚类()Hierarchical Clustering自底向上方法自顶向下方法树状图展示凝聚式从单点开始合并分裂式从整体开始划分直观显示合并或分裂过程每个点初始为一簇所有点作为一簇不同层次可得不同分组
1.
1.合并最相似簇对分裂异质性高的簇
2.
2.不断重复至一个簇继续直至满足条件
3.
3.基于密度的算法DBSCAN1邻域定义给定距离内的所有点ε2核心点识别邻域内至少有个点MinPts3簇扩展连接所有密度可达点4噪声处理非核心且不可达点为噪声文本聚类中的距离计算向量空间模型在聚类中的作用维度挑战高维空间中的稀疏性问题降维处理保留主要信息减少维度表示学习学习更紧凑有效的表示特征变换非线性映射捕获复杂关系聚类结果可视化t-SNE PCAUMAP保留局部结构的非线性映射线性降维保留最大方差方向流形学习方法适合高维数据可视化计算效率高但损失非线性关系保留全局与局部结构聚类与主题建模的关联主题模型概率生成过程LDA1文档为主题混合,主题为词分布贝叶斯推断确定潜在结构2可解释性软聚类特性4每个主题由关键词表示3文档可属于多个主题文本聚类流程及案例文档收集网络爬虫获取新闻文章预处理转换特征提取与向量化选择聚类数肘部法则确定最佳簇数运行算法应用或层次聚类K-means结果解释生成每簇关键词与标签评估文本分类的主要指标精度Precision正确正例/预测正例总数召回率Recall正确正例/实际正例总数F1F1Score精度与召回率调和平均AUC曲线下面积ROC综合评价分类性能评估文本聚类的常用方法轮廓系数指数指数Rand NMIDB衡量簇内紧密度与簇间聚类结果与参考分组一标准化互信息度量信息簇内分散度与簇间距离分离度致性共享比率交叉验证与模型泛化能力折交叉验证留一法k将数据分为份极端情况下等于样本数k k轮流用份训练,份测试每次仅用一个样本测试k-11取平均评估稳定性计算成本高但评估最充分典型开源工具与平台序列数据与上下文建模注意力机制双向LSTM关注关键位置信息Transformer序列特性同时捕捉前后文信息文本本质是词序列,顺序影响意义迁移学习和预训练模型特定任务微调针对目标任务调整参数预训练模型等大规模语言模型BERT海量语料学习通用语言知识表示大规模文本处理的挑战数据存储分布式文件系统管理海量文本计算效率并行计算加速处理可扩展性等框架支持横向扩展Spark实时处理流处理框架满足低延迟需求行业案例社交媒体评论情感分析1数据获取1抓取平台评论API2情感标注人工标注训练集特征工程3情感词词典与情绪符号4模型训练情感分类器BiLSTM实时监测5品牌评价动态变化行业案例新闻自动聚类与主题发现2多源数据采集自动化预处理主题聚类爬虫定时获取各媒体平台文章清洗、分词、特征提取流水线自适应算法确定最佳聚类数多标签文本分类的挑战与应对多标签问题文档同时属于多个类别数据稀疏性标签组合爆炸式增长标签相关性利用标签间依赖关系提升性能算法改进4链式分类器与神经网络多头输出中文文本处理的特殊难点分词复杂度多义词处理无明显词语边界同形词意义差异大词语歧义方言与网络用语上下文相关语义理解非标准表达理解难最新研究前沿与趋势图神经网络多模态融合融合文本与知识图谱文本与图像联合分析1少样本学习大型语言模型降低标注数据依赖系列通用文本处理GPT未来展望自动化与智能化文本挖掘自动特征生成自适应模型可解释AI神经架构搜索找最佳特持续学习适应数据变化透明决策过程理解征人机协同专家知识融入算法学习资源推荐与延伸阅读经典教材在线课程竞赛平台《机器学习》周志华吴恩达机器学习文本分类竞赛•••Kaggle《数据挖掘导论》自然语言处理中文处理•Tan•CS224n•DataFountain《》清华大学数据挖掘课程研讨会共享任务•Text MiningAggarwal••NLP总结知识回顾与重点回顾文本表示文本分类词袋模型与词向量朴素贝叶斯、与深度学习SVM评估优化文本聚类指标选择与模型调优
3、层次聚类与主题模型K-means课后思考与实践指导项目建议从真实需求出发选题代码实操复现经典算法理解原理探究方向跨领域应用与创新方法团队协作分工合作解决复杂问题。
个人认证
优秀文档
获得点赞 0