还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
数据挖掘与分析课件概览本课程介绍数据挖掘核心技术与应用领域探索从数据中提取有价值信息的方法学习如何应用数据挖掘解决实际问题什么是数据挖掘?知识发现从大规模数据中提取模式数据分析揭示隐藏关系和趋势关联AI机器学习与统计学交叉应用数据挖掘发展简史1年代初1990概念形成2年1996首届KDD会议3年代2000商业化应用兴起4年后2010大数据时代全面发展数据挖掘应用领域金融医疗风险评估疾病预测欺诈检测健康管理政府电商资源优化推荐系统公共服务用户画像课程结构与考核说明理论部分实践部分基本概念案例分析算法原理编程实现模型评估项目实战考核方式期末考试项目报告平时作业数据挖掘流程总览数据收集获取原始数据数据预处理清洗转换模型构建应用算法结果评估验证解释数据采集与数据源非结构化数据文本、图像、视频半结构化数据XML、JSON文档结构化数据数据库、表格数据数据预处理基础数据清洗去除噪声处理缺失值数据集成合并多源数据解决冲突数据变换归一化标准化数据规约降维特征选择特征选择与降维特征选择降维技术过滤法主成分分析PCA包装法线性判别分析LDA嵌入法t-SNE目标选择最相关特征目标减少特征数量数据建模基本思想问题定义明确业务目标数据划分训练集、测试集、验证集模型选择算法与参数确定模型评估性能度量与优化数据分析与可视化数据挖掘主要任务分类聚类关联规则预测类别标签发现自然分组发现项目间关系回归异常检测预测连续值识别异常模式分类任务及应用常见算法应用场景•决策树•垃圾邮件过滤•朴素贝叶斯•文档分类•支持向量机•医疗诊断•神经网络•贷款风险评估聚类任务及应用均值聚类层次聚类密度聚类K基于距离划分树状结构划分基于密度划分应用客户细分、图像分割、文档归类关联规则分析项目集支持度置信度{面包,牛奶}40%80%{尿布,啤酒}30%75%{水果,零食}25%65%购物篮分析发现物品间关联Apriori算法频繁项集挖掘回归分析与预测线性回归寻找变量间线性关系应用房价预测、销量分析逻辑回归预测二分类概率应用风险评估、疾病预测异常检测统计方法距离方法密度方法基于均值方差识别基于距离识别基于局部密度识别应用欺诈检测、网络安全、设备监控评价模型好坏的标准95%准确率正确预测的比例92%召回率识别正例的能力
93.5分数F1准确率和召回率的调和平均
0.97值AUCROC曲线下面积决策树算法详解特征选择树构建信息增益计算递归划分数据分类剪枝从根到叶路径防止过拟合随机森林与集成学习多棵决策树方法方法Bagging Boosting训练不同数据子集并行训练多个模型串行训练改进模型集成学习优势稳定性强、泛化能力好支持向量机()SVM核心思想•寻找最大间隔超平面•支持向量确定边界•核函数处理非线性最大化间隔原理示意图应用文本分类、图像识别、生物信息学最近邻()算法K KNN分类分类距离度量K=3K=5多数表决多数表决欧式、曼哈顿、余弦K值选择较小易过拟合,较大计算量大朴素贝叶斯分类器基于概率理论优点贝叶斯定理应用训练快速适合小数据集缺点特征独立性假设数值特征处理弱人工神经网络基础输入层接收特征数据隐藏层非线性转换输出层产生预测结果深度学习与数据挖掘卷积神经网络循环神经网络CNN RNN图像处理序列数据处理特征自动提取时间依赖建模均值聚类算法原理K初始化中心点随机选择K个中心分配样本每个样本分配到最近中心更新中心点计算每组均值作为新中心收敛判断中心点稳定或达到迭代次数层次聚类方法凝聚层次聚类分裂层次聚类自下而上合并自上而下分裂距离度量单连接、全连接、平均连接计算复杂度较高密度聚类DBSCAN核心点边界点噪声点邻域内点数≥MinPts不是核心点但在核心点既不是核心点也不是边邻域内界点关联规则挖掘深入支持度置信度项集在总交易中占比规则的可靠性支持度X→Y=PX∪Y置信度X→Y=PY|X提升度相关性度量提升度X→Y=PY|X/PY算法原理Apriori算法FP-Growth优势构建FP-Tree•压缩数据结构
1.扫描数据库•避免候选集生成
2.构建项头表•内存效率高
3.构建树结构•速度快于Apriori
4.递归挖掘异常检测常用方法统计方法基于数据分布特性基于距离样本间距离度量基于密度局部密度异常分析基于机器学习孤立森林、一类SVM评价与模型选择策略折交叉验证网格搜索随机搜索K评估模型稳定性穷举超参数组合随机采样参数空间模型评价与选择对最终性能至关重要金融风控中的应用实例信用评分欺诈检测历史数据建模异常交易识别违约概率预测实时监控系统贷款定价依据降低损失率投资组合优化风险收益分析资产配置建议市场波动预测智能推荐系统协同过滤基于用户相似度推荐基于内容基于项目特征推荐混合方法多种策略综合应用医疗健康数据挖掘疾病预测个体化诊疗•风险评估模型•患者分类聚类•早期筛查工具•治疗方案优化•预防医学支持•药物反应预测电商用户行为分析用户画像购买行为多维度特征刻画交易模式分析2营销策略浏览路径精准推送方案点击流分析社交网络数据挖掘社区发现影响力分析链接预测相似群体划分关键节点识别潜在关系发现社交网络分析助力营销、舆情和用户研究交通与智慧城市交通流量预测时空数据建模路线优化减少拥堵与排放事故预警风险区域识别资源分配公共设施布局优化物联网大数据分析自然语言处理应用情感分析文档分类文本摘要评论情绪识别主题自动归类自动内容提取命名实体识别关键信息提取图像与视频数据挖掘图像挖掘视频挖掘•目标检测•行为识别•场景分类•异常事件检测•内容检索•视频摘要时间序列数据分析模型指数平滑网络ARIMA LSTM自回归预测趋势捕捉长期依赖建模应用股票预测、气象分析、设备状态监控典型竞赛实战案例竞赛优势现实数据、明确目标、方案对比获奖策略特征工程、模型融合、创新算法大数据时代的数据挖掘生态生态Hadoop Spark分布式存储内存计算MapReduce计算机器学习库大规模数据处理实时处理能力分布式算法并行化设计数据划分策略通信开销优化数据隐私与伦理数据安全挑战隐私保护技术•个人信息保护•数据匿名化•数据所有权•差分隐私•授权与同意•加密计算新兴前沿与AutoML AutoDL数据准备自动预处理特征工程自动特征生成模型选择架构搜索超参数优化自动调参数据挖掘面临的挑战数据质量噪声、不完整、不一致规模挑战高维、海量数据处理公平性与偏见算法歧视问题可解释性黑盒模型理解困难行业发展趋势分析深度融合边缘计算智能决策AI智能升级实时分析自动化流程未来趋势跨学科融合、人机协同、负责任AI课程总结与学习建议实战应用竞赛参与进阶学习深度学习、强化学习编程实践项目驱动学习理论基础数学统计、算法设计。
个人认证
优秀文档
获得点赞 0