还剩58页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
挖术数据掘技从数据中发现隐藏的模式和知识课绍纲程介与大础论基理数据挖掘概念、流程和前置知识术核心技分类、聚类、关联规则、回归分析等算法级高方法集成学习、深度学习、大规模数据处理实应践用么挖什是数据掘?挖义挖标数据掘的定数据掘的目从大量数据中提取模式和知识的过程预测未知或未来的数据值非平凡信息的自动化发现识别异常行为和模式结合多学科技术的交叉领域发现数据间的关联关系挖数据掘的重要性时大数据代的需求数据量呈爆炸性增长传统分析方法难以应对需要自动化智能分析工具业值商价提升决策质量发现市场机会优化业务流程挖应领数据掘的用域业疗零售行医健康市场篮分析疾病预测推荐系统药物研发领业金融域教育行销售预测医疗图像分析风险评估学习行为分析欺诈检测个性化教学客户细分挖数据掘的一般流程数据收集确定数据源预处数据理清洗转换集成构模型建选择算法训练模型结评果估预处数据收集与理数据来源数据清洗企业内部数据库处理缺失值网络爬虫收集去除噪声物联网设备识别并修正异常值第三方数据平台处理不一致数据公开数据集转换数据与集成选择规特征数据范化剔除无关特征最小-最大规范化识别重要属性Z-score标准化降低数据维度小数定标规范化数据集成合并多源数据解决数据冗余挖构数据掘模型建挖务确定掘任分类、聚类、关联规则还是回归选择适合算法根据任务和数据特点选择调优参数设置合适参数提高性能训练模型使用训练集构建模型测试模型结评释果估与解业务理解转化为可行业务洞见结释果解用业务语言描述发现验证效果测试集评估模型性能评标估指仓库简数据介义挖关定与特点与数据掘的系•面向主题的数据集合•提供清洗整合的数据源•集成的•支持多维数据分析•相对稳定的•为挖掘提供历史数据•反映历史变化的•存储挖掘结果•支持决策的数据环境仓库构数据架层数据源业务系统、外部数据层ETL数据抽取转换加载储层数据存星型模型、雪花模型访问层数据较OLAP与OLTP的比特征OLTP OLAP主要功能日常交易处理复杂分析查询数据特点当前数据历史汇总数据数据更新频繁批量定期响应时间毫秒级秒到分钟用户类型操作人员类术分技概述习阶类学段分器从已标记数据构建模型将新实例映射到类别优阶测试阶化段段评估分类准确性树决策算法ID3算法基于信息增益选择属性倾向选择取值多的属性C
4.5算法使用增益率克服ID3缺点能处理连续属性CART算法生成二叉树树构过决策建程备训练准数据包含特征和目标类别选择最佳分裂属性计算信息增益或增益率数据集分裂根据选定属性划分子集递归构树建子对每个子集重复过程停止条件节点纯净或达到最大深度树术决策剪枝技预剪枝后剪枝在构建过程中停止生长先构建完整树再修剪•设置最小样本数阈值•悲观误差估计•限制树的最大深度•代价复杂度剪枝•信息增益小于阈值停止•错误率降低则替换子树贝类朴素叶斯分器基本原理基于贝叶斯定理假设特征条件独立优点算法简单高效少量训练数据即可对缺失数据不敏感局限性特征独立性假设过强零概率问题应用场景文本分类垃圾邮件过滤情感分析支持向量机SVM原理间类最大隔分支持向量寻找最优超平面最接近决策边界的样本点最大化类别间距离决定超平面位置核技巧将低维数据映射到高维空间解决非线性分类问题选择SVM核函数线性核多项式核1线性可分问题低维非线性问题24Sigmoid核径向基函数邻K近KNN算法1K寻找最近邻选择参数K计算样本间距离确定考虑的邻居数量35距离度量投票决策欧氏距离、曼哈顿距离等按邻居多数类别分类经络础神网基组基本成工作机制•神经元节点•输入特征加权求和•连接权重•通过激活函数变换•激活函数•生成输出信号•网络层次结构•反向传播调整权重层多感知器MLP输层入接收原始数据隐层藏特征提取转换输层出生成预测结果通过反向传播算法训练可解决非线性分类问题适用于复杂模式识别任务习简深度学介应领用域计算机视觉、自然语言处理构模型架CNN、RNN、Transformer层结构深多隐藏层自动提取特征核心思想多层次特征学习类聚分析概述义标定目将数据划分为相似组组内相似度高无监督学习方法组间相似度低应场用景客户分群图像分割异常检测K-means算法初始化随机选择K个中心点分配将点分配到最近中心更新重新计算各簇中心点迭代重复直到收敛层类次聚方法自下而上凝聚自上而下分裂起始每点一簇起始所有点一簇逐步合并最相似簇逐步分裂不相似簇构建聚类树形成层次结构主要距离度量方法单链链链接全接平均接Ward方法类DBSCAN密度聚核心思想基于密度的聚类发现任意形状簇关键参数Eps邻域半径MinPts最小点数点的分类核心点边界点噪声点优势不需预设簇数抗噪声能力强发现不规则簇类评标聚算法估指2评估类型内部评估、外部评估0-1轮廓系数衡量簇内紧密度与簇间分离度0+Davies-Bouldin指数较小值表示更好聚类
1.0兰德指数与参考分类的一致性关联规则挖掘应概念用发现项目间的关联关系•购物篮分析•交叉销售形式X→Y•商品布局优化表示若X出现则Y可能出现•推荐系统•网站导航设计Apriori算法扫库描数据计算单项频繁项集选候生成根据频繁项集组合新候选剪枝剔除不可能频繁的候选计支持度数计算候选项集支持度识别频项繁确定符合最小支持度的项集FP-Growth算法两阶处基本思想段理无需生成候选项集构建FP树使用FP树压缩数据表示从FP树挖掘频繁模式优势比Apriori更高效减少数据库扫描次数压缩数据结构关联规则评标估指
0.05支持度Support规则在所有交易中出现的频率
0.8置信度Confidence规则条件成立时结论成立的概率
1.2提升度Lift规则相对于随机情况的改进程度
0.75确信度Conviction比较规则失效频率挖序列模式掘义1定发现有序事件序列中的模式2算法GSP、SPADE、PrefixSpan应3用网页点击路径分析用户行为预测战4挑时间约束处理计算复杂度高归础回分析基义类定型预测连续值的监督学习方法•简单线性回归•多元线性回归建立自变量与因变量关系模型•多项式回归•非线性回归线归性回逻辑归回应基本原理特点与用线性回归输出通过Sigmoid函数变换•解决二分类问题•可扩展为多分类预测样本属于某类的概率•提供概率输出概率大于
0.5判为正类•信用评分•医疗诊断归树树回与模型归树树优势回模型叶节点是常数值叶节点是线性模型易于理解CART算法常用M5算法实现处理缺失值适合非线性关系结合树与线性回归优点预测速度快时间序列分析检测术异常技统计离方法基于距Z-score、箱线图KNN、LOF算法基于假设检验评估局部密度基于模型基于密度SVM、孤立森林3DBSCAN变体一类分类方法识别低密度区域视数据可化方法图热图标络图散点力平行坐网显示两变量关系展示数据密度分布多维数据模式识别展示对象间关系维术降技PCA LDA主成分分析线性判别分析•最大方差方向投影•监督降维方法•线性降维方法•最大化类间距离•保留最大信息量•最小化类内距离•特征不相关•考虑类别信息选择特征与提取过滤法包装法基于统计指标筛选使用目标算法评估卡方检验、信息增益递归特征消除嵌入法学习过程中选择带正则化的模型习集成学概述构样训练习建多性模型独立基学器1不同数据子集或特征决策树、神经网络等结提高整体性能4合多个模型降低方差和偏差投票、加权平均等Bagging方法基本思想自助采样构建多样性并行训练基学习器实现步骤有放回抽样训练独立模型投票或平均结合典型算法随机森林Pasting随机子空间优势降低过拟合风险提高泛化能力易于并行实现Boosting算法训练权序列加投票基学习器按顺序生成表现好的模型权重大123样权本加关注难分样本AdaBoost GradientBoosting调整样本权重拟合残差指数损失函数梯度下降思想早期经典算法更灵活的损失函数随机森林基本组成多棵决策树组成结合Bagging和随机特征选择样本采样有放回抽样构建训练集约1/3样本作为袋外数据特征选择每个节点随机选择特征子集增加树的多样性预测方式分类问题投票回归问题平均评模型估方法验证线交叉ROC曲K折交叉验证真正率vs假正率留一法AUC值越大越好重复随机抽样评估二分类性能更可靠的模型评估对不平衡数据不敏感过拟拟合与欠合拟适拟过拟欠合度合合模型过于简单模型复杂度适中模型过于复杂训练集表现差泛化能力最佳记住训练数据噪声偏差大方差小偏差方差平衡偏差小方差大处理不平衡数据层数据面欠采样多数类过采样少数类SMOTE生成合成样本层算法面调整类别权重代价敏感学习阈值移动法集成方法Bagging解决样本不平衡Boosting关注困难样本使用多种分类器组合规挖大模数据掘高效算法在线算法、近似算法样数据抽代表性样本子集训练计并行算分布式框架处理储分布式存数据分片存储与管理挖分布式数据掘框架Hadoop SparkFlink Storm批处理框架内存计算框架流批一体框架实时流处理框架隐护挖私保数据掘术战技方法挑与平衡•数据匿名化•隐私与效用权衡•差分隐私•隐私泄露风险•安全多方计算•计算效率问题•联邦学习•监管合规要求•零知识证明•用户信任建立挖术文本掘技预处文本理1分词、去停用词、词形还原特征表示2词袋模型、TF-IDF、词嵌入文本分析分类、聚类、情感分析、主题建模络社交网分析网络表示节点与边有向与无向图中心性分析度中心性接近中心性中介中心性社区发现模块度最大化社区内部紧密社区间松散影响力分析关键节点识别信息扩散模拟统推荐系原理构数据收集模型建用户行为、特征信息协同过滤、内容推荐馈优反化生成推荐3评估调整改进排序、多样性、新颖性挖绍数据掘工具介语R言Python Weka统计分析强大生态系统丰富图形界面友好可视化能力优秀易于学习与使用无需编程经验挖实数据掘践案例分析问题义定明确业务需求处数据理清洗整合特征工程构模型建选择算法训练评估应部署用实际业务流程集成挖发趋势数据掘的未来展自动化挖掘AutoML技术崛起图数据挖掘复杂关系网络分析边缘计算本地实时数据分析道德与责任公平透明可解释深度学习融合表示学习突破课总结程与展望继续习学前沿技术持续关注实际应用学以致用解决实际问题核心技能算法模型评估方法础识基知4数据处理挖掘流程。
个人认证
优秀文档
获得点赞 0